基于搜索引擎的知識發(fā)現(xiàn)

發(fā)布時(shí)間：2018-11-03 18:00

【摘要】：數(shù)據(jù)挖掘一般用于高度結(jié)構(gòu)化的大型數(shù)據(jù)庫,以發(fā)現(xiàn)其中所蘊(yùn)含的知識。隨著在線文本的增多,其中所蘊(yùn)含的知識也越來越豐富,但是,它們卻難以被分析利用。因而,研究一套行之有效的方案發(fā)現(xiàn)文本中所蘊(yùn)含的知識是非常重要的,也是當(dāng)前重要的研究課題。該文利用搜索引擎Google獲取相關(guān)Web頁面,進(jìn)行過濾和清洗后得到相關(guān)文本,然后,進(jìn)行文本聚類,利用Episode進(jìn)行事件識別和信息抽取,數(shù)據(jù)集成及數(shù)據(jù)挖掘,從而實(shí)現(xiàn)知識發(fā)現(xiàn)。最后給出了原型系統(tǒng),對知識發(fā)現(xiàn)進(jìn)行實(shí)踐檢驗(yàn),收到了很好的效果。
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者單位】：北京理工大學(xué)計(jì)算機(jī)系北京理工大學(xué)計(jì)算機(jī)系
【分類號】：TP311

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 李剛;史向東;;基于Google搜索結(jié)果的重名消解方法[J];信息與電腦(理論版);2011年02期

2 張陽,李建良,胡正國;NewsGrouper:一個(gè)自動抽取重要新聞的軟件工具[J];計(jì)算機(jī)工程;2002年04期

3 史旗凱;郭菊娥;;基于管理問題信息抽取的主題識別研究[J];情報(bào)科學(xué);2008年10期

4 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

5 史旗凱;郭菊娥;馬續(xù)補(bǔ);葉金鳳;;基于SMA信息抽取的事實(shí)主題的識別研究[J];情報(bào)學(xué)報(bào);2009年01期

6 張宏松;劉建輝;;面向Web的文本信息挖掘研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2006年09期

7 陸科進(jìn),李新穎;基于Ontology的文本信息抽取[J];計(jì)算機(jī)應(yīng)用研究;2003年07期

8 李向陽;苗壯;肖江;;無結(jié)構(gòu)文本信息抽取綜述[J];軍事通信技術(shù);2004年02期

9 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期

10 張巖;;基于本體的信息抽取技術(shù)研究[J];科技信息(學(xué)術(shù)研究);2008年36期

相關(guān)會議論文前10條

1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報(bào)告篇）[C];2004年

2 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展（2009-2011）[C];2011年

3 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報(bào)告篇）[C];2007年

4 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識別中的應(yīng)用[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 姜吉發(fā);王樹西;;一種自舉的二元關(guān)系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

6 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報(bào)告篇）[C];2002年

7 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計(jì)相結(jié)合的案件名稱識別[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年

9 周國棟;孔芳;朱巧明;;指代消解：國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)重要報(bào)紙文章前3條

1 上海交通大學(xué)APEX數(shù)據(jù)和知識管理實(shí)驗(yàn)室王昊奮邋俞勇;語義Web推動下一代搜索[N];計(jì)算機(jī)世界;2007年

2 王培森;從Web挖到競爭情報(bào)[N];中國計(jì)算機(jī)報(bào);2003年

3 希安;微軟試水信息檢索[N];經(jīng)濟(jì)日報(bào);2004年

相關(guān)博士學(xué)位論文前10條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

4 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

5 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

6 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

7 張奇;信息抽取中實(shí)體關(guān)系識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年

8 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年

9 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年

10 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年

相關(guān)碩士學(xué)位論文前10條

1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年

2 張金;個(gè)性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學(xué);2010年

3 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年

4 李梅;改進(jìn)的K均值算法在中文文本聚類中的研究[D];安徽大學(xué);2010年

5 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年

6 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年

7 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年

8 廉成洋;基于樹結(jié)構(gòu)的Web信息抽取技術(shù)研究[D];南京航空航天大學(xué);2010年

9 田宇;基于XML的WEB信息抽取系統(tǒng)研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2011年

10 楊選選;基于概念圖和語義角色的多領(lǐng)域信息抽取系統(tǒng)研究[D];西北大學(xué);2010年

，

本文編號：2308536

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2308536.html

上一篇：基于Hadoop面向社交網(wǎng)絡(luò)的好友推薦系統(tǒng)的研究與應(yīng)用
下一篇：基于詞語相關(guān)度的搜索引擎排序算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于搜索引擎的知識發(fā)現(xiàn)