基于搜索引擎的知識發(fā)現(xiàn)
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者單位】: 北京理工大學(xué)計算機(jī)系 北京理工大學(xué)計算機(jī)系
【分類號】:TP311
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李剛;史向東;;基于Google搜索結(jié)果的重名消解方法[J];信息與電腦(理論版);2011年02期
2 張 陽,李建良,胡正國;NewsGrouper:一個自動抽取重要新聞的軟件工具[J];計算機(jī)工程;2002年04期
3 史旗凱;郭菊娥;;基于管理問題信息抽取的主題識別研究[J];情報科學(xué);2008年10期
4 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
5 史旗凱;郭菊娥;馬續(xù)補;葉金鳳;;基于SMA信息抽取的事實主題的識別研究[J];情報學(xué)報;2009年01期
6 張宏松;劉建輝;;面向Web的文本信息挖掘研究[J];計算機(jī)系統(tǒng)應(yīng)用;2006年09期
7 陸科進(jìn),李新穎;基于Ontology的文本信息抽取[J];計算機(jī)應(yīng)用研究;2003年07期
8 李向陽;苗壯;肖江;;無結(jié)構(gòu)文本信息抽取綜述[J];軍事通信技術(shù);2004年02期
9 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應(yīng)用;2007年06期
10 張巖;;基于本體的信息抽取技術(shù)研究[J];科技信息(學(xué)術(shù)研究);2008年36期
相關(guān)會議論文 前10條
1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
2 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
4 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識別中的應(yīng)用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
5 姜吉發(fā);王樹西;;一種自舉的二元關(guān)系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
6 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
7 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結(jié)合的案件名稱識別[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
9 周國棟;孔芳;朱巧明;;指代消解:國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
相關(guān)重要報紙文章 前3條
1 上海交通大學(xué)APEX數(shù)據(jù)和知識管理實驗室 王昊奮邋俞勇;語義Web推動下一代搜索[N];計算機(jī)世界;2007年
2 王培森;從Web挖到競爭情報[N];中國計算機(jī)報;2003年
3 希安;微軟試水信息檢索[N];經(jīng)濟(jì)日報;2004年
相關(guān)博士學(xué)位論文 前10條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
4 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
5 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
6 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
7 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年
8 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
9 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年
10 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年
2 張金;個性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學(xué);2010年
3 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年
4 李梅;改進(jìn)的K均值算法在中文文本聚類中的研究[D];安徽大學(xué);2010年
5 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
6 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
7 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
8 廉成洋;基于樹結(jié)構(gòu)的Web信息抽取技術(shù)研究[D];南京航空航天大學(xué);2010年
9 田宇;基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2011年
10 楊選選;基于概念圖和語義角色的多領(lǐng)域信息抽取系統(tǒng)研究[D];西北大學(xué);2010年
,本文編號:2308536
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2308536.html