文本挖掘的研究及其在主題搜索引擎中的應用
本文關鍵詞:文本挖掘的研究及其在主題搜索引擎中的應用,由筆耕文化傳播整理發(fā)布。
《北京郵電大學》 2012年
文本挖掘的研究及其在主題搜索引擎中的應用
孫露喬
【摘要】:文本挖掘,對文本數(shù)據(jù)進行有價值的信息挖掘的過程。隨著網絡技術的飛速發(fā)展,互聯(lián)網已成為主要的信息載體。人們已經逐漸習慣通過搜索引擎獲取主題相關的頁面信息。但用戶不可能逐一瀏覽所有搜索引擎反饋的搜索結果頁面,需要先瀏覽網頁的基本概要信息。這樣,搜索引擎就需要文本挖掘技術對網頁進行信息的抽取。因此,WEB文本挖掘日漸成為文本挖掘的研究熱點,也是搜索引擎不可或缺的功能。 本文對文本挖掘的研究主要包括三個方面:利用文檔對象模型抽取WEB頁面中的文本信息,將WEB文本挖掘轉化為傳統(tǒng)的文本挖掘;研究并實現(xiàn)了文本分類系統(tǒng),驗證了多種特征選擇方案,提出了利用互信息進行特征選擇的改進辦法;研究并實現(xiàn)了文本聚類過程,使用自然語言處理技術進行文本聚類的特征選擇,并得到了有效驗證。 然后,本文分析了主題搜索引擎的文本挖掘特殊需求,針對一個主題招標系統(tǒng),綜合運用信息抽取技術、文本分類技術、文本聚類技術,設計并實現(xiàn)了主題搜索引擎的文本挖掘模塊。該模塊能夠對來自七十多個網站的不同頁面進行信息挖掘。 本文研究、設計與實現(xiàn)的各項技術均有實際的應用意義。
【關鍵詞】:
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期
2 吳鵬飛;;基于WVTool的文本向量空間模型研究與實現(xiàn)[J];電腦編程技巧與維護;2012年05期
3 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識與技術;2008年31期
4 姜園,張朝陽,仇佩亮,周東方;用于數(shù)據(jù)挖掘的聚類算法[J];電子與信息學報;2005年04期
5 徐泉清,朱玉文,李亮,劉萬春;一種結合粗糙集和Cobweb的聚類器[J];計算機應用;2005年06期
6 吳恒亮;;基于本體和DOM樹的Web信息抽取技術研究[J];情報科學;2010年07期
7 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
8 趙國富;曲國慶;;聚類分析中CLARA算法的分析與實現(xiàn)[J];山東理工大學學報(自然科學版);2006年02期
9 戴曉燕,過仲陽,李勤奮,吳健平;空間聚類的研究現(xiàn)狀及其應用[J];上海地質;2003年04期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李廣水;宋丁全;;數(shù)據(jù)分析在森林資源調查中的應用及發(fā)展研究[J];安徽農業(yè)科學;2009年22期
2 劉高軍;馬硯忠;段建勇;;基于維基百科的中文命名實體關聯(lián)度計算[J];北方工業(yè)大學學報;2012年01期
3 左國才;周榮華;符開耀;;基于DBSCAN算法的電信客戶分類的應用研究[J];北京聯(lián)合大學學報(自然科學版);2012年03期
4 李曉方;武仲科;樊亞春;周明全;柳勇光;;一種新的用于三維檢索的快速鄰域搜索方法[J];北京師范大學學報(自然科學版);2011年05期
5 章林柯;崔立林;;潛艇機械噪聲源分類識別的小樣本研究思想及相關算法評述[J];船舶力學;2011年08期
6 李曉寧;李曉峰;;空間聚類在精準施肥中應用的研究[J];長春師范學院學報(人文社會科學版);2008年10期
7 孫英娟;楊柳;何昆鳥;;屬性離散化算法研究[J];長春師范學院學報(人文社會科學版);2009年12期
8 陳慶枝;陳國龍;郭文忠;陳仕濤;;信息安全評估日志數(shù)據(jù)的一種混合聚類算法[J];重慶工學院學報(自然科學版);2009年10期
9 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應用[J];長春理工大學學報(自然科學版);2010年01期
10 李鑫;單維峰;豐繼林;李軍;高方平;李忠;;一種基于聚類的異常檢測方法[J];傳感器與微系統(tǒng);2011年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 曾成;趙錫均;徐紅;;基于量子遺傳算法的聚類方法[A];第二十九屆中國控制會議論文集[C];2010年
2 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 劉保政;汪定偉;;基于多因素的相近距離聚類方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 張立濤;張宇峰;;基于聚類分析的大型橋梁結構健康監(jiān)測數(shù)據(jù)異常識別研究[A];第21屆全國結構工程學術會議論文集第Ⅱ冊[C];2012年
5 孫浩軍;孔令俊;劉志輝;;利用高斯分布生成數(shù)據(jù)對聚類算法的比較[A];2007'儀表,自動化及先進集成技術大會論文集(一)[C];2007年
6 吳繼兵;李心科;;基于分治融合的混合屬性數(shù)據(jù)聚類算法研究[A];全國第20屆計算機技術與應用學術會議(CACIS·2009)暨全國第1屆安全關鍵技術與應用學術會議論文集(下冊)[C];2009年
7 余燦玲;王麗珍;張元武;;基于網格密度方向的聚類簇邊緣精度加強算法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(A輯)[C];2009年
8 劉尊洋;汪作來;王自榮;余大斌;孫曉泉;;基于譜系法改進FCM的仿造迷彩主色提取方法[A];第九屆全國光電技術學術交流會論文集(上冊)[C];2010年
9 池晶晶;黃堅;杜博文;;基于VSP分布的北京道路劃分[A];第七屆中國智能交通年會優(yōu)秀論文集——智能交通技術[C];2012年
10 李晉宏;徐潔;唐存雨;;聚類算法在試題存儲中的應用研究[A];全國冶金自動化信息網2013年會論文集[C];2013年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年
2 于翔;基于網格的數(shù)據(jù)流聚類方法研究[D];哈爾濱工程大學;2010年
3 徐紅波;基于空間填充曲線高維空間查詢算法研究[D];哈爾濱理工大學;2010年
4 尹可挺;Internet環(huán)境中基于QoS的Web服務組合研究[D];浙江大學;2010年
5 皋軍;智能識別中的降維新方法及其應用研究[D];江南大學;2010年
6 蘇曉珂;基于聚類的異常挖掘算法研究[D];東華大學;2010年
7 卓瑩;基于拓撲·流量挖掘的網絡態(tài)勢感知技術研究[D];國防科學技術大學;2010年
8 陳彬;面向DEVS的多范式建模與仿真關鍵技術研究與實現(xiàn)[D];國防科學技術大學;2010年
9 高翠芳;模糊聚類新算法及應用研究[D];江南大學;2011年
10 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉文昊;基于模糊聚類和紋版輔助的織物疵點檢測算法研究[D];浙江理工大學;2010年
2 李振;網絡輿情預測關鍵技術研究[D];鄭州大學;2010年
3 丁金鳳;基于網格與密度的數(shù)據(jù)流聚類算法研究[D];哈爾濱工程大學;2010年
4 劉萍;軟件體系結構恢復的研究與實現(xiàn)[D];大連理工大學;2010年
5 姜榮;時間序列的聚類和關聯(lián)規(guī)則挖掘研究[D];遼寧師范大學;2010年
6 李丹丹;基于權重設計的聚類融合算法研究及應用[D];遼寧工程技術大學;2009年
7 劉瓊;基于群體智能的聚類算法研究[D];長沙理工大學;2010年
8 陳鳳萍;壽光人才求職招聘網站中資源檢索算法的研究[D];中國海洋大學;2010年
9 邵帥;基于數(shù)據(jù)場的聚類可視化算法研究與應用[D];西北民族大學;2010年
10 孫大朋;入侵檢測中模糊C-均值聚類算法研究[D];哈爾濱理工大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙蔚;劉秀琴;邱百爽;;語義網自適應學習系統(tǒng)中領域本體的構建[J];吉林大學學報(信息科學版);2008年05期
2 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農業(yè)大學學報;2005年03期
3 李碧,雍正正;一種改進的基于遺傳算法的聚類分析方法[J];電路與系統(tǒng)學報;2002年03期
4 宋愛國,陸佶人;基于進化規(guī)劃的Kohonen網絡用于被動聲吶目標聚類研究[J];電子學報;1998年07期
5 高新波,裴繼紅,謝維信;模糊c-均值聚類算法中加權指數(shù)m的研究[J];電子學報;2000年04期
6 劉靜,鐘偉才,劉芳,焦李成;免疫進化聚類算法[J];電子學報;2001年S1期
7 張艷寧,趙榮椿,梁怡;一種有效的大規(guī)模數(shù)據(jù)的分類方法[J];電子學報;2002年10期
8 李潔;高新波;焦李成;;基于特征加權的模糊聚類新算法[J];電子學報;2006年01期
9 劉健莊,,謝維信,黃建軍,李文化;聚類分析的遺傳算法方法[J];電子學報;1995年11期
10 高新波,裴繼紅,謝維信;基于統(tǒng)計檢驗指導的聚類分析方法[J];電子科學學刊;2000年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 關毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張春紅;;文本分類技術應用于學科導航分類的可行性探討[J];情報科學;2009年07期
2 劉苗苗;張永生;;文本分類技術在搜索引擎中的應用[J];中國新技術新產品;2010年04期
3 吳岳芬;劉洪輝;;WEB文本挖掘的研究[J];電腦知識與技術(學術交流);2006年11期
4 黃迎春;李曉曄;鄧文新;;文本挖掘技術的研究[J];齊齊哈爾大學學報;2006年03期
5 張燕;寒楓;楚紅濤;;文本挖掘簡述[J];中國電力教育;2006年S3期
6 崔志明,謝春麗;基于Web的文本挖掘研究[J];微電子學與計算機;2002年10期
7 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識與技術;2008年31期
8 楊霞;黃陳英;;文本挖掘綜述[J];科技信息;2009年33期
9 余燕芳;;基于改進遺傳算法的Web文本挖掘系統(tǒng)[J];微電子學與計算機;2010年04期
10 郭玉濱;;Web文本挖掘技術及其應用的研究[J];電腦知識與技術(學術交流);2006年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
5 湯薇;曾艷;;構建校園網搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網絡搜索技術下的編輯工作[A];學報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 李一鑫;[N];財經時報;2007年
2 周文林;[N];經濟參考報;2007年
3 惠正一;[N];第一財經日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網與電子商務咨詢中心 常燕杰;[N];中國計算機報;2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國經營報;2005年
7 金朝力;[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;[N];中國證券報;2006年
9 孫琎;[N];第一財經日報;2006年
10 姜蕊;[N];中國高新技術產業(yè)導報;2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
6 郭眈;中文互聯(lián)網視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
7 徐建鎖;知識管理和文本挖掘的若干問題研究[D];天津大學;2004年
8 王镠璞;基于用戶體驗的互聯(lián)網搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
9 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
10 鄭文良;基于簡單本體的農業(yè)P2P搜索引擎關鍵技術研究[D];沈陽農業(yè)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 程春惠;公安犯罪案件文本挖掘關鍵技術研究[D];浙江大學;2010年
2 徐愛華;面向文本分類的中文文本挖掘技術研究及實現(xiàn)[D];武漢理工大學;2004年
3 李凱;Web挖掘在教學資源搜索引擎中的應用研究[D];東北師范大學;2007年
4 楊曉丹;基于Lucene的主題搜索引擎模板的設計與實現(xiàn)[D];浙江工商大學;2011年
5 易高翔;Web文本挖掘研究與實現(xiàn)[D];武漢科技大學;2004年
6 曾礪鋒;基于數(shù)字有機體數(shù)據(jù)庫的搜索引擎的理論研究與實現(xiàn)[D];電子科技大學;2008年
7 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年
8 王春花;基于Nutch的農業(yè)搜索引擎檢索結果排序策略的研究[D];西北農林科技大學;2010年
9 李雷;基于Nutch的農業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
10 譚龍遠;基于領域的網絡爬蟲技術的研究與實現(xiàn)[D];武漢理工大學;2009年
本文關鍵詞:文本挖掘的研究及其在主題搜索引擎中的應用,由筆耕文化傳播整理發(fā)布。
本文編號:175428
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/175428.html