文本挖掘的研究及其在主題搜索引擎中的應(yīng)用
本文關(guān)鍵詞:文本挖掘的研究及其在主題搜索引擎中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2012年
文本挖掘的研究及其在主題搜索引擎中的應(yīng)用
孫露喬
【摘要】:文本挖掘,對文本數(shù)據(jù)進(jìn)行有價(jià)值的信息挖掘的過程。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為主要的信息載體。人們已經(jīng)逐漸習(xí)慣通過搜索引擎獲取主題相關(guān)的頁面信息。但用戶不可能逐一瀏覽所有搜索引擎反饋的搜索結(jié)果頁面,需要先瀏覽網(wǎng)頁的基本概要信息。這樣,搜索引擎就需要文本挖掘技術(shù)對網(wǎng)頁進(jìn)行信息的抽取。因此,WEB文本挖掘日漸成為文本挖掘的研究熱點(diǎn),也是搜索引擎不可或缺的功能。 本文對文本挖掘的研究主要包括三個方面:利用文檔對象模型抽取WEB頁面中的文本信息,將WEB文本挖掘轉(zhuǎn)化為傳統(tǒng)的文本挖掘;研究并實(shí)現(xiàn)了文本分類系統(tǒng),驗(yàn)證了多種特征選擇方案,提出了利用互信息進(jìn)行特征選擇的改進(jìn)辦法;研究并實(shí)現(xiàn)了文本聚類過程,使用自然語言處理技術(shù)進(jìn)行文本聚類的特征選擇,并得到了有效驗(yàn)證。 然后,本文分析了主題搜索引擎的文本挖掘特殊需求,針對一個主題招標(biāo)系統(tǒng),綜合運(yùn)用信息抽取技術(shù)、文本分類技術(shù)、文本聚類技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了主題搜索引擎的文本挖掘模塊。該模塊能夠?qū)碜云呤鄠網(wǎng)站的不同頁面進(jìn)行信息挖掘。 本文研究、設(shè)計(jì)與實(shí)現(xiàn)的各項(xiàng)技術(shù)均有實(shí)際的應(yīng)用意義。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
2 吳鵬飛;;基于WVTool的文本向量空間模型研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2012年05期
3 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識與技術(shù);2008年31期
4 姜園,張朝陽,仇佩亮,周東方;用于數(shù)據(jù)挖掘的聚類算法[J];電子與信息學(xué)報(bào);2005年04期
5 徐泉清,朱玉文,李亮,劉萬春;一種結(jié)合粗糙集和Cobweb的聚類器[J];計(jì)算機(jī)應(yīng)用;2005年06期
6 吳恒亮;;基于本體和DOM樹的Web信息抽取技術(shù)研究[J];情報(bào)科學(xué);2010年07期
7 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報(bào);2008年01期
8 趙國富;曲國慶;;聚類分析中CLARA算法的分析與實(shí)現(xiàn)[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期
9 戴曉燕,過仲陽,李勤奮,吳健平;空間聚類的研究現(xiàn)狀及其應(yīng)用[J];上海地質(zhì);2003年04期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李廣水;宋丁全;;數(shù)據(jù)分析在森林資源調(diào)查中的應(yīng)用及發(fā)展研究[J];安徽農(nóng)業(yè)科學(xué);2009年22期
2 劉高軍;馬硯忠;段建勇;;基于維基百科的中文命名實(shí)體關(guān)聯(lián)度計(jì)算[J];北方工業(yè)大學(xué)學(xué)報(bào);2012年01期
3 左國才;周榮華;符開耀;;基于DBSCAN算法的電信客戶分類的應(yīng)用研究[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
4 李曉方;武仲科;樊亞春;周明全;柳勇光;;一種新的用于三維檢索的快速鄰域搜索方法[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期
5 章林柯;崔立林;;潛艇機(jī)械噪聲源分類識別的小樣本研究思想及相關(guān)算法評述[J];船舶力學(xué);2011年08期
6 李曉寧;李曉峰;;空間聚類在精準(zhǔn)施肥中應(yīng)用的研究[J];長春師范學(xué)院學(xué)報(bào)(人文社會科學(xué)版);2008年10期
7 孫英娟;楊柳;何昆鳥;;屬性離散化算法研究[J];長春師范學(xué)院學(xué)報(bào)(人文社會科學(xué)版);2009年12期
8 陳慶枝;陳國龍;郭文忠;陳仕濤;;信息安全評估日志數(shù)據(jù)的一種混合聚類算法[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年10期
9 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應(yīng)用[J];長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
10 李鑫;單維峰;豐繼林;李軍;高方平;李忠;;一種基于聚類的異常檢測方法[J];傳感器與微系統(tǒng);2011年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 曾成;趙錫均;徐紅;;基于量子遺傳算法的聚類方法[A];第二十九屆中國控制會議論文集[C];2010年
2 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 劉保政;汪定偉;;基于多因素的相近距離聚類方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
4 張立濤;張宇峰;;基于聚類分析的大型橋梁結(jié)構(gòu)健康監(jiān)測數(shù)據(jù)異常識別研究[A];第21屆全國結(jié)構(gòu)工程學(xué)術(shù)會議論文集第Ⅱ冊[C];2012年
5 孫浩軍;孔令俊;劉志輝;;利用高斯分布生成數(shù)據(jù)對聚類算法的比較[A];2007'儀表,自動化及先進(jìn)集成技術(shù)大會論文集(一)[C];2007年
6 吳繼兵;李心科;;基于分治融合的混合屬性數(shù)據(jù)聚類算法研究[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(下冊)[C];2009年
7 余燦玲;王麗珍;張?jiān)?;基于網(wǎng)格密度方向的聚類簇邊緣精度加強(qiáng)算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
8 劉尊洋;汪作來;王自榮;余大斌;孫曉泉;;基于譜系法改進(jìn)FCM的仿造迷彩主色提取方法[A];第九屆全國光電技術(shù)學(xué)術(shù)交流會論文集(上冊)[C];2010年
9 池晶晶;黃堅(jiān);杜博文;;基于VSP分布的北京道路劃分[A];第七屆中國智能交通年會優(yōu)秀論文集——智能交通技術(shù)[C];2012年
10 李晉宏;徐潔;唐存雨;;聚類算法在試題存儲中的應(yīng)用研究[A];全國冶金自動化信息網(wǎng)2013年會論文集[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 于翔;基于網(wǎng)格的數(shù)據(jù)流聚類方法研究[D];哈爾濱工程大學(xué);2010年
3 徐紅波;基于空間填充曲線高維空間查詢算法研究[D];哈爾濱理工大學(xué);2010年
4 尹可挺;Internet環(huán)境中基于QoS的Web服務(wù)組合研究[D];浙江大學(xué);2010年
5 皋軍;智能識別中的降維新方法及其應(yīng)用研究[D];江南大學(xué);2010年
6 蘇曉珂;基于聚類的異常挖掘算法研究[D];東華大學(xué);2010年
7 卓瑩;基于拓?fù)洹ち髁客诰虻木W(wǎng)絡(luò)態(tài)勢感知技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
8 陳彬;面向DEVS的多范式建模與仿真關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2010年
9 高翠芳;模糊聚類新算法及應(yīng)用研究[D];江南大學(xué);2011年
10 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉文昊;基于模糊聚類和紋版輔助的織物疵點(diǎn)檢測算法研究[D];浙江理工大學(xué);2010年
2 李振;網(wǎng)絡(luò)輿情預(yù)測關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年
3 丁金鳳;基于網(wǎng)格與密度的數(shù)據(jù)流聚類算法研究[D];哈爾濱工程大學(xué);2010年
4 劉萍;軟件體系結(jié)構(gòu)恢復(fù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2010年
5 姜榮;時間序列的聚類和關(guān)聯(lián)規(guī)則挖掘研究[D];遼寧師范大學(xué);2010年
6 李丹丹;基于權(quán)重設(shè)計(jì)的聚類融合算法研究及應(yīng)用[D];遼寧工程技術(shù)大學(xué);2009年
7 劉瓊;基于群體智能的聚類算法研究[D];長沙理工大學(xué);2010年
8 陳鳳萍;壽光人才求職招聘網(wǎng)站中資源檢索算法的研究[D];中國海洋大學(xué);2010年
9 邵帥;基于數(shù)據(jù)場的聚類可視化算法研究與應(yīng)用[D];西北民族大學(xué);2010年
10 孫大朋;入侵檢測中模糊C-均值聚類算法研究[D];哈爾濱理工大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙蔚;劉秀琴;邱百爽;;語義網(wǎng)自適應(yīng)學(xué)習(xí)系統(tǒng)中領(lǐng)域本體的構(gòu)建[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年05期
2 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期
3 李碧,雍正正;一種改進(jìn)的基于遺傳算法的聚類分析方法[J];電路與系統(tǒng)學(xué)報(bào);2002年03期
4 宋愛國,陸佶人;基于進(jìn)化規(guī)劃的Kohonen網(wǎng)絡(luò)用于被動聲吶目標(biāo)聚類研究[J];電子學(xué)報(bào);1998年07期
5 高新波,裴繼紅,謝維信;模糊c-均值聚類算法中加權(quán)指數(shù)m的研究[J];電子學(xué)報(bào);2000年04期
6 劉靜,鐘偉才,劉芳,焦李成;免疫進(jìn)化聚類算法[J];電子學(xué)報(bào);2001年S1期
7 張艷寧,趙榮椿,梁怡;一種有效的大規(guī)模數(shù)據(jù)的分類方法[J];電子學(xué)報(bào);2002年10期
8 李潔;高新波;焦李成;;基于特征加權(quán)的模糊聚類新算法[J];電子學(xué)報(bào);2006年01期
9 劉健莊,,謝維信,黃建軍,李文化;聚類分析的遺傳算法方法[J];電子學(xué)報(bào);1995年11期
10 高新波,裴繼紅,謝維信;基于統(tǒng)計(jì)檢驗(yàn)指導(dǎo)的聚類分析方法[J];電子科學(xué)學(xué)刊;2000年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語詞匯間語義相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張春紅;;文本分類技術(shù)應(yīng)用于學(xué)科導(dǎo)航分類的可行性探討[J];情報(bào)科學(xué);2009年07期
2 劉苗苗;張永生;;文本分類技術(shù)在搜索引擎中的應(yīng)用[J];中國新技術(shù)新產(chǎn)品;2010年04期
3 吳岳芬;劉洪輝;;WEB文本挖掘的研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2006年11期
4 黃迎春;李曉曄;鄧文新;;文本挖掘技術(shù)的研究[J];齊齊哈爾大學(xué)學(xué)報(bào);2006年03期
5 張燕;寒楓;楚紅濤;;文本挖掘簡述[J];中國電力教育;2006年S3期
6 崔志明,謝春麗;基于Web的文本挖掘研究[J];微電子學(xué)與計(jì)算機(jī);2002年10期
7 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識與技術(shù);2008年31期
8 楊霞;黃陳英;;文本挖掘綜述[J];科技信息;2009年33期
9 余燕芳;;基于改進(jìn)遺傳算法的Web文本挖掘系統(tǒng)[J];微電子學(xué)與計(jì)算機(jī);2010年04期
10 郭玉濱;;Web文本挖掘技術(shù)及其應(yīng)用的研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2006年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計(jì)算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 李一鑫;[N];財(cái)經(jīng)時報(bào);2007年
2 周文林;[N];經(jīng)濟(jì)參考報(bào);2007年
3 惠正一;[N];第一財(cái)經(jīng)日報(bào);2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;[N];中國計(jì)算機(jī)報(bào);2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國經(jīng)營報(bào);2005年
7 金朝力;[N];北京商報(bào);2006年
8 本報(bào)記者 趙曉輝 孟昭麗;[N];中國證券報(bào);2006年
9 孫琎;[N];第一財(cái)經(jīng)日報(bào);2006年
10 姜蕊;[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價(jià)研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 徐建鎖;知識管理和文本挖掘的若干問題研究[D];天津大學(xué);2004年
8 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
9 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
10 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 程春惠;公安犯罪案件文本挖掘關(guān)鍵技術(shù)研究[D];浙江大學(xué);2010年
2 徐愛華;面向文本分類的中文文本挖掘技術(shù)研究及實(shí)現(xiàn)[D];武漢理工大學(xué);2004年
3 李凱;Web挖掘在教學(xué)資源搜索引擎中的應(yīng)用研究[D];東北師范大學(xué);2007年
4 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年
5 易高翔;Web文本挖掘研究與實(shí)現(xiàn)[D];武漢科技大學(xué);2004年
6 曾礪鋒;基于數(shù)字有機(jī)體數(shù)據(jù)庫的搜索引擎的理論研究與實(shí)現(xiàn)[D];電子科技大學(xué);2008年
7 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年
8 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
9 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
10 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2009年
本文關(guān)鍵詞:文本挖掘的研究及其在主題搜索引擎中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:175428
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/175428.html