基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:如何從大量的互聯(lián)網(wǎng)信息中獲得所需的數(shù)據(jù)是從互聯(lián)網(wǎng)誕生之日起就存在的重要課題。面向主題網(wǎng)絡(luò)爬蟲(chóng)是解決這一問(wèn)題的方法之一,其主要方法有基于文本內(nèi)容啟發(fā)式方法、基于web鏈接結(jié)構(gòu)評(píng)價(jià)方法、機(jī)器學(xué)習(xí)分類(lèi)器方法等。Shark-Search算法屬于基于文本內(nèi)容的啟發(fā)式算法,因?yàn)槠渌惴▽?shí)現(xiàn)簡(jiǎn)單、效果明顯和可擴(kuò)展性好等優(yōu)點(diǎn)而得到廣泛應(yīng)用,但它存在“近視問(wèn)題”和“隧道問(wèn)題”,所以查全率不高。針對(duì)Shark-Search算法存在的不足,本文通過(guò)主題詞擴(kuò)展和URL調(diào)度策略實(shí)現(xiàn)了一個(gè)改進(jìn)的Shark-Search爬蟲(chóng)——NSKD (New Shark-Search with Keywords Diffusion)爬蟲(chóng)。對(duì)Shark-Search的兩個(gè)方面進(jìn)行改進(jìn):(1)主題詞擴(kuò)展,本文采用《哈工大同義詞詞林?jǐn)U展版》對(duì)主題詞進(jìn)行擴(kuò)展,并改進(jìn)其相近度計(jì)算算法。在NSKD爬蟲(chóng)的主題相近度計(jì)算中,通過(guò)改進(jìn)后的同義詞詞相近度算法得到待分析網(wǎng)頁(yè)每個(gè)帶權(quán)關(guān)鍵詞到預(yù)設(shè)主題的距離,從而獲得主題距離矩陣,將距離矩陣影射到比較向量中,將比較向量與主題向量的余弦距離作為網(wǎng)頁(yè)內(nèi)容與預(yù)設(shè)主題的相近度。NSKD爬蟲(chóng)改變Shark-Search的文本主題相近度算法關(guān)鍵詞簡(jiǎn)單匹配的方式,擴(kuò)展了原本狹窄的文本特征向量對(duì)比面,使得與主題內(nèi)容高相關(guān)但關(guān)鍵詞匹配度不高的網(wǎng)頁(yè)得到了較好的評(píng)分。(2)本文實(shí)現(xiàn)一個(gè)基于層次統(tǒng)計(jì)的URL調(diào)度算法,通過(guò)比較當(dāng)前處理鏈接深度與隊(duì)列內(nèi)待處理鏈接平均深度,將過(guò)度聚集的處理范圍分散開(kāi),改善主題爬蟲(chóng)的“隧道問(wèn)題”。我們通過(guò)兩組實(shí)驗(yàn)驗(yàn)證NSKD爬蟲(chóng)系統(tǒng):(1)利用搜狗實(shí)驗(yàn)室(http://www.sogou.com/labs/dl/c.html)發(fā)布的新聞分類(lèi)縮減版(SogouC.Reduce.20061127)作為實(shí)驗(yàn)數(shù)據(jù),測(cè)試主題詞擴(kuò)散算法的有效性,結(jié)果顯示算法能明確區(qū)分主題文本和非主題文本。(2)針對(duì)知名論壇龍騰網(wǎng)翻譯論壇(http://www.ltaaa.com/bbs)進(jìn)行爬行,測(cè)試NSKD爬蟲(chóng)系統(tǒng)的查全率與查準(zhǔn)率,結(jié)果表明在保證查準(zhǔn)率的情況下,查全率提升了32%以上。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲(chóng) 主題相近度 文本挖掘 搜索引擎 同義詞詞林
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-17
- 1.1 研究背景及意義11-12
- 1.2 網(wǎng)絡(luò)爬蟲(chóng)的研究現(xiàn)狀12-14
- 1.3 論文的主要工作14-15
- 1.4 論文的結(jié)構(gòu)安排15-17
- 第二章 面向主題網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)理論與技術(shù)17-25
- 2.1 文本信息處理17-19
- 2.1.1 特征選取17-18
- 2.1.2 文本相近度計(jì)算18-19
- 2.2 鏈接去重技術(shù)19-20
- 2.3 同義詞詞林20-22
- 2.4 頁(yè)面分析22-23
- 2.5 評(píng)價(jià)方法23
- 2.6 本章小結(jié)23-25
- 第三章 基于改進(jìn)shark-search算法的主題爬蟲(chóng)25-33
- 3.1 Shark-Search算法分析25-28
- 3.1.1 文本主題相關(guān)度計(jì)算簡(jiǎn)單26-27
- 3.1.2 隧道問(wèn)題27-28
- 3.2 改進(jìn)策略28-32
- 3.2.1 針對(duì)Shark-Search算法的改進(jìn)28-31
- 3.2.2 基于層次統(tǒng)計(jì)的URL調(diào)度算法31-32
- 3.3 本章小結(jié)32-33
- 第四章 系統(tǒng)實(shí)現(xiàn)與結(jié)果評(píng)價(jià)33-46
- 4.1 系統(tǒng)設(shè)計(jì)33-42
- 4.1.1 框架結(jié)構(gòu)設(shè)計(jì)33-36
- 4.1.2 關(guān)鍵子模塊設(shè)計(jì)36-41
- 4.1.3 系統(tǒng)運(yùn)行流程41-42
- 4.2 實(shí)驗(yàn)42-43
- 4.2.1 基于同義詞詞林的主題詞擴(kuò)展算法實(shí)驗(yàn)42-43
- 4.2.2 NSKD爬蟲(chóng)實(shí)驗(yàn)43
- 4.3 結(jié)果評(píng)價(jià)43-45
- 4.4 本章小結(jié)45-46
- 第五章 總結(jié)與展望46-48
- 5.1 本文工作總結(jié)46
- 5.2 未來(lái)工作展望46-48
- 參考文獻(xiàn)48-51
- 致謝51
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年21期
2 張琪玉;;檢索標(biāo)識(shí)的專(zhuān)指度[J];江西圖書(shū)館學(xué)刊;2006年02期
3 葉強(qiáng);超文本傳輸協(xié)議——HTTP/1.0[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2004年08期
4 蘇祺;項(xiàng)錕;孫斌;;基于鏈接聚類(lèi)的Shark-Search算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
5 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲(chóng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年12期
6 杜冬梅;許彩欣;蘇健;;淺談?wù)齽t表達(dá)式在web系統(tǒng)中的應(yīng)用[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2007年08期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 李正文;基于SVM分類(lèi)算法的主題爬蟲(chóng)研究[D];哈爾濱工程大學(xué);2011年
2 王桂梅;主題網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
本文關(guān)鍵詞:基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):312183
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/312183.html