天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進(jìn)shark-search算法的主題爬蟲的研究與實(shí)現(xiàn)

發(fā)布時間:2017-04-17 02:11

  本文關(guān)鍵詞:基于改進(jìn)shark-search算法的主題爬蟲的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:如何從大量的互聯(lián)網(wǎng)信息中獲得所需的數(shù)據(jù)是從互聯(lián)網(wǎng)誕生之日起就存在的重要課題。面向主題網(wǎng)絡(luò)爬蟲是解決這一問題的方法之一,其主要方法有基于文本內(nèi)容啟發(fā)式方法、基于web鏈接結(jié)構(gòu)評價方法、機(jī)器學(xué)習(xí)分類器方法等。Shark-Search算法屬于基于文本內(nèi)容的啟發(fā)式算法,因?yàn)槠渌惴▽?shí)現(xiàn)簡單、效果明顯和可擴(kuò)展性好等優(yōu)點(diǎn)而得到廣泛應(yīng)用,但它存在“近視問題”和“隧道問題”,所以查全率不高。針對Shark-Search算法存在的不足,本文通過主題詞擴(kuò)展和URL調(diào)度策略實(shí)現(xiàn)了一個改進(jìn)的Shark-Search爬蟲——NSKD (New Shark-Search with Keywords Diffusion)爬蟲。對Shark-Search的兩個方面進(jìn)行改進(jìn):(1)主題詞擴(kuò)展,本文采用《哈工大同義詞詞林?jǐn)U展版》對主題詞進(jìn)行擴(kuò)展,并改進(jìn)其相近度計算算法。在NSKD爬蟲的主題相近度計算中,通過改進(jìn)后的同義詞詞相近度算法得到待分析網(wǎng)頁每個帶權(quán)關(guān)鍵詞到預(yù)設(shè)主題的距離,從而獲得主題距離矩陣,將距離矩陣影射到比較向量中,將比較向量與主題向量的余弦距離作為網(wǎng)頁內(nèi)容與預(yù)設(shè)主題的相近度。NSKD爬蟲改變Shark-Search的文本主題相近度算法關(guān)鍵詞簡單匹配的方式,擴(kuò)展了原本狹窄的文本特征向量對比面,使得與主題內(nèi)容高相關(guān)但關(guān)鍵詞匹配度不高的網(wǎng)頁得到了較好的評分。(2)本文實(shí)現(xiàn)一個基于層次統(tǒng)計的URL調(diào)度算法,通過比較當(dāng)前處理鏈接深度與隊列內(nèi)待處理鏈接平均深度,將過度聚集的處理范圍分散開,改善主題爬蟲的“隧道問題”。我們通過兩組實(shí)驗(yàn)驗(yàn)證NSKD爬蟲系統(tǒng):(1)利用搜狗實(shí)驗(yàn)室(http://www.sogou.com/labs/dl/c.html)發(fā)布的新聞分類縮減版(SogouC.Reduce.20061127)作為實(shí)驗(yàn)數(shù)據(jù),測試主題詞擴(kuò)散算法的有效性,結(jié)果顯示算法能明確區(qū)分主題文本和非主題文本。(2)針對知名論壇龍騰網(wǎng)翻譯論壇(http://www.ltaaa.com/bbs)進(jìn)行爬行,測試NSKD爬蟲系統(tǒng)的查全率與查準(zhǔn)率,結(jié)果表明在保證查準(zhǔn)率的情況下,查全率提升了32%以上。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 主題相近度 文本挖掘 搜索引擎 同義詞詞林
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-17
  • 1.1 研究背景及意義11-12
  • 1.2 網(wǎng)絡(luò)爬蟲的研究現(xiàn)狀12-14
  • 1.3 論文的主要工作14-15
  • 1.4 論文的結(jié)構(gòu)安排15-17
  • 第二章 面向主題網(wǎng)絡(luò)爬蟲的相關(guān)理論與技術(shù)17-25
  • 2.1 文本信息處理17-19
  • 2.1.1 特征選取17-18
  • 2.1.2 文本相近度計算18-19
  • 2.2 鏈接去重技術(shù)19-20
  • 2.3 同義詞詞林20-22
  • 2.4 頁面分析22-23
  • 2.5 評價方法23
  • 2.6 本章小結(jié)23-25
  • 第三章 基于改進(jìn)shark-search算法的主題爬蟲25-33
  • 3.1 Shark-Search算法分析25-28
  • 3.1.1 文本主題相關(guān)度計算簡單26-27
  • 3.1.2 隧道問題27-28
  • 3.2 改進(jìn)策略28-32
  • 3.2.1 針對Shark-Search算法的改進(jìn)28-31
  • 3.2.2 基于層次統(tǒng)計的URL調(diào)度算法31-32
  • 3.3 本章小結(jié)32-33
  • 第四章 系統(tǒng)實(shí)現(xiàn)與結(jié)果評價33-46
  • 4.1 系統(tǒng)設(shè)計33-42
  • 4.1.1 框架結(jié)構(gòu)設(shè)計33-36
  • 4.1.2 關(guān)鍵子模塊設(shè)計36-41
  • 4.1.3 系統(tǒng)運(yùn)行流程41-42
  • 4.2 實(shí)驗(yàn)42-43
  • 4.2.1 基于同義詞詞林的主題詞擴(kuò)展算法實(shí)驗(yàn)42-43
  • 4.2.2 NSKD爬蟲實(shí)驗(yàn)43
  • 4.3 結(jié)果評價43-45
  • 4.4 本章小結(jié)45-46
  • 第五章 總結(jié)與展望46-48
  • 5.1 本文工作總結(jié)46
  • 5.2 未來工作展望46-48
  • 參考文獻(xiàn)48-51
  • 致謝51

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前6條

1 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年21期

2 張琪玉;;檢索標(biāo)識的專指度[J];江西圖書館學(xué)刊;2006年02期

3 葉強(qiáng);超文本傳輸協(xié)議——HTTP/1.0[J];科技情報開發(fā)與經(jīng)濟(jì);2004年08期

4 蘇祺;項錕;孫斌;;基于鏈接聚類的Shark-Search算法[J];山東大學(xué)學(xué)報(理學(xué)版);2006年03期

5 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計算機(jī)技術(shù)與發(fā)展;2009年12期

6 杜冬梅;許彩欣;蘇健;;淺談?wù)齽t表達(dá)式在web系統(tǒng)中的應(yīng)用[J];計算機(jī)系統(tǒng)應(yīng)用;2007年08期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 李正文;基于SVM分類算法的主題爬蟲研究[D];哈爾濱工程大學(xué);2011年

2 王桂梅;主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年


  本文關(guān)鍵詞:基于改進(jìn)shark-search算法的主題爬蟲的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:312183

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/312183.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶93d6f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com