天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時間:2017-04-20 09:09

  本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式增長。由于互聯(lián)網(wǎng)上的數(shù)據(jù)過于龐大,數(shù)據(jù)增長快而且更新十分迅速,并且具有很強(qiáng)的動態(tài)性,所以用戶難以快速準(zhǔn)確的獲取到自己需要的信息。為了從如此浩瀚、巨大的資料庫中快速精準(zhǔn)地查找用戶所需資料,同時盡可能忽略掉不相關(guān)的信息,搜索引擎技術(shù)應(yīng)運(yùn)而生。作為一個輔助人們檢索信息的工具、用戶訪問萬維網(wǎng)的入口和指南,搜索引擎的目標(biāo)是達(dá)到盡可能高的網(wǎng)絡(luò)覆蓋率,但是高的網(wǎng)絡(luò)覆蓋率又會導(dǎo)致其為用戶提供的無用信息過多。此外傳統(tǒng)搜索引擎提供的特定領(lǐng)域的信息檢索結(jié)果不夠?qū)I(yè),無法滿足特定領(lǐng)域、特定專業(yè)人群的特定需求。 為了解決傳統(tǒng)搜索引擎的局限性,本文設(shè)計并實(shí)現(xiàn)了一種基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng),用于爬取互聯(lián)網(wǎng)中的新聞和博客頁面。本文完成了以下工作: 首先,研究傳統(tǒng)網(wǎng)絡(luò)爬蟲和已有的主題爬蟲的相關(guān)技術(shù),并對其進(jìn)行簡單介紹; 其次,針對系統(tǒng)在文本去重方面的需求,對文本去重技術(shù)進(jìn)行研究和探討,提出了基于語義指紋和LCS的文本快速去重方法; 再次,對系統(tǒng)進(jìn)行需求分析,并根據(jù)需求分析對系統(tǒng)功能和數(shù)據(jù)庫進(jìn)行總體設(shè)計; 最后,對系統(tǒng)的主要功能模塊進(jìn)行了詳細(xì)設(shè)計,包括功能模塊詳細(xì)設(shè)計、處理流程設(shè)計,描述了系統(tǒng)關(guān)鍵模塊的代碼實(shí)現(xiàn),并簡單展示了系統(tǒng)的運(yùn)行界面。 研究并實(shí)現(xiàn)的基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)支持多任務(wù)、多線程爬取頁面,支持用戶進(jìn)行參數(shù)配置、主題配置。該系統(tǒng)能提供實(shí)時的針對某一特定領(lǐng)域的新聞、博客信息的爬取。本文最后從數(shù)據(jù)抓取速率及主題判斷的準(zhǔn)確度兩個方面對系統(tǒng)的性能進(jìn)行驗(yàn)證,結(jié)果表明本系統(tǒng)能達(dá)到較高的網(wǎng)頁抓取速率,在主題資源搜索方面具有較高的準(zhǔn)確度和覆蓋率,同時具備良好的文本去重效果。
【關(guān)鍵詞】:主題爬蟲 文本去重 simhash LCS 相關(guān)度
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-10
  • 第一章 緒論10-14
  • 1.1 研究背景10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-12
  • 1.3 本文主要研究工作12
  • 1.4 論文組織結(jié)構(gòu)12-14
  • 第二章 爬蟲基本原理及相關(guān)技術(shù)14-20
  • 2.1 爬蟲技術(shù)14
  • 2.2 通用爬蟲14-17
  • 2.2.1 通用爬蟲的基本工作流程14-15
  • 2.2.2 通用爬蟲爬行策略15-16
  • 2.2.3 通用爬蟲的不足16-17
  • 2.3 主題爬蟲17-19
  • 2.3.1 主題爬蟲的結(jié)構(gòu)17
  • 2.3.2 主題爬蟲的搜索策略17-19
  • 2.4 Crawler4J介紹19
  • 2.5 本章小結(jié)19-20
  • 第三章 系統(tǒng)關(guān)鍵算法研究20-34
  • 3.1 相關(guān)背景20-21
  • 3.2 基于語義指紋與LCS的文本去重方法21-22
  • 3.3 去重模型22
  • 3.4 特征向量生成22-25
  • 3.4.1 生成內(nèi)容特征向量22-24
  • 3.4.2 生成摘要特征向量24-25
  • 3.5 語義指紋生成25-26
  • 3.6 相似度計算26-29
  • 3.6.1 指紋相似度計算方法26-27
  • 3.6.2 內(nèi)容相似度計算方法27-29
  • 3.7 去重方法實(shí)現(xiàn)流程29-30
  • 3.8 實(shí)驗(yàn)驗(yàn)證30-33
  • 3.9 本章小結(jié)33-34
  • 第四章 系統(tǒng)需求分析與總體功能的設(shè)計34-55
  • 4.1 系統(tǒng)需求分析與系統(tǒng)目標(biāo)34-36
  • 4.1.1 功能性需求34-35
  • 4.1.2 非功能性需求35-36
  • 4.1.3 系統(tǒng)目標(biāo)36
  • 4.2 網(wǎng)絡(luò)架構(gòu)設(shè)計36-37
  • 4.3 系統(tǒng)層次結(jié)構(gòu)設(shè)計37-38
  • 4.4 系統(tǒng)功能架構(gòu)38-40
  • 4.5 系統(tǒng)流程設(shè)計40-42
  • 4.6 數(shù)據(jù)庫設(shè)計42-51
  • 4.6.1 概念模型設(shè)計42-43
  • 4.6.2 數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計43-45
  • 4.6.3 物理表的設(shè)計45-51
  • 4.7 主要接口設(shè)計51-53
  • 4.8 界面總體設(shè)計53-54
  • 4.8.1 界面設(shè)計原則53
  • 4.8.2 界面設(shè)計53-54
  • 4.9 本章小結(jié)54-55
  • 第五章 系統(tǒng)主要功能模塊的設(shè)計與實(shí)現(xiàn)55-77
  • 5.1 多線程爬蟲模塊55-61
  • 5.1.1 功能設(shè)計55-58
  • 5.1.2 流程設(shè)計58-60
  • 5.1.3 頁面更新檢測60
  • 5.1.4 關(guān)鍵代碼60-61
  • 5.2 主題判定模塊61-64
  • 5.2.1 功能設(shè)計61-62
  • 5.2.2 流程設(shè)計62
  • 5.2.3 算法設(shè)計62-63
  • 5.2.4 關(guān)鍵代碼63-64
  • 5.3 文本去重模塊64-69
  • 5.3.1 功能設(shè)計64
  • 5.3.2 流程設(shè)計64-65
  • 5.3.3 算法設(shè)計65
  • 5.3.4 關(guān)鍵代碼65-69
  • 5.4 信息檢索模塊69-72
  • 5.4.1 功能設(shè)計69
  • 5.4.2 構(gòu)建全文索引69-70
  • 5.4.3 信息檢索實(shí)現(xiàn)流程70-71
  • 5.4.4 關(guān)鍵代碼71-72
  • 5.5 系統(tǒng)界面設(shè)計與展示72-76
  • 5.5.1 界面整體結(jié)構(gòu)設(shè)計72
  • 5.5.2 界面展示72-76
  • 5.6 本章小結(jié)76-77
  • 第六章 實(shí)驗(yàn)及結(jié)果分析77-85
  • 6.1 實(shí)驗(yàn)環(huán)境77
  • 6.2 系統(tǒng)功能測試77-81
  • 6.3 系統(tǒng)性能測試81-84
  • 6.3.1 測試性能指標(biāo)82
  • 6.3.2 實(shí)驗(yàn)結(jié)果及評估82-84
  • 6.4 本章小結(jié)84-85
  • 第七章 總結(jié)與展望85-87
  • 7.1 論文工作總結(jié)85-86
  • 7.2 問題和展望86-87
  • 參考文獻(xiàn)87-89
  • 致謝89-90
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文90

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 沈樂平;黃維民;饒?zhí)熨F;;基于支持向量機(jī)的上市公司違規(guī)預(yù)警模型研究[J];中大管理研究;2008年02期

2 蔡冬松;靖繼鵬;;基于最小二乘支持向量機(jī)的數(shù)據(jù)挖掘應(yīng)用研究[J];情報科學(xué);2005年12期

3 陳濤;謝陽群;;基于支持向量機(jī)的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J];情報科學(xué);2006年07期

4 余傳明;張小青;陳雷;;基于LDA模型的評論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報理論與實(shí)踐;2010年05期

5 王東波;蘇新寧;朱丹浩;年洪東;;基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動分類研究[J];情報理論與實(shí)踐;2011年04期

6 夏火松;劉建;;基于VSM的文本分類挖掘算法綜述[J];情報探索;2010年09期

7 于承敏;凌海云;鄭麗萍;;數(shù)字圖書館中基于內(nèi)容的圖像檢索研究[J];情報探索;2011年04期

8 張愛麗,劉廣利,劉長宇;基于SVM的多類文本分類研究[J];情報雜志;2004年09期

9 程娟;平西建;童莉;楊洋;;基于信息度量與SVM的文本圖像自動提取技術(shù)[J];情報雜志;2006年04期

10 孫超;張玉峰;;基于SVM的企業(yè)競爭情報自動分類系統(tǒng)模型[J];情報雜志;2007年03期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 宋海鷹;桂衛(wèi)華;陽春華;;基于核偏最小二乘的簡約最小二乘支持向量機(jī)及其應(yīng)用研究[A];第二十六屆中國控制會議論文集[C];2007年

2 顧小軍;楊世錫;錢蘇翔;;基于支持向量機(jī)的旋轉(zhuǎn)機(jī)械多類故障識別研究[A];第二十六屆中國控制會議論文集[C];2007年

3 呂蓬;柳亦兵;馬強(qiáng);魏于凡;;支持向量機(jī)在齒輪智能故障診斷中的應(yīng)用研究[A];第二十六屆中國控制會議論文集[C];2007年

4 姜明輝;袁緒川;;基于GA優(yōu)化的個人信用評估SVM模型[A];第二十六屆中國控制會議論文集[C];2007年

5 韓露;余正濤;鄧錦輝;章程;毛存禮;郭劍毅;;領(lǐng)域知識關(guān)系對領(lǐng)域文本分類的影響[A];第二十七屆中國控制會議論文集[C];2008年

6 吳靜珠;劉翠玲;孫曉容;;支持向量機(jī)在近紅外光譜檢測技術(shù)中的應(yīng)用研究[A];第二十九屆中國控制會議論文集[C];2010年

7 尹鐘;張建華;;基于支持向量機(jī)方法的過程操作員功能狀態(tài)分類[A];中國自動化學(xué)會控制理論專業(yè)委員會A卷[C];2011年

8 楊坤;紀(jì)志成;;基于峰值識別的改進(jìn)SVM用電需求預(yù)測[A];中國自動化學(xué)會控制理論專業(yè)委員會B卷[C];2011年

9 晉朝勃;胡剛強(qiáng);史廣智;李玉陽;;一種采用支持向量機(jī)的水中目標(biāo)識別方法[A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年

10 郭瑋;李智勇;朱晟;孫慧;;支持向量機(jī)在變壓器油溶解氣體檢測中的應(yīng)用[A];第一屆電力安全論壇優(yōu)秀論文集[C];2008年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 母麗華;煤礦安全預(yù)警系統(tǒng)的方法研究[D];哈爾濱工程大學(xué);2010年

2 朱廣平;混響干擾中的信號檢測技術(shù)研究[D];哈爾濱工程大學(xué);2009年

3 孔凡芝;引線鍵合視覺檢測關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年

4 鄭大騰;柔性坐標(biāo)測量機(jī)空間誤差模型及最佳測量區(qū)研究[D];合肥工業(yè)大學(xué);2010年

5 王曉明;基于統(tǒng)計學(xué)習(xí)的模式識別幾個問題及其應(yīng)用研究[D];江南大學(xué);2010年

6 李先鋒;基于特征優(yōu)化和多特征融合的雜草識別方法研究[D];江蘇大學(xué);2010年

7 劉衛(wèi)紅;垃圾郵件檢測與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

8 汪春梅;癲癇腦電信號特征提取與自動檢測方法研究[D];華東理工大學(xué);2011年

9 張目;高技術(shù)企業(yè)信用風(fēng)險影響因素及評價方法研究[D];電子科技大學(xué);2010年

10 向國齊;支持向量回歸機(jī)代理模型設(shè)計優(yōu)化及應(yīng)用研究[D];電子科技大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 展慧;基于多源信息融合技術(shù)的板栗分級檢測方法研究[D];華中農(nóng)業(yè)大學(xué);2010年

2 杜二玲;擬概率空間上等均值噪聲下統(tǒng)計學(xué)習(xí)理論的理論基礎(chǔ)[D];河北大學(xué);2007年

3 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年

4 安文娟;Fisher和支持向量綜合分類器[D];遼寧師范大學(xué);2010年

5 姜成玉;基于支持向量機(jī)的時間序列預(yù)測[D];遼寧師范大學(xué);2010年

6 李振;網(wǎng)絡(luò)輿情預(yù)測關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年

7 姜念;區(qū)間自適應(yīng)粒子群算法研究及其應(yīng)用[D];鄭州大學(xué);2010年

8 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年

9 辛保兵;既有預(yù)應(yīng)力混凝土梁橋剩余承載力評估方法研究[D];鄭州大學(xué);2010年

10 王巧立;微生物發(fā)酵過程的建模與優(yōu)化控制研究[D];鄭州大學(xué);2010年


  本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:318342

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/318342.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶54d21***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com