基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式增長(zhǎng)。由于互聯(lián)網(wǎng)上的數(shù)據(jù)過于龐大,數(shù)據(jù)增長(zhǎng)快而且更新十分迅速,并且具有很強(qiáng)的動(dòng)態(tài)性,所以用戶難以快速準(zhǔn)確的獲取到自己需要的信息。為了從如此浩瀚、巨大的資料庫(kù)中快速精準(zhǔn)地查找用戶所需資料,同時(shí)盡可能忽略掉不相關(guān)的信息,搜索引擎技術(shù)應(yīng)運(yùn)而生。作為一個(gè)輔助人們檢索信息的工具、用戶訪問萬維網(wǎng)的入口和指南,搜索引擎的目標(biāo)是達(dá)到盡可能高的網(wǎng)絡(luò)覆蓋率,但是高的網(wǎng)絡(luò)覆蓋率又會(huì)導(dǎo)致其為用戶提供的無用信息過多。此外傳統(tǒng)搜索引擎提供的特定領(lǐng)域的信息檢索結(jié)果不夠?qū)I(yè),無法滿足特定領(lǐng)域、特定專業(yè)人群的特定需求。 為了解決傳統(tǒng)搜索引擎的局限性,本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng),用于爬取互聯(lián)網(wǎng)中的新聞和博客頁(yè)面。本文完成了以下工作: 首先,研究傳統(tǒng)網(wǎng)絡(luò)爬蟲和已有的主題爬蟲的相關(guān)技術(shù),并對(duì)其進(jìn)行簡(jiǎn)單介紹; 其次,針對(duì)系統(tǒng)在文本去重方面的需求,對(duì)文本去重技術(shù)進(jìn)行研究和探討,提出了基于語義指紋和LCS的文本快速去重方法; 再次,對(duì)系統(tǒng)進(jìn)行需求分析,并根據(jù)需求分析對(duì)系統(tǒng)功能和數(shù)據(jù)庫(kù)進(jìn)行總體設(shè)計(jì); 最后,對(duì)系統(tǒng)的主要功能模塊進(jìn)行了詳細(xì)設(shè)計(jì),包括功能模塊詳細(xì)設(shè)計(jì)、處理流程設(shè)計(jì),描述了系統(tǒng)關(guān)鍵模塊的代碼實(shí)現(xiàn),并簡(jiǎn)單展示了系統(tǒng)的運(yùn)行界面。 研究并實(shí)現(xiàn)的基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)支持多任務(wù)、多線程爬取頁(yè)面,支持用戶進(jìn)行參數(shù)配置、主題配置。該系統(tǒng)能提供實(shí)時(shí)的針對(duì)某一特定領(lǐng)域的新聞、博客信息的爬取。本文最后從數(shù)據(jù)抓取速率及主題判斷的準(zhǔn)確度兩個(gè)方面對(duì)系統(tǒng)的性能進(jìn)行驗(yàn)證,結(jié)果表明本系統(tǒng)能達(dá)到較高的網(wǎng)頁(yè)抓取速率,在主題資源搜索方面具有較高的準(zhǔn)確度和覆蓋率,同時(shí)具備良好的文本去重效果。
【關(guān)鍵詞】:主題爬蟲 文本去重 simhash LCS 相關(guān)度
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 目錄7-10
- 第一章 緒論10-14
- 1.1 研究背景10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-12
- 1.3 本文主要研究工作12
- 1.4 論文組織結(jié)構(gòu)12-14
- 第二章 爬蟲基本原理及相關(guān)技術(shù)14-20
- 2.1 爬蟲技術(shù)14
- 2.2 通用爬蟲14-17
- 2.2.1 通用爬蟲的基本工作流程14-15
- 2.2.2 通用爬蟲爬行策略15-16
- 2.2.3 通用爬蟲的不足16-17
- 2.3 主題爬蟲17-19
- 2.3.1 主題爬蟲的結(jié)構(gòu)17
- 2.3.2 主題爬蟲的搜索策略17-19
- 2.4 Crawler4J介紹19
- 2.5 本章小結(jié)19-20
- 第三章 系統(tǒng)關(guān)鍵算法研究20-34
- 3.1 相關(guān)背景20-21
- 3.2 基于語義指紋與LCS的文本去重方法21-22
- 3.3 去重模型22
- 3.4 特征向量生成22-25
- 3.4.1 生成內(nèi)容特征向量22-24
- 3.4.2 生成摘要特征向量24-25
- 3.5 語義指紋生成25-26
- 3.6 相似度計(jì)算26-29
- 3.6.1 指紋相似度計(jì)算方法26-27
- 3.6.2 內(nèi)容相似度計(jì)算方法27-29
- 3.7 去重方法實(shí)現(xiàn)流程29-30
- 3.8 實(shí)驗(yàn)驗(yàn)證30-33
- 3.9 本章小結(jié)33-34
- 第四章 系統(tǒng)需求分析與總體功能的設(shè)計(jì)34-55
- 4.1 系統(tǒng)需求分析與系統(tǒng)目標(biāo)34-36
- 4.1.1 功能性需求34-35
- 4.1.2 非功能性需求35-36
- 4.1.3 系統(tǒng)目標(biāo)36
- 4.2 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)36-37
- 4.3 系統(tǒng)層次結(jié)構(gòu)設(shè)計(jì)37-38
- 4.4 系統(tǒng)功能架構(gòu)38-40
- 4.5 系統(tǒng)流程設(shè)計(jì)40-42
- 4.6 數(shù)據(jù)庫(kù)設(shè)計(jì)42-51
- 4.6.1 概念模型設(shè)計(jì)42-43
- 4.6.2 數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)設(shè)計(jì)43-45
- 4.6.3 物理表的設(shè)計(jì)45-51
- 4.7 主要接口設(shè)計(jì)51-53
- 4.8 界面總體設(shè)計(jì)53-54
- 4.8.1 界面設(shè)計(jì)原則53
- 4.8.2 界面設(shè)計(jì)53-54
- 4.9 本章小結(jié)54-55
- 第五章 系統(tǒng)主要功能模塊的設(shè)計(jì)與實(shí)現(xiàn)55-77
- 5.1 多線程爬蟲模塊55-61
- 5.1.1 功能設(shè)計(jì)55-58
- 5.1.2 流程設(shè)計(jì)58-60
- 5.1.3 頁(yè)面更新檢測(cè)60
- 5.1.4 關(guān)鍵代碼60-61
- 5.2 主題判定模塊61-64
- 5.2.1 功能設(shè)計(jì)61-62
- 5.2.2 流程設(shè)計(jì)62
- 5.2.3 算法設(shè)計(jì)62-63
- 5.2.4 關(guān)鍵代碼63-64
- 5.3 文本去重模塊64-69
- 5.3.1 功能設(shè)計(jì)64
- 5.3.2 流程設(shè)計(jì)64-65
- 5.3.3 算法設(shè)計(jì)65
- 5.3.4 關(guān)鍵代碼65-69
- 5.4 信息檢索模塊69-72
- 5.4.1 功能設(shè)計(jì)69
- 5.4.2 構(gòu)建全文索引69-70
- 5.4.3 信息檢索實(shí)現(xiàn)流程70-71
- 5.4.4 關(guān)鍵代碼71-72
- 5.5 系統(tǒng)界面設(shè)計(jì)與展示72-76
- 5.5.1 界面整體結(jié)構(gòu)設(shè)計(jì)72
- 5.5.2 界面展示72-76
- 5.6 本章小結(jié)76-77
- 第六章 實(shí)驗(yàn)及結(jié)果分析77-85
- 6.1 實(shí)驗(yàn)環(huán)境77
- 6.2 系統(tǒng)功能測(cè)試77-81
- 6.3 系統(tǒng)性能測(cè)試81-84
- 6.3.1 測(cè)試性能指標(biāo)82
- 6.3.2 實(shí)驗(yàn)結(jié)果及評(píng)估82-84
- 6.4 本章小結(jié)84-85
- 第七章 總結(jié)與展望85-87
- 7.1 論文工作總結(jié)85-86
- 7.2 問題和展望86-87
- 參考文獻(xiàn)87-89
- 致謝89-90
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文90
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 沈樂平;黃維民;饒?zhí)熨F;;基于支持向量機(jī)的上市公司違規(guī)預(yù)警模型研究[J];中大管理研究;2008年02期
2 蔡冬松;靖繼鵬;;基于最小二乘支持向量機(jī)的數(shù)據(jù)挖掘應(yīng)用研究[J];情報(bào)科學(xué);2005年12期
3 陳濤;謝陽群;;基于支持向量機(jī)的外貿(mào)企業(yè)客戶分類方法應(yīng)用研究[J];情報(bào)科學(xué);2006年07期
4 余傳明;張小青;陳雷;;基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報(bào)理論與實(shí)踐;2010年05期
5 王東波;蘇新寧;朱丹浩;年洪東;;基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動(dòng)分類研究[J];情報(bào)理論與實(shí)踐;2011年04期
6 夏火松;劉建;;基于VSM的文本分類挖掘算法綜述[J];情報(bào)探索;2010年09期
7 于承敏;凌海云;鄭麗萍;;數(shù)字圖書館中基于內(nèi)容的圖像檢索研究[J];情報(bào)探索;2011年04期
8 張愛麗,劉廣利,劉長(zhǎng)宇;基于SVM的多類文本分類研究[J];情報(bào)雜志;2004年09期
9 程娟;平西建;童莉;楊洋;;基于信息度量與SVM的文本圖像自動(dòng)提取技術(shù)[J];情報(bào)雜志;2006年04期
10 孫超;張玉峰;;基于SVM的企業(yè)競(jìng)爭(zhēng)情報(bào)自動(dòng)分類系統(tǒng)模型[J];情報(bào)雜志;2007年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 宋海鷹;桂衛(wèi)華;陽春華;;基于核偏最小二乘的簡(jiǎn)約最小二乘支持向量機(jī)及其應(yīng)用研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
2 顧小軍;楊世錫;錢蘇翔;;基于支持向量機(jī)的旋轉(zhuǎn)機(jī)械多類故障識(shí)別研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
3 呂蓬;柳亦兵;馬強(qiáng);魏于凡;;支持向量機(jī)在齒輪智能故障診斷中的應(yīng)用研究[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
4 姜明輝;袁緒川;;基于GA優(yōu)化的個(gè)人信用評(píng)估SVM模型[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年
5 韓露;余正濤;鄧錦輝;章程;毛存禮;郭劍毅;;領(lǐng)域知識(shí)關(guān)系對(duì)領(lǐng)域文本分類的影響[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
6 吳靜珠;劉翠玲;孫曉容;;支持向量機(jī)在近紅外光譜檢測(cè)技術(shù)中的應(yīng)用研究[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
7 尹鐘;張建華;;基于支持向量機(jī)方法的過程操作員功能狀態(tài)分類[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)A卷[C];2011年
8 楊坤;紀(jì)志成;;基于峰值識(shí)別的改進(jìn)SVM用電需求預(yù)測(cè)[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)B卷[C];2011年
9 晉朝勃;胡剛強(qiáng);史廣智;李玉陽;;一種采用支持向量機(jī)的水中目標(biāo)識(shí)別方法[A];中國(guó)聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2011年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2011年
10 郭瑋;李智勇;朱晟;孫慧;;支持向量機(jī)在變壓器油溶解氣體檢測(cè)中的應(yīng)用[A];第一屆電力安全論壇優(yōu)秀論文集[C];2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 母麗華;煤礦安全預(yù)警系統(tǒng)的方法研究[D];哈爾濱工程大學(xué);2010年
2 朱廣平;混響干擾中的信號(hào)檢測(cè)技術(shù)研究[D];哈爾濱工程大學(xué);2009年
3 孔凡芝;引線鍵合視覺檢測(cè)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年
4 鄭大騰;柔性坐標(biāo)測(cè)量機(jī)空間誤差模型及最佳測(cè)量區(qū)研究[D];合肥工業(yè)大學(xué);2010年
5 王曉明;基于統(tǒng)計(jì)學(xué)習(xí)的模式識(shí)別幾個(gè)問題及其應(yīng)用研究[D];江南大學(xué);2010年
6 李先鋒;基于特征優(yōu)化和多特征融合的雜草識(shí)別方法研究[D];江蘇大學(xué);2010年
7 劉衛(wèi)紅;垃圾郵件檢測(cè)與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
8 汪春梅;癲癇腦電信號(hào)特征提取與自動(dòng)檢測(cè)方法研究[D];華東理工大學(xué);2011年
9 張目;高技術(shù)企業(yè)信用風(fēng)險(xiǎn)影響因素及評(píng)價(jià)方法研究[D];電子科技大學(xué);2010年
10 向國(guó)齊;支持向量回歸機(jī)代理模型設(shè)計(jì)優(yōu)化及應(yīng)用研究[D];電子科技大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 展慧;基于多源信息融合技術(shù)的板栗分級(jí)檢測(cè)方法研究[D];華中農(nóng)業(yè)大學(xué);2010年
2 杜二玲;擬概率空間上等均值噪聲下統(tǒng)計(jì)學(xué)習(xí)理論的理論基礎(chǔ)[D];河北大學(xué);2007年
3 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年
4 安文娟;Fisher和支持向量綜合分類器[D];遼寧師范大學(xué);2010年
5 姜成玉;基于支持向量機(jī)的時(shí)間序列預(yù)測(cè)[D];遼寧師范大學(xué);2010年
6 李振;網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年
7 姜念;區(qū)間自適應(yīng)粒子群算法研究及其應(yīng)用[D];鄭州大學(xué);2010年
8 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年
9 辛保兵;既有預(yù)應(yīng)力混凝土梁橋剩余承載力評(píng)估方法研究[D];鄭州大學(xué);2010年
10 王巧立;微生物發(fā)酵過程的建模與優(yōu)化控制研究[D];鄭州大學(xué);2010年
本文關(guān)鍵詞:基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):318342
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/318342.html