分布式聚焦網(wǎng)絡(luò)爬蟲技術(shù)和算法的研究
發(fā)布時間:2020-12-17 04:43
隨著信息技術(shù)的不斷發(fā)展,人們漸漸地意識到,快速地從數(shù)量巨大的、含有大量噪聲的網(wǎng)絡(luò)上獲得最新商業(yè)信息對企業(yè)在商業(yè)競爭中取得優(yōu)勢至關(guān)重要?咳藶榈男畔⑺鸭@然并不現(xiàn)實,因此網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)運而生。爬蟲技術(shù)不斷地發(fā)展為并行的、分布式的、聚焦的網(wǎng)路爬蟲集群。在技術(shù)提升的同時,爬蟲結(jié)構(gòu)也越來越復(fù)雜,各種調(diào)度問題、負載平衡問題、瓶頸問題等也隨之而來。本文針對當(dāng)前分布式網(wǎng)絡(luò)爬蟲方法遇到的處理效率、擴展性、可靠性、任務(wù)分配和負載平·衡等問題,提出了一種主動獲取任務(wù)式的分布式網(wǎng)絡(luò)爬蟲方法。該方法在子機節(jié)點中加入分控模塊,評估節(jié)點負載及運行狀況,并通過對比子機動態(tài)壓力棧,主動向中控節(jié)點申請任務(wù)隊列。此基礎(chǔ)上結(jié)合動態(tài)雙向優(yōu)先級任務(wù)分配算法,通過綜合考慮子機節(jié)點的優(yōu)先級和URL任務(wù)的優(yōu)先級,設(shè)計了一種具有負載平衡、任務(wù)分級分配、節(jié)點異常敏捷識別、節(jié)點安全退出等特性的分布式網(wǎng)絡(luò)爬蟲模型,并通過實際測試表明,該主動獲取式的分布式網(wǎng)絡(luò)爬蟲方法可有效地利用通用平臺建立大型分布式爬蟲集群。
【文章來源】:天津工業(yè)大學(xué)天津市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容及組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)理論知識
2.1 分布式聚焦網(wǎng)絡(luò)爬蟲概述
2.1.1 通用網(wǎng)絡(luò)爬蟲
2.1.2 聚焦網(wǎng)絡(luò)爬蟲
2.2 聚焦網(wǎng)絡(luò)爬蟲搜索策略
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 基于遺傳算法的網(wǎng)頁搜索策略
2.3 分布式網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)
2.4 Python語言關(guān)鍵技術(shù)簡介
2.4.1 并行技術(shù)實現(xiàn)
2.4.2 節(jié)點間通信技術(shù)
2.4.3 selenium+BeautifulSoup實現(xiàn)動態(tài)網(wǎng)頁獲取
2.5 本章小結(jié)
第三章 主動獲取式的分布式聚焦網(wǎng)絡(luò)爬蟲方法
3.1 平臺環(huán)境
3.2 研究框架
3.2.1 系統(tǒng)模型
3.2.2 分控模塊
3.2.3 數(shù)據(jù)庫設(shè)計及URL去重策略
3.2.4 信息提取設(shè)計
3.3 主動獲取式實現(xiàn)
3.3.1 節(jié)點通信設(shè)計
3.3.2 雙向任務(wù)動態(tài)獲取的方法
3.4 本章小結(jié)
第四章 方法涉及關(guān)鍵技術(shù)詳解
4.1 基于動態(tài)雙向優(yōu)先級算法的任務(wù)分配策略
4.1.1 URL優(yōu)先級排序算法
4.1.2 子機優(yōu)先級算法
4.1.3 任務(wù)分級分配算法
4.2 負載均衡算法
4.3 異常節(jié)點敏捷識別、節(jié)點安全退出技術(shù)
4.4 本章小結(jié)
第五章 實驗與仿真
5.1 測試環(huán)境說明
5.2 單機運行性能測試
5.3 集群系統(tǒng)性能測試
5.3.1 擴展性測試
5.3.2 負載均衡測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 研究展望
參考文獻
發(fā)表論文和參加科研情況說明
謝辭
【參考文獻】:
期刊論文
[1]基于網(wǎng)絡(luò)爬蟲和改進的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計算機應(yīng)用與軟件. 2017(01)
[2]基于改進Kademlia協(xié)議的分布式爬蟲[J]. 陶耀東,向中希. 計算機系統(tǒng)應(yīng)用. 2016(04)
[3]基于Kademlia的負載平衡云存儲算法[J]. 鄭凱,朱林,陳優(yōu)廣. 計算機應(yīng)用. 2015(03)
[4]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學(xué). 2015(02)
[5]一種基于Kademlia的全分布式爬蟲集群方法[J]. 黃志敏,曾學(xué)文,陳君. 計算機科學(xué). 2014(03)
[6]一種并行的網(wǎng)頁解析算法[J]. 張開敏. 小型微型計算機系統(tǒng). 2014(02)
[7]錨文本檢索有效性分析[J]. 周博,劉奕群,張敏,金奕江,馬少平. 軟件學(xué)報. 2011(08)
[8]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術(shù). 2010(15)
[9]基于改進遺傳算法的聚焦爬蟲設(shè)計[J]. 范會聯(lián),李獻禮,曾廣樸. 計算機工程與科學(xué). 2010(05)
[10]基于GNP算法的分布式爬蟲調(diào)度策略[J]. 劉爽,姜春祥,張偉哲,李東,張鴻. 計算機應(yīng)用研究. 2010(02)
碩士論文
[1]搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D]. 龔勇.武漢理工大學(xué) 2010
本文編號:2921427
【文章來源】:天津工業(yè)大學(xué)天津市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容及組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)理論知識
2.1 分布式聚焦網(wǎng)絡(luò)爬蟲概述
2.1.1 通用網(wǎng)絡(luò)爬蟲
2.1.2 聚焦網(wǎng)絡(luò)爬蟲
2.2 聚焦網(wǎng)絡(luò)爬蟲搜索策略
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 基于遺傳算法的網(wǎng)頁搜索策略
2.3 分布式網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)
2.4 Python語言關(guān)鍵技術(shù)簡介
2.4.1 并行技術(shù)實現(xiàn)
2.4.2 節(jié)點間通信技術(shù)
2.4.3 selenium+BeautifulSoup實現(xiàn)動態(tài)網(wǎng)頁獲取
2.5 本章小結(jié)
第三章 主動獲取式的分布式聚焦網(wǎng)絡(luò)爬蟲方法
3.1 平臺環(huán)境
3.2 研究框架
3.2.1 系統(tǒng)模型
3.2.2 分控模塊
3.2.3 數(shù)據(jù)庫設(shè)計及URL去重策略
3.2.4 信息提取設(shè)計
3.3 主動獲取式實現(xiàn)
3.3.1 節(jié)點通信設(shè)計
3.3.2 雙向任務(wù)動態(tài)獲取的方法
3.4 本章小結(jié)
第四章 方法涉及關(guān)鍵技術(shù)詳解
4.1 基于動態(tài)雙向優(yōu)先級算法的任務(wù)分配策略
4.1.1 URL優(yōu)先級排序算法
4.1.2 子機優(yōu)先級算法
4.1.3 任務(wù)分級分配算法
4.2 負載均衡算法
4.3 異常節(jié)點敏捷識別、節(jié)點安全退出技術(shù)
4.4 本章小結(jié)
第五章 實驗與仿真
5.1 測試環(huán)境說明
5.2 單機運行性能測試
5.3 集群系統(tǒng)性能測試
5.3.1 擴展性測試
5.3.2 負載均衡測試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 本文總結(jié)
6.2 研究展望
參考文獻
發(fā)表論文和參加科研情況說明
謝辭
【參考文獻】:
期刊論文
[1]基于網(wǎng)絡(luò)爬蟲和改進的LCS算法的網(wǎng)站更新監(jiān)測[J]. 周孝錁,郭克華. 計算機應(yīng)用與軟件. 2017(01)
[2]基于改進Kademlia協(xié)議的分布式爬蟲[J]. 陶耀東,向中希. 計算機系統(tǒng)應(yīng)用. 2016(04)
[3]基于Kademlia的負載平衡云存儲算法[J]. 鄭凱,朱林,陳優(yōu)廣. 計算機應(yīng)用. 2015(03)
[4]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學(xué). 2015(02)
[5]一種基于Kademlia的全分布式爬蟲集群方法[J]. 黃志敏,曾學(xué)文,陳君. 計算機科學(xué). 2014(03)
[6]一種并行的網(wǎng)頁解析算法[J]. 張開敏. 小型微型計算機系統(tǒng). 2014(02)
[7]錨文本檢索有效性分析[J]. 周博,劉奕群,張敏,金奕江,馬少平. 軟件學(xué)報. 2011(08)
[8]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術(shù). 2010(15)
[9]基于改進遺傳算法的聚焦爬蟲設(shè)計[J]. 范會聯(lián),李獻禮,曾廣樸. 計算機工程與科學(xué). 2010(05)
[10]基于GNP算法的分布式爬蟲調(diào)度策略[J]. 劉爽,姜春祥,張偉哲,李東,張鴻. 計算機應(yīng)用研究. 2010(02)
碩士論文
[1]搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D]. 龔勇.武漢理工大學(xué) 2010
本文編號:2921427
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2921427.html
最近更新
教材專著