分布式爬蟲的動態(tài)負載均衡方法研究
本文關(guān)鍵詞:分布式爬蟲的動態(tài)負載均衡方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎成為互聯(lián)網(wǎng)用戶查找信息的第一入口,作為搜索引擎核心組件的網(wǎng)絡(luò)爬蟲用于在互聯(lián)網(wǎng)上采集數(shù)據(jù)。現(xiàn)在網(wǎng)絡(luò)信息正以指數(shù)級的速度不斷膨脹,網(wǎng)頁采集的完整性和實時性的難度越來越大,這給爬蟲系統(tǒng)帶來了巨大的挑戰(zhàn)。如何充分地利用計算機的硬件資源和網(wǎng)絡(luò)帶寬高效地采集頁面,同時減少由URL判重所帶來的大量通信開銷,是分布式爬蟲系統(tǒng)研究的核心問題。針對這個問題,本文以提高分布式爬蟲系統(tǒng)的性能為核心,進行了以下研究:深入研究了分布式系統(tǒng)優(yōu)缺點、分布式系統(tǒng)的任務(wù)調(diào)度、網(wǎng)絡(luò)爬蟲工作原理和爬行策略的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)爬蟲自身特點、互聯(lián)網(wǎng)結(jié)構(gòu)特點和站點頁面間的相似性,提出了基于在線反饋的站點規(guī)模動態(tài)預測算法。站點規(guī)模動態(tài)預測算法首先對站點規(guī)模進行分類,然后根據(jù)互聯(lián)網(wǎng)結(jié)構(gòu)的疏密性和爬蟲的爬行原理,提出了站點增長比的概念,在爬蟲爬行的過程中,在線采集計算增長比的信息,通過計算出的增長比的反饋,對站點規(guī)模進行逐步預測,并基于采集的數(shù)據(jù)進行了算法模型的訓練和驗證;將基于在線反饋的站點規(guī)模動態(tài)預測算法融入到分布式爬蟲系統(tǒng)中,可根據(jù)預測出的站點規(guī)模,減少URL判重所帶來的大量通信開銷。針對站點規(guī)模計算出爬行器所承載的任務(wù)負荷量,通過監(jiān)視器定時收集爬行器自身負荷當量,基于以上兩點計算爬行器間的負載系數(shù),并以此為依據(jù)進行任務(wù)調(diào)度,以達到負載均衡的效果;結(jié)合以上理論基礎(chǔ)和研究成果,本文設(shè)計并開發(fā)了基于站點規(guī)模的動態(tài)任務(wù)分割算法的分布式爬蟲系統(tǒng),該分布式爬蟲系統(tǒng)能很好地處理新增爬行器時的負載均衡情況和爬行器出現(xiàn)故障時的任務(wù)快速恢復情況,具有很好的動態(tài)負載均衡效果、魯棒性和擴展性。
【關(guān)鍵詞】:分布式爬蟲 動態(tài)負載均衡 站點規(guī)模預測 減少通信開銷 任務(wù)調(diào)度
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 緒論8-15
- 1.1 研究背景和意義8-9
- 1.2 國內(nèi)外相關(guān)研究和綜述9-13
- 1.2.1 網(wǎng)絡(luò)爬蟲9-10
- 1.2.2 負載均衡的實現(xiàn)機制10
- 1.2.3 負載均衡的實現(xiàn)技術(shù)10-12
- 1.2.4 存在的問題12-13
- 1.3 本文研究內(nèi)容13
- 1.4 本文的結(jié)構(gòu)安排13-15
- 第2章 分布式爬蟲系統(tǒng)的相關(guān)技術(shù)15-23
- 2.1 引言15
- 2.2 分布式系統(tǒng)15-17
- 2.2.1 分布式系統(tǒng)的優(yōu)點15-16
- 2.2.2 分布式系統(tǒng)的缺點16
- 2.2.3 分布式系統(tǒng)的任務(wù)調(diào)度16-17
- 2.3 網(wǎng)絡(luò)爬蟲17-19
- 2.3.1 通用Web爬蟲17-18
- 2.3.2 聚焦Web爬蟲18-19
- 2.4 爬行策略19-21
- 2.4.1 廣度優(yōu)先策略20
- 2.4.2 深度優(yōu)先策略20-21
- 2.4.3 最佳優(yōu)先策略21
- 2.5 布隆過濾器21-22
- 2.6 本章小結(jié)22-23
- 第3章 基于在線反饋的站點規(guī)模動態(tài)預測算法23-37
- 3.1 引言23
- 3.2 站點規(guī)模23-24
- 3.3 站點增長比24-27
- 3.4 在線反饋信息27-28
- 3.5 站點規(guī)模預測模型訓練28-33
- 3.5.1 損失函數(shù)28
- 3.5.2 模型的參數(shù)訓練28-31
- 3.5.3 訓練數(shù)據(jù)及方法31-33
- 3.6 實驗及結(jié)果分析33-36
- 3.7 本章小結(jié)36-37
- 第4章 基于站點規(guī)模預測的分布式爬蟲動態(tài)負載均衡方法37-50
- 4.1 引言37
- 4.2 動態(tài)負載均衡算法的權(quán)衡因素37-38
- 4.2.1 任務(wù)負荷的評估37
- 4.2.2 任務(wù)遷移的代價37
- 4.2.3 系統(tǒng)的魯棒性和可擴展性37-38
- 4.3 爬行器負荷當量的計算38-39
- 4.4 負載均衡的衡量——負載系數(shù)39-40
- 4.5 任務(wù)調(diào)度的策略40-41
- 4.6 通信開銷問題41-42
- 4.7 對比實驗及結(jié)果分析42-49
- 4.7.1 實驗環(huán)境42
- 4.7.2 實驗結(jié)果及分析42-49
- 4.8 本章小結(jié)49-50
- 第5章 分布式爬蟲系統(tǒng)設(shè)計與實現(xiàn)50-56
- 5.1 分布式爬蟲的整體架構(gòu)50-51
- 5.2 分布式爬蟲系統(tǒng)模塊功能設(shè)計與實現(xiàn)51-55
- 5.2.1 爬行模塊51-52
- 5.2.2 服務(wù)器模塊52-53
- 5.2.3 負載均衡模塊53-54
- 5.2.4 系統(tǒng)的魯棒性和擴展性模塊54-55
- 5.3 本章小結(jié)55-56
- 結(jié)論56-57
- 參考文獻57-62
- 致謝62
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭云翔;張燕芬;;e-Learning Grid動態(tài)負載均衡通用機制研究[J];中國電化教育;2011年11期
2 劉建;李緒志;;一種動態(tài)負載均衡機制的研究與實現(xiàn)[J];計算機工程與應(yīng)用;2006年02期
3 曾蛟龍;胡榮貴;谷裕;許成喜;;遺傳算法在蜜網(wǎng)動態(tài)負載均衡中的應(yīng)用[J];計算機應(yīng)用研究;2012年06期
4 吳恒山,張翼,李東;一個基于分布式數(shù)據(jù)庫系統(tǒng)的動態(tài)負載分配算法[J];計算機應(yīng)用研究;1999年11期
5 何昱;歷軍;;基于應(yīng)用級監(jiān)控的動態(tài)負載均衡系統(tǒng)[J];計算機工程;2008年09期
6 曹英存;;集群系統(tǒng)下的動態(tài)負載均衡探究[J];和田師范專科學校學報;2006年02期
7 王澤均;陳新;王勇;高寶慶;;基于動態(tài)負載均衡的網(wǎng)絡(luò)監(jiān)控系統(tǒng)[J];計算機工程;2008年24期
8 李金攻;張平;陳繼光;;基于NAT-PT簇的集中式動態(tài)負載均衡的研究[J];通信技術(shù);2009年04期
9 楊連云;;動態(tài)負載曲線在電視機可靠性設(shè)計中的應(yīng)用[J];電視技術(shù);1982年03期
10 祝偉華;徐強;;基于動態(tài)負載均衡的VRRP協(xié)議研究[J];重慶理工大學學報(自然科學);2011年07期
中國碩士學位論文全文數(shù)據(jù)庫 前7條
1 付志輝;分布式爬蟲的動態(tài)負載均衡方法研究[D];哈爾濱工業(yè)大學;2014年
2 許偉;分布式系統(tǒng)中的主機負載預測與動態(tài)負載均衡研究[D];中南大學;2004年
3 丁學智;一種面向分布式服務(wù)器集群的動態(tài)負載均衡系統(tǒng)的實現(xiàn)[D];北京郵電大學;2014年
4 張楠;基于LVS/DR集群的動態(tài)負載機制研究與實現(xiàn)[D];云南大學;2013年
5 柳旭日;基于負載預測和過載遷移的動態(tài)負載均衡研究[D];青島理工大學;2009年
6 徐海龍;基于標準Linux內(nèi)核的動態(tài)負載均衡實現(xiàn)[D];天津工業(yè)大學;2005年
7 王天翊;P2P網(wǎng)絡(luò)中動態(tài)負載均衡研究[D];西安電子科技大學;2012年
本文關(guān)鍵詞:分布式爬蟲的動態(tài)負載均衡方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:384682
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/384682.html