當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化

發(fā)布時間：2017-05-24 22:11

本文關(guān)鍵詞：分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化，由筆耕文化傳播整理發(fā)布。

【摘要】：在信息每天都以爆炸式速度增長的今天,單機網(wǎng)絡(luò)爬蟲系統(tǒng)抓取性能遇到了瓶頸。基于分布式系統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)的出現(xiàn),大大提高了并發(fā)抓取的性能。但是現(xiàn)有分布式網(wǎng)絡(luò)爬蟲系統(tǒng)存在不足之處,采用純多線程異步方式進行抓取的網(wǎng)頁抓取模塊為了解決線程同步和資源競爭等問題設(shè)計了線程管理模塊,執(zhí)行該模塊降低了系統(tǒng)性能。網(wǎng)絡(luò)爬蟲中的URL去重算法在處理大數(shù)據(jù)集時或存在去重效率低的問題或存在占用存儲空間大的問題。因此本文對網(wǎng)頁抓取模塊和URL去重策略進行優(yōu)化具有重要工程意義。本文基于現(xiàn)有網(wǎng)絡(luò)爬蟲的不足之處,對網(wǎng)頁抓取模塊和URL去重策略提出了改進優(yōu)化方案。網(wǎng)頁抓取模塊采用半同步/半異步方式設(shè)計的多線程池,主線程負責(zé)任務(wù)調(diào)度,工作線程負責(zé)具體的邏輯處理。各線程對網(wǎng)絡(luò)事件的處理將由Libevent網(wǎng)絡(luò)庫完成,采用這種方式設(shè)計的網(wǎng)頁抓取模塊非常適合高并發(fā)大數(shù)據(jù)處理。URL去重策略采用緩存機制,將重復(fù)度高的URL保存在緩存隊列中,減少了訪問存儲系統(tǒng)的次數(shù),提高了URL去重的效率。本文基于上述優(yōu)化方案設(shè)計了運行在Hadoop分布式環(huán)境的網(wǎng)絡(luò)爬蟲系統(tǒng)。最后通過搭建測試環(huán)境,從功能和性能兩個方面設(shè)計了詳細的系統(tǒng)測試方案,對優(yōu)化后的爬蟲系統(tǒng)進行測試,通過與現(xiàn)有分布式網(wǎng)絡(luò)爬蟲在單機模式、集群模式下的抓取能力進行對比,驗證本文基于優(yōu)化方案設(shè)計的網(wǎng)絡(luò)爬蟲是高效的。通過與現(xiàn)有URL去重策略從去重時間和準確性兩方面進行對比,驗證本文提出的去重策略是高效的。
【關(guān)鍵詞】：URL 去重策略 Libevent 框架 網(wǎng)絡(luò)爬蟲 Hadoop
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP393.092
【目錄】：

摘要4-5
ABSTRACT5-9
第一章緒論9-15
1.1 研究背景9-11
1.1.1 選題背景9-10
1.1.2 研究意義10-11
1.2 研究現(xiàn)狀11-13
1.3 論文主要內(nèi)容13
1.4 論文的組織結(jié)構(gòu)13-15
第二章網(wǎng)絡(luò)爬蟲系統(tǒng)的基礎(chǔ)研究15-25
2.1 網(wǎng)絡(luò)爬蟲的特征15-16
2.2 網(wǎng)絡(luò)爬蟲系統(tǒng)關(guān)鍵技術(shù)的研究16-20
2.2.1 URL去重策略16-17
2.2.2 網(wǎng)頁抓取算法17-20
2.3 網(wǎng)絡(luò)爬蟲的基本組成模塊20-21
2.4 MapReduce編程模型21-23
2.5 本章總結(jié)23-25
第三章爬蟲系統(tǒng)的優(yōu)化方案及其整體架構(gòu)25-37
3.1 網(wǎng)絡(luò)爬蟲的工作原理25-26
3.1.1 單機網(wǎng)絡(luò)爬蟲工作原理25-26
3.1.2 分布式網(wǎng)絡(luò)爬蟲的工作原理26
3.2 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)頁面抓取模塊分析與優(yōu)化26-30
3.2.1 現(xiàn)有網(wǎng)絡(luò)爬蟲網(wǎng)頁抓取模塊缺陷分析26-27
3.2.2 網(wǎng)頁抓取模塊優(yōu)化方案27-30
3.3 URL去重策略的分析與優(yōu)化30-34
3.3.1 現(xiàn)有URL去重策略缺陷分析30-32
3.3.2 URL去重策略優(yōu)化方案32-34
3.4 分布式網(wǎng)絡(luò)爬蟲的總體架構(gòu)34-35
3.5 本章總結(jié)35-37
第四章基于優(yōu)化方案的網(wǎng)絡(luò)爬蟲具體實現(xiàn)37-47
4.1 網(wǎng)頁抓取模塊優(yōu)化方案具體實現(xiàn)37-39
4.2 URL去重策略優(yōu)化的具體實現(xiàn)39-43
4.3 基于MapReduce生成抓取列表的具體實現(xiàn)43-45
4.3.1 URL預(yù)處理的具體實現(xiàn)43-44
4.3.2 待抓取列表生成模塊的具體實現(xiàn)44-45
4.4 分布式網(wǎng)絡(luò)爬蟲存儲系統(tǒng)設(shè)計45-46
4.5 本章總結(jié)46-47
第五章實驗搭建與測試結(jié)果47-55
5.1 實驗環(huán)境47-48
5.1.1 設(shè)備硬件配置47
5.1.2 測試環(huán)境軟件版本47
5.1.3 Hadoop集群環(huán)境搭建47-48
5.2 網(wǎng)頁抓取模塊實驗分析48-52
5.2.1 網(wǎng)頁抓取模塊的測試方案設(shè)計49
5.2.2 實驗數(shù)據(jù)49-50
5.2.3 實驗數(shù)據(jù)分析50-52
5.3 URL去重策略實驗分析52-54
5.3.1 URL去重策略測試方案設(shè)計52
5.3.2 實驗數(shù)據(jù)52-53
5.3.3 實驗數(shù)據(jù)分析53-54
5.4 本章總結(jié)54-55
第六章總結(jié)與展望55-57
6.1 本文工作總結(jié)55-56
6.2 進一步研究方向56-57
參考文獻57-61
致謝61

【參考文獻】

中國期刊全文數(shù)據(jù)庫前9條

1 鄧見光;潘曉衡;袁華強;;云存儲及其分布式文件系統(tǒng)研究[J];東莞理工學(xué)院學(xué)報;2012年05期

2 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2014年17期

3 林闖;胡杰;孔祥震;;用戶體驗質(zhì)量(QoE)的模型與評價方法綜述[J];計算機學(xué)報;2012年01期

4 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學(xué)與探索;2011年01期

5 許丞;劉洪;譚良;;Hadoop云平臺的一種新的任務(wù)調(diào)度和監(jiān)控機制[J];計算機科學(xué);2013年01期

6 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應(yīng)用;2013年10期

7 劉元珍;;Bloom Filter及其在網(wǎng)絡(luò)中的應(yīng)用綜述[J];計算機應(yīng)用與軟件;2013年09期

8 胡維華;曹奇峰;;基于Nutch的頁面排序算法研究[J];杭州電子科技大學(xué)學(xué)報;2013年06期

9 秦臻;肖春靜;李樂民;;基于云的域名解析服務(wù)模型[J];通信學(xué)報;2013年02期

本文關(guān)鍵詞：分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化，由筆耕文化傳播整理發(fā)布。

，

本文編號：392127

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/392127.html

上一篇：互聯(lián)網(wǎng)金融背景下商業(yè)銀行競爭策略研究
下一篇：基于Android的移動互聯(lián)網(wǎng)應(yīng)用框架方案

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化