分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化
本文關(guān)鍵詞:分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:在信息每天都以爆炸式速度增長的今天,單機網(wǎng)絡(luò)爬蟲系統(tǒng)抓取性能遇到了瓶頸。基于分布式系統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)的出現(xiàn),大大提高了并發(fā)抓取的性能。但是現(xiàn)有分布式網(wǎng)絡(luò)爬蟲系統(tǒng)存在不足之處,采用純多線程異步方式進行抓取的網(wǎng)頁抓取模塊為了解決線程同步和資源競爭等問題設(shè)計了線程管理模塊,執(zhí)行該模塊降低了系統(tǒng)性能。網(wǎng)絡(luò)爬蟲中的URL去重算法在處理大數(shù)據(jù)集時或存在去重效率低的問題或存在占用存儲空間大的問題。因此本文對網(wǎng)頁抓取模塊和URL去重策略進行優(yōu)化具有重要工程意義。 本文基于現(xiàn)有網(wǎng)絡(luò)爬蟲的不足之處,對網(wǎng)頁抓取模塊和URL去重策略提出了改進優(yōu)化方案。網(wǎng)頁抓取模塊采用半同步/半異步方式設(shè)計的多線程池,主線程負責(zé)任務(wù)調(diào)度,工作線程負責(zé)具體的邏輯處理。各線程對網(wǎng)絡(luò)事件的處理將由Libevent網(wǎng)絡(luò)庫完成,采用這種方式設(shè)計的網(wǎng)頁抓取模塊非常適合高并發(fā)大數(shù)據(jù)處理。URL去重策略采用緩存機制,將重復(fù)度高的URL保存在緩存隊列中,減少了訪問存儲系統(tǒng)的次數(shù),提高了URL去重的效率。本文基于上述優(yōu)化方案設(shè)計了運行在Hadoop分布式環(huán)境的網(wǎng)絡(luò)爬蟲系統(tǒng)。 最后通過搭建測試環(huán)境,從功能和性能兩個方面設(shè)計了詳細的系統(tǒng)測試方案,對優(yōu)化后的爬蟲系統(tǒng)進行測試,通過與現(xiàn)有分布式網(wǎng)絡(luò)爬蟲在單機模式、集群模式下的抓取能力進行對比,驗證本文基于優(yōu)化方案設(shè)計的網(wǎng)絡(luò)爬蟲是高效的。通過與現(xiàn)有URL去重策略從去重時間和準確性兩方面進行對比,驗證本文提出的去重策略是高效的。
【關(guān)鍵詞】:URL 去重策略 Libevent 框架 網(wǎng)絡(luò)爬蟲 Hadoop
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 研究背景9-11
- 1.1.1 選題背景9-10
- 1.1.2 研究意義10-11
- 1.2 研究現(xiàn)狀11-13
- 1.3 論文主要內(nèi)容13
- 1.4 論文的組織結(jié)構(gòu)13-15
- 第二章 網(wǎng)絡(luò)爬蟲系統(tǒng)的基礎(chǔ)研究15-25
- 2.1 網(wǎng)絡(luò)爬蟲的特征15-16
- 2.2 網(wǎng)絡(luò)爬蟲系統(tǒng)關(guān)鍵技術(shù)的研究16-20
- 2.2.1 URL去重策略16-17
- 2.2.2 網(wǎng)頁抓取算法17-20
- 2.3 網(wǎng)絡(luò)爬蟲的基本組成模塊20-21
- 2.4 MapReduce編程模型21-23
- 2.5 本章總結(jié)23-25
- 第三章 爬蟲系統(tǒng)的優(yōu)化方案及其整體架構(gòu)25-37
- 3.1 網(wǎng)絡(luò)爬蟲的工作原理25-26
- 3.1.1 單機網(wǎng)絡(luò)爬蟲工作原理25-26
- 3.1.2 分布式網(wǎng)絡(luò)爬蟲的工作原理26
- 3.2 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)頁面抓取模塊分析與優(yōu)化26-30
- 3.2.1 現(xiàn)有網(wǎng)絡(luò)爬蟲網(wǎng)頁抓取模塊缺陷分析26-27
- 3.2.2 網(wǎng)頁抓取模塊優(yōu)化方案27-30
- 3.3 URL去重策略的分析與優(yōu)化30-34
- 3.3.1 現(xiàn)有URL去重策略缺陷分析30-32
- 3.3.2 URL去重策略優(yōu)化方案32-34
- 3.4 分布式網(wǎng)絡(luò)爬蟲的總體架構(gòu)34-35
- 3.5 本章總結(jié)35-37
- 第四章 基于優(yōu)化方案的網(wǎng)絡(luò)爬蟲具體實現(xiàn)37-47
- 4.1 網(wǎng)頁抓取模塊優(yōu)化方案具體實現(xiàn)37-39
- 4.2 URL去重策略優(yōu)化的具體實現(xiàn)39-43
- 4.3 基于MapReduce生成抓取列表的具體實現(xiàn)43-45
- 4.3.1 URL預(yù)處理的具體實現(xiàn)43-44
- 4.3.2 待抓取列表生成模塊的具體實現(xiàn)44-45
- 4.4 分布式網(wǎng)絡(luò)爬蟲存儲系統(tǒng)設(shè)計45-46
- 4.5 本章總結(jié)46-47
- 第五章 實驗搭建與測試結(jié)果47-55
- 5.1 實驗環(huán)境47-48
- 5.1.1 設(shè)備硬件配置47
- 5.1.2 測試環(huán)境軟件版本47
- 5.1.3 Hadoop集群環(huán)境搭建47-48
- 5.2 網(wǎng)頁抓取模塊實驗分析48-52
- 5.2.1 網(wǎng)頁抓取模塊的測試方案設(shè)計49
- 5.2.2 實驗數(shù)據(jù)49-50
- 5.2.3 實驗數(shù)據(jù)分析50-52
- 5.3 URL去重策略實驗分析52-54
- 5.3.1 URL去重策略測試方案設(shè)計52
- 5.3.2 實驗數(shù)據(jù)52-53
- 5.3.3 實驗數(shù)據(jù)分析53-54
- 5.4 本章總結(jié)54-55
- 第六章 總結(jié)與展望55-57
- 6.1 本文工作總結(jié)55-56
- 6.2 進一步研究方向56-57
- 參考文獻57-61
- 致謝61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 鄧見光;潘曉衡;袁華強;;云存儲及其分布式文件系統(tǒng)研究[J];東莞理工學(xué)院學(xué)報;2012年05期
2 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2014年17期
3 林闖;胡杰;孔祥震;;用戶體驗質(zhì)量(QoE)的模型與評價方法綜述[J];計算機學(xué)報;2012年01期
4 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學(xué)與探索;2011年01期
5 許丞;劉洪;譚良;;Hadoop云平臺的一種新的任務(wù)調(diào)度和監(jiān)控機制[J];計算機科學(xué);2013年01期
6 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應(yīng)用;2013年10期
7 劉元珍;;Bloom Filter及其在網(wǎng)絡(luò)中的應(yīng)用綜述[J];計算機應(yīng)用與軟件;2013年09期
8 胡維華;曹奇峰;;基于Nutch的頁面排序算法研究[J];杭州電子科技大學(xué)學(xué)報;2013年06期
9 秦臻;肖春靜;李樂民;;基于云的域名解析服務(wù)模型[J];通信學(xué)報;2013年02期
本文關(guān)鍵詞:分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
,本文編號:392127
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/392127.html