分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化
發(fā)布時間:2017-05-24 22:11
本文關鍵詞:分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:在信息每天都以爆炸式速度增長的今天,單機網絡爬蟲系統(tǒng)抓取性能遇到了瓶頸。基于分布式系統(tǒng)的網絡爬蟲技術的出現,大大提高了并發(fā)抓取的性能。但是現有分布式網絡爬蟲系統(tǒng)存在不足之處,采用純多線程異步方式進行抓取的網頁抓取模塊為了解決線程同步和資源競爭等問題設計了線程管理模塊,執(zhí)行該模塊降低了系統(tǒng)性能。網絡爬蟲中的URL去重算法在處理大數據集時或存在去重效率低的問題或存在占用存儲空間大的問題。因此本文對網頁抓取模塊和URL去重策略進行優(yōu)化具有重要工程意義。 本文基于現有網絡爬蟲的不足之處,對網頁抓取模塊和URL去重策略提出了改進優(yōu)化方案。網頁抓取模塊采用半同步/半異步方式設計的多線程池,主線程負責任務調度,工作線程負責具體的邏輯處理。各線程對網絡事件的處理將由Libevent網絡庫完成,采用這種方式設計的網頁抓取模塊非常適合高并發(fā)大數據處理。URL去重策略采用緩存機制,將重復度高的URL保存在緩存隊列中,減少了訪問存儲系統(tǒng)的次數,提高了URL去重的效率。本文基于上述優(yōu)化方案設計了運行在Hadoop分布式環(huán)境的網絡爬蟲系統(tǒng)。 最后通過搭建測試環(huán)境,從功能和性能兩個方面設計了詳細的系統(tǒng)測試方案,對優(yōu)化后的爬蟲系統(tǒng)進行測試,通過與現有分布式網絡爬蟲在單機模式、集群模式下的抓取能力進行對比,驗證本文基于優(yōu)化方案設計的網絡爬蟲是高效的。通過與現有URL去重策略從去重時間和準確性兩方面進行對比,驗證本文提出的去重策略是高效的。
【關鍵詞】:URL 去重策略 Libevent 框架 網絡爬蟲 Hadoop
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 研究背景9-11
- 1.1.1 選題背景9-10
- 1.1.2 研究意義10-11
- 1.2 研究現狀11-13
- 1.3 論文主要內容13
- 1.4 論文的組織結構13-15
- 第二章 網絡爬蟲系統(tǒng)的基礎研究15-25
- 2.1 網絡爬蟲的特征15-16
- 2.2 網絡爬蟲系統(tǒng)關鍵技術的研究16-20
- 2.2.1 URL去重策略16-17
- 2.2.2 網頁抓取算法17-20
- 2.3 網絡爬蟲的基本組成模塊20-21
- 2.4 MapReduce編程模型21-23
- 2.5 本章總結23-25
- 第三章 爬蟲系統(tǒng)的優(yōu)化方案及其整體架構25-37
- 3.1 網絡爬蟲的工作原理25-26
- 3.1.1 單機網絡爬蟲工作原理25-26
- 3.1.2 分布式網絡爬蟲的工作原理26
- 3.2 分布式網絡爬蟲系統(tǒng)頁面抓取模塊分析與優(yōu)化26-30
- 3.2.1 現有網絡爬蟲網頁抓取模塊缺陷分析26-27
- 3.2.2 網頁抓取模塊優(yōu)化方案27-30
- 3.3 URL去重策略的分析與優(yōu)化30-34
- 3.3.1 現有URL去重策略缺陷分析30-32
- 3.3.2 URL去重策略優(yōu)化方案32-34
- 3.4 分布式網絡爬蟲的總體架構34-35
- 3.5 本章總結35-37
- 第四章 基于優(yōu)化方案的網絡爬蟲具體實現37-47
- 4.1 網頁抓取模塊優(yōu)化方案具體實現37-39
- 4.2 URL去重策略優(yōu)化的具體實現39-43
- 4.3 基于MapReduce生成抓取列表的具體實現43-45
- 4.3.1 URL預處理的具體實現43-44
- 4.3.2 待抓取列表生成模塊的具體實現44-45
- 4.4 分布式網絡爬蟲存儲系統(tǒng)設計45-46
- 4.5 本章總結46-47
- 第五章 實驗搭建與測試結果47-55
- 5.1 實驗環(huán)境47-48
- 5.1.1 設備硬件配置47
- 5.1.2 測試環(huán)境軟件版本47
- 5.1.3 Hadoop集群環(huán)境搭建47-48
- 5.2 網頁抓取模塊實驗分析48-52
- 5.2.1 網頁抓取模塊的測試方案設計49
- 5.2.2 實驗數據49-50
- 5.2.3 實驗數據分析50-52
- 5.3 URL去重策略實驗分析52-54
- 5.3.1 URL去重策略測試方案設計52
- 5.3.2 實驗數據52-53
- 5.3.3 實驗數據分析53-54
- 5.4 本章總結54-55
- 第六章 總結與展望55-57
- 6.1 本文工作總結55-56
- 6.2 進一步研究方向56-57
- 參考文獻57-61
- 致謝61
【參考文獻】
中國期刊全文數據庫 前9條
1 鄧見光;潘曉衡;袁華強;;云存儲及其分布式文件系統(tǒng)研究[J];東莞理工學院學報;2012年05期
2 董日壯;郭曙超;;網絡爬蟲的設計與實現[J];電腦知識與技術;2014年17期
3 林闖;胡杰;孔祥震;;用戶體驗質量(QoE)的模型與評價方法綜述[J];計算機學報;2012年01期
4 詹恒飛;楊岳湘;方宏;;Nutch分布式網絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期
5 許丞;劉洪;譚良;;Hadoop云平臺的一種新的任務調度和監(jiān)控機制[J];計算機科學;2013年01期
6 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應用;2013年10期
7 劉元珍;;Bloom Filter及其在網絡中的應用綜述[J];計算機應用與軟件;2013年09期
8 胡維華;曹奇峰;;基于Nutch的頁面排序算法研究[J];杭州電子科技大學學報;2013年06期
9 秦臻;肖春靜;李樂民;;基于云的域名解析服務模型[J];通信學報;2013年02期
本文關鍵詞:分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
,本文編號:392127
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/392127.html
最近更新
教材專著