天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化

發(fā)布時間:2017-05-24 22:11

  本文關鍵詞:分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。


【摘要】:在信息每天都以爆炸式速度增長的今天,單機網絡爬蟲系統(tǒng)抓取性能遇到了瓶頸。基于分布式系統(tǒng)的網絡爬蟲技術的出現,大大提高了并發(fā)抓取的性能。但是現有分布式網絡爬蟲系統(tǒng)存在不足之處,采用純多線程異步方式進行抓取的網頁抓取模塊為了解決線程同步和資源競爭等問題設計了線程管理模塊,執(zhí)行該模塊降低了系統(tǒng)性能。網絡爬蟲中的URL去重算法在處理大數據集時或存在去重效率低的問題或存在占用存儲空間大的問題。因此本文對網頁抓取模塊和URL去重策略進行優(yōu)化具有重要工程意義。 本文基于現有網絡爬蟲的不足之處,對網頁抓取模塊和URL去重策略提出了改進優(yōu)化方案。網頁抓取模塊采用半同步/半異步方式設計的多線程池,主線程負責任務調度,工作線程負責具體的邏輯處理。各線程對網絡事件的處理將由Libevent網絡庫完成,采用這種方式設計的網頁抓取模塊非常適合高并發(fā)大數據處理。URL去重策略采用緩存機制,將重復度高的URL保存在緩存隊列中,減少了訪問存儲系統(tǒng)的次數,提高了URL去重的效率。本文基于上述優(yōu)化方案設計了運行在Hadoop分布式環(huán)境的網絡爬蟲系統(tǒng)。 最后通過搭建測試環(huán)境,從功能和性能兩個方面設計了詳細的系統(tǒng)測試方案,對優(yōu)化后的爬蟲系統(tǒng)進行測試,通過與現有分布式網絡爬蟲在單機模式、集群模式下的抓取能力進行對比,驗證本文基于優(yōu)化方案設計的網絡爬蟲是高效的。通過與現有URL去重策略從去重時間和準確性兩方面進行對比,驗證本文提出的去重策略是高效的。
【關鍵詞】:URL 去重策略 Libevent 框架 網絡爬蟲 Hadoop
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 研究背景9-11
  • 1.1.1 選題背景9-10
  • 1.1.2 研究意義10-11
  • 1.2 研究現狀11-13
  • 1.3 論文主要內容13
  • 1.4 論文的組織結構13-15
  • 第二章 網絡爬蟲系統(tǒng)的基礎研究15-25
  • 2.1 網絡爬蟲的特征15-16
  • 2.2 網絡爬蟲系統(tǒng)關鍵技術的研究16-20
  • 2.2.1 URL去重策略16-17
  • 2.2.2 網頁抓取算法17-20
  • 2.3 網絡爬蟲的基本組成模塊20-21
  • 2.4 MapReduce編程模型21-23
  • 2.5 本章總結23-25
  • 第三章 爬蟲系統(tǒng)的優(yōu)化方案及其整體架構25-37
  • 3.1 網絡爬蟲的工作原理25-26
  • 3.1.1 單機網絡爬蟲工作原理25-26
  • 3.1.2 分布式網絡爬蟲的工作原理26
  • 3.2 分布式網絡爬蟲系統(tǒng)頁面抓取模塊分析與優(yōu)化26-30
  • 3.2.1 現有網絡爬蟲網頁抓取模塊缺陷分析26-27
  • 3.2.2 網頁抓取模塊優(yōu)化方案27-30
  • 3.3 URL去重策略的分析與優(yōu)化30-34
  • 3.3.1 現有URL去重策略缺陷分析30-32
  • 3.3.2 URL去重策略優(yōu)化方案32-34
  • 3.4 分布式網絡爬蟲的總體架構34-35
  • 3.5 本章總結35-37
  • 第四章 基于優(yōu)化方案的網絡爬蟲具體實現37-47
  • 4.1 網頁抓取模塊優(yōu)化方案具體實現37-39
  • 4.2 URL去重策略優(yōu)化的具體實現39-43
  • 4.3 基于MapReduce生成抓取列表的具體實現43-45
  • 4.3.1 URL預處理的具體實現43-44
  • 4.3.2 待抓取列表生成模塊的具體實現44-45
  • 4.4 分布式網絡爬蟲存儲系統(tǒng)設計45-46
  • 4.5 本章總結46-47
  • 第五章 實驗搭建與測試結果47-55
  • 5.1 實驗環(huán)境47-48
  • 5.1.1 設備硬件配置47
  • 5.1.2 測試環(huán)境軟件版本47
  • 5.1.3 Hadoop集群環(huán)境搭建47-48
  • 5.2 網頁抓取模塊實驗分析48-52
  • 5.2.1 網頁抓取模塊的測試方案設計49
  • 5.2.2 實驗數據49-50
  • 5.2.3 實驗數據分析50-52
  • 5.3 URL去重策略實驗分析52-54
  • 5.3.1 URL去重策略測試方案設計52
  • 5.3.2 實驗數據52-53
  • 5.3.3 實驗數據分析53-54
  • 5.4 本章總結54-55
  • 第六章 總結與展望55-57
  • 6.1 本文工作總結55-56
  • 6.2 進一步研究方向56-57
  • 參考文獻57-61
  • 致謝61

【參考文獻】

中國期刊全文數據庫 前9條

1 鄧見光;潘曉衡;袁華強;;云存儲及其分布式文件系統(tǒng)研究[J];東莞理工學院學報;2012年05期

2 董日壯;郭曙超;;網絡爬蟲的設計與實現[J];電腦知識與技術;2014年17期

3 林闖;胡杰;孔祥震;;用戶體驗質量(QoE)的模型與評價方法綜述[J];計算機學報;2012年01期

4 詹恒飛;楊岳湘;方宏;;Nutch分布式網絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期

5 許丞;劉洪;譚良;;Hadoop云平臺的一種新的任務調度和監(jiān)控機制[J];計算機科學;2013年01期

6 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應用;2013年10期

7 劉元珍;;Bloom Filter及其在網絡中的應用綜述[J];計算機應用與軟件;2013年09期

8 胡維華;曹奇峰;;基于Nutch的頁面排序算法研究[J];杭州電子科技大學學報;2013年06期

9 秦臻;肖春靜;李樂民;;基于云的域名解析服務模型[J];通信學報;2013年02期


  本文關鍵詞:分布式環(huán)境下的網絡爬蟲系統(tǒng)研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。

,

本文編號:392127

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/392127.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶33962***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产免费自拍黄片免费看| 日系韩系还是欧美久久| 欧美午夜视频免费观看| 中国少妇精品偷拍视频| 大香蕉伊人精品在线观看| 欧美视频在线观看一区| 日韩午夜福利高清在线观看| 成人日韩在线播放视频| 99久久人妻精品免费一区| 一区二区三区亚洲天堂| 国产日韩欧美综合视频| 日本精品理论在线观看| 91精品国产综合久久精品| 色播五月激情五月婷婷| 日本熟妇熟女久久综合| 亚洲中文字幕剧情在线播放| 欧美一级片日韩一级片| 国产毛片av一区二区三区小说| 偷拍偷窥女厕一区二区视频 | 国产午夜福利在线观看精品| 好骚国产99在线中文| 国产目拍亚洲精品区一区| 国产av精品高清一区二区三区| 中文字幕禁断介一区二区| 日韩欧美国产精品自拍| 激情五月综五月综合网| 欧美一区二区口爆吞精| 在线观看免费视频你懂的| 麻豆91成人国产在线观看| 丰满少妇被猛烈撞击在线视频| 黑丝国产精品一区二区| 亚洲精品国产精品日韩| 厕所偷拍一区二区三区视频| 中文字幕一二区在线观看| 日韩欧美第一页在线观看| 久久经典一区二区三区| 一区二区三区四区亚洲另类| 亚洲一级二级三级精品| 日本东京热视频一区二区三区| 久久精品免费视看国产成人| 激情爱爱一区二区三区|