天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Nutch的分布式爬蟲研究與優(yōu)化

發(fā)布時間:2017-07-19 09:18

  本文關(guān)鍵詞:基于Nutch的分布式爬蟲研究與優(yōu)化


  更多相關(guān)文章: Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁更新預測 DBSCAN算法 Map Reduce 泊松過程


【摘要】:隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上的數(shù)據(jù)正在迅速膨脹并變大,數(shù)據(jù)的采集速度越來越不能滿足實際需要。爬蟲系統(tǒng)需要抓取的網(wǎng)頁數(shù)量巨大,如何高效、穩(wěn)定地抓取網(wǎng)頁非常重要。網(wǎng)頁分布廣及動態(tài)變化也使爬蟲系統(tǒng)很難保持本地網(wǎng)頁時新性,爬蟲需要及時更新本地網(wǎng)頁,避免網(wǎng)頁失效。本文對Nutch爬蟲進行改進,將改進后的Nutch和Hadoop分布式平臺結(jié)合,設計高效、可靠的分布式爬蟲系統(tǒng)。主要研究成果如下:1、Nutch和Hadoop分布式平臺結(jié)合Nutch單機運行時,受限于單臺機器存儲及運算性能,且易發(fā)生單點故障,穩(wěn)定性差。我們借助Hadoop分布式平臺的優(yōu)點,將Nutch運行的各個步驟提交給Hadoop,使用Map Reduce分布式計算完成,并將數(shù)據(jù)存儲在HDFS上。我們分別對Nutch單機模式和Nutch分布式模式進行實驗,實驗結(jié)果表明:對比單機模式,分布式模式隨著集群中節(jié)點的增多,Nutch爬行的性能會線性增長;數(shù)據(jù)安全性提高,可靠性增強,節(jié)點間負載均衡。2、提出Proxy IP動態(tài)更換模塊在詳細分析Nutch抓取網(wǎng)頁數(shù)據(jù)的工作流程后,發(fā)現(xiàn)當一個網(wǎng)站有以IP為依據(jù)的訪問檢測機制時,Nutch大規(guī)模訪問很容易被禁止。針對這個問題,提出Proxy IP動態(tài)更換模塊,與Nutch系統(tǒng)結(jié)合,在Nutch爬行被禁止時,更換Proxy IP,使Nutch能繼續(xù)爬行。經(jīng)過測試,Nutch的爬蟲被禁止爬行得到有效解決。3、網(wǎng)頁更新預測優(yōu)化Nutch有網(wǎng)頁更新模塊,但網(wǎng)頁更新的參數(shù)需要人為設定,且對所有網(wǎng)頁有效,很難適應海量網(wǎng)頁的差異化。本文提出動態(tài)選擇策略來預測網(wǎng)頁更新周期。在網(wǎng)頁更新歷史數(shù)據(jù)不足時,通過基于Map Reduce的DBSCAN聚類算法來減少爬蟲系統(tǒng)抓取網(wǎng)頁數(shù)量,將樣本網(wǎng)頁的更新周期作為所屬類其它網(wǎng)頁的更新周期;在網(wǎng)頁更新歷史數(shù)據(jù)較多時,通過對網(wǎng)頁更新歷史數(shù)據(jù)進行泊松過程建模較準確地預測每個網(wǎng)頁的更新周期。實驗表明,動態(tài)選擇策略節(jié)約了爬蟲的抓取資源,且能較準確預測網(wǎng)頁的更新周期。
【關(guān)鍵詞】:Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁更新預測 DBSCAN算法 Map Reduce 泊松過程
【學位授予單位】:上海師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要2-3
  • Abstract3-7
  • 第1章 緒論7-11
  • 1.1 研究目的和意義7
  • 1.2 國內(nèi)外研究現(xiàn)狀7-9
  • 1.3 主要研究內(nèi)容9-10
  • 1.4 論文結(jié)構(gòu)10-11
  • 第2章 Nutch與Hadoop研究11-25
  • 2.1 Nutch11-15
  • 2.1.1 Nutch體系結(jié)構(gòu)11-12
  • 2.1.2 Nutch爬蟲系統(tǒng)12-14
  • 2.1.3 Nutch網(wǎng)頁更新機制14-15
  • 2.2 Hadoop分布式平臺15-24
  • 2.2.1 分布式文件系統(tǒng)(HDFS)15-18
  • 2.2.2 資源管理系統(tǒng)YARN18-21
  • 2.2.3 Map Reduce21-24
  • 2.3 本章小結(jié)24-25
  • 第3章 網(wǎng)頁更新預測相關(guān)研究25-35
  • 3.1 網(wǎng)頁更新25-28
  • 3.1.1 網(wǎng)頁庫時新性和過時度25-26
  • 3.1.2 網(wǎng)頁更新頻率26
  • 3.1.3 網(wǎng)頁更新策略26-28
  • 3.2 泊松過程28
  • 3.2.1 泊松過程簡介28
  • 3.3 聚類算法28-34
  • 3.3.1 聚類的劃分28-31
  • 3.3.2 DBSCAN聚類算法31-34
  • 3.4 本章小結(jié)34-35
  • 第4章 基于Nutch的爬蟲優(yōu)化35-45
  • 4.1 Proxy IP動態(tài)更換模塊實現(xiàn)35-37
  • 4.1.1 Proxy IP庫35
  • 4.1.2 Proxy IP庫運行流程介紹35-36
  • 4.1.3 Proxy IP有效性標識向量36
  • 4.1.4 質(zhì)量系數(shù)36
  • 4.1.5 Proxy IP動態(tài)更換36-37
  • 4.2 網(wǎng)頁更新預測優(yōu)化37-44
  • 4.2.1 動態(tài)選擇策略37-38
  • 4.2.2 基于Map Reduce的DBSCAN算法38-43
  • 4.2.3 基于泊松過程的網(wǎng)頁更新預測43-44
  • 4.3 本章小結(jié)44-45
  • 第5章 實驗與結(jié)果分析45-56
  • 5.1 實驗環(huán)境45-50
  • 5.1.1 硬件環(huán)境45
  • 5.1.2 系統(tǒng)部署45-50
  • 5.2 實驗測試50-55
  • 5.2.1 Proxy IP動態(tài)更換模塊實驗50-52
  • 5.2.2 網(wǎng)頁更新預測實驗52-54
  • 5.2.3 爬蟲系統(tǒng)性能實驗54-55
  • 5.3 實驗結(jié)果分析55
  • 5.4 本章小結(jié)55-56
  • 第6章 總結(jié)與展望56-58
  • 參考文獻58-60
  • 攻讀碩士學位期間取得的研究成果60-61
  • 致謝61-63
  • 附件63

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前9條

1 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進方法[J];計算機工程;2010年13期

2 呂韓飛,王申康;一種重要性與時新性結(jié)合的網(wǎng)頁更新策略[J];計算機應用研究;2005年11期

3 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期

4 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應用;2013年10期

5 孟濤,閆宏飛,王繼民;一個增量搜集中國W eb的系統(tǒng)模型及其實現(xiàn)[J];清華大學學報(自然科學版);2005年S1期

6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期

7 徐尚瑜;;基于泊松過程的爬蟲調(diào)度策略分析[J];現(xiàn)代計算機(專業(yè)版);2009年12期

8 徐健;張智雄;;基于Nutch的Web網(wǎng)站定向采集系統(tǒng)[J];現(xiàn)代圖書情報技術(shù);2009年04期

9 劉俊嶺;孫煥良;王大玲;牛志成;;一種優(yōu)化的基于網(wǎng)格的聚類算法[J];小型微型計算機系統(tǒng);2006年10期

中國碩士學位論文全文數(shù)據(jù)庫 前7條

1 鄭洪英;數(shù)據(jù)挖掘聚類算法的分析和應用研究[D];重慶大學;2002年

2 蘇曉珂;基于Nutch的主題爬蟲研究與實現(xiàn)[D];昆明理工大學;2007年

3 馮朝一;云理論在數(shù)據(jù)挖掘中的應用研究[D];廣西大學;2007年

4 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學;2008年

5 吳翠雁;基于Nutch的信息采集系統(tǒng)的研究與實現(xiàn)[D];華南理工大學;2010年

6 李偉雄;基于密度的聚類算法研究[D];湖南大學;2010年

7 萬文宏;基于Nutch的分布式搜索引擎的研究與優(yōu)化[D];武漢理工大學;2013年

,

本文編號:562132

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/562132.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶55bd5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
永久福利盒子日韩日韩| 日韩精品第一区二区三区| 日韩黄片大全免费在线看| 91天堂素人精品系列全集| 欧美激情中文字幕综合八区| 东京热加勒比一区二区| 精品国产亚洲一区二区三区| 精品国产亚洲区久久露脸| 国产高清在线不卡一区| 日韩精品一级片免费看| 青青免费操手机在线视频| 亚洲av又爽又色又色| 国产性情片一区二区三区| 国产成人精品资源在线观看| 久久91精品国产亚洲| 国产成人精品午夜福利| 一区二区三区国产日韩| 国产日韩精品激情在线观看 | 国产丝袜极品黑色高跟鞋| 欧美一区二区三区99| 亚洲国产91精品视频| 91免费一区二区三区| 日韩一区二区三区嘿嘿| 色婷婷视频在线精品免费观看| 成人欧美精品一区二区三区| 蜜臀人妻一区二区三区| 日本高清视频在线观看不卡| 亚洲午夜福利不卡片在线| 中国黄色色片色哟哟哟哟哟哟| 99国产高清不卡视频| 亚洲精品中文字幕欧美| 中文字幕人妻av不卡| 日本av一区二区不卡| 午夜精品久久久免费视频| 国产二级一级内射视频播放| 久久精品a毛片看国产成人| 国产成人精品99在线观看| 亚洲三级视频在线观看免费| 日韩精品成区中文字幕| 黑人巨大精品欧美一区二区区| 亚洲精品中文字幕在线视频|