基于Nutch的分布式爬蟲研究與優(yōu)化
本文關(guān)鍵詞:基于Nutch的分布式爬蟲研究與優(yōu)化
更多相關(guān)文章: Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁更新預測 DBSCAN算法 Map Reduce 泊松過程
【摘要】:隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上的數(shù)據(jù)正在迅速膨脹并變大,數(shù)據(jù)的采集速度越來越不能滿足實際需要。爬蟲系統(tǒng)需要抓取的網(wǎng)頁數(shù)量巨大,如何高效、穩(wěn)定地抓取網(wǎng)頁非常重要。網(wǎng)頁分布廣及動態(tài)變化也使爬蟲系統(tǒng)很難保持本地網(wǎng)頁時新性,爬蟲需要及時更新本地網(wǎng)頁,避免網(wǎng)頁失效。本文對Nutch爬蟲進行改進,將改進后的Nutch和Hadoop分布式平臺結(jié)合,設計高效、可靠的分布式爬蟲系統(tǒng)。主要研究成果如下:1、Nutch和Hadoop分布式平臺結(jié)合Nutch單機運行時,受限于單臺機器存儲及運算性能,且易發(fā)生單點故障,穩(wěn)定性差。我們借助Hadoop分布式平臺的優(yōu)點,將Nutch運行的各個步驟提交給Hadoop,使用Map Reduce分布式計算完成,并將數(shù)據(jù)存儲在HDFS上。我們分別對Nutch單機模式和Nutch分布式模式進行實驗,實驗結(jié)果表明:對比單機模式,分布式模式隨著集群中節(jié)點的增多,Nutch爬行的性能會線性增長;數(shù)據(jù)安全性提高,可靠性增強,節(jié)點間負載均衡。2、提出Proxy IP動態(tài)更換模塊在詳細分析Nutch抓取網(wǎng)頁數(shù)據(jù)的工作流程后,發(fā)現(xiàn)當一個網(wǎng)站有以IP為依據(jù)的訪問檢測機制時,Nutch大規(guī)模訪問很容易被禁止。針對這個問題,提出Proxy IP動態(tài)更換模塊,與Nutch系統(tǒng)結(jié)合,在Nutch爬行被禁止時,更換Proxy IP,使Nutch能繼續(xù)爬行。經(jīng)過測試,Nutch的爬蟲被禁止爬行得到有效解決。3、網(wǎng)頁更新預測優(yōu)化Nutch有網(wǎng)頁更新模塊,但網(wǎng)頁更新的參數(shù)需要人為設定,且對所有網(wǎng)頁有效,很難適應海量網(wǎng)頁的差異化。本文提出動態(tài)選擇策略來預測網(wǎng)頁更新周期。在網(wǎng)頁更新歷史數(shù)據(jù)不足時,通過基于Map Reduce的DBSCAN聚類算法來減少爬蟲系統(tǒng)抓取網(wǎng)頁數(shù)量,將樣本網(wǎng)頁的更新周期作為所屬類其它網(wǎng)頁的更新周期;在網(wǎng)頁更新歷史數(shù)據(jù)較多時,通過對網(wǎng)頁更新歷史數(shù)據(jù)進行泊松過程建模較準確地預測每個網(wǎng)頁的更新周期。實驗表明,動態(tài)選擇策略節(jié)約了爬蟲的抓取資源,且能較準確預測網(wǎng)頁的更新周期。
【關(guān)鍵詞】:Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁更新預測 DBSCAN算法 Map Reduce 泊松過程
【學位授予單位】:上海師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要2-3
- Abstract3-7
- 第1章 緒論7-11
- 1.1 研究目的和意義7
- 1.2 國內(nèi)外研究現(xiàn)狀7-9
- 1.3 主要研究內(nèi)容9-10
- 1.4 論文結(jié)構(gòu)10-11
- 第2章 Nutch與Hadoop研究11-25
- 2.1 Nutch11-15
- 2.1.1 Nutch體系結(jié)構(gòu)11-12
- 2.1.2 Nutch爬蟲系統(tǒng)12-14
- 2.1.3 Nutch網(wǎng)頁更新機制14-15
- 2.2 Hadoop分布式平臺15-24
- 2.2.1 分布式文件系統(tǒng)(HDFS)15-18
- 2.2.2 資源管理系統(tǒng)YARN18-21
- 2.2.3 Map Reduce21-24
- 2.3 本章小結(jié)24-25
- 第3章 網(wǎng)頁更新預測相關(guān)研究25-35
- 3.1 網(wǎng)頁更新25-28
- 3.1.1 網(wǎng)頁庫時新性和過時度25-26
- 3.1.2 網(wǎng)頁更新頻率26
- 3.1.3 網(wǎng)頁更新策略26-28
- 3.2 泊松過程28
- 3.2.1 泊松過程簡介28
- 3.3 聚類算法28-34
- 3.3.1 聚類的劃分28-31
- 3.3.2 DBSCAN聚類算法31-34
- 3.4 本章小結(jié)34-35
- 第4章 基于Nutch的爬蟲優(yōu)化35-45
- 4.1 Proxy IP動態(tài)更換模塊實現(xiàn)35-37
- 4.1.1 Proxy IP庫35
- 4.1.2 Proxy IP庫運行流程介紹35-36
- 4.1.3 Proxy IP有效性標識向量36
- 4.1.4 質(zhì)量系數(shù)36
- 4.1.5 Proxy IP動態(tài)更換36-37
- 4.2 網(wǎng)頁更新預測優(yōu)化37-44
- 4.2.1 動態(tài)選擇策略37-38
- 4.2.2 基于Map Reduce的DBSCAN算法38-43
- 4.2.3 基于泊松過程的網(wǎng)頁更新預測43-44
- 4.3 本章小結(jié)44-45
- 第5章 實驗與結(jié)果分析45-56
- 5.1 實驗環(huán)境45-50
- 5.1.1 硬件環(huán)境45
- 5.1.2 系統(tǒng)部署45-50
- 5.2 實驗測試50-55
- 5.2.1 Proxy IP動態(tài)更換模塊實驗50-52
- 5.2.2 網(wǎng)頁更新預測實驗52-54
- 5.2.3 爬蟲系統(tǒng)性能實驗54-55
- 5.3 實驗結(jié)果分析55
- 5.4 本章小結(jié)55-56
- 第6章 總結(jié)與展望56-58
- 參考文獻58-60
- 攻讀碩士學位期間取得的研究成果60-61
- 致謝61-63
- 附件63
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進方法[J];計算機工程;2010年13期
2 呂韓飛,王申康;一種重要性與時新性結(jié)合的網(wǎng)頁更新策略[J];計算機應用研究;2005年11期
3 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期
4 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應用;2013年10期
5 孟濤,閆宏飛,王繼民;一個增量搜集中國W eb的系統(tǒng)模型及其實現(xiàn)[J];清華大學學報(自然科學版);2005年S1期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
7 徐尚瑜;;基于泊松過程的爬蟲調(diào)度策略分析[J];現(xiàn)代計算機(專業(yè)版);2009年12期
8 徐健;張智雄;;基于Nutch的Web網(wǎng)站定向采集系統(tǒng)[J];現(xiàn)代圖書情報技術(shù);2009年04期
9 劉俊嶺;孫煥良;王大玲;牛志成;;一種優(yōu)化的基于網(wǎng)格的聚類算法[J];小型微型計算機系統(tǒng);2006年10期
中國碩士學位論文全文數(shù)據(jù)庫 前7條
1 鄭洪英;數(shù)據(jù)挖掘聚類算法的分析和應用研究[D];重慶大學;2002年
2 蘇曉珂;基于Nutch的主題爬蟲研究與實現(xiàn)[D];昆明理工大學;2007年
3 馮朝一;云理論在數(shù)據(jù)挖掘中的應用研究[D];廣西大學;2007年
4 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學;2008年
5 吳翠雁;基于Nutch的信息采集系統(tǒng)的研究與實現(xiàn)[D];華南理工大學;2010年
6 李偉雄;基于密度的聚類算法研究[D];湖南大學;2010年
7 萬文宏;基于Nutch的分布式搜索引擎的研究與優(yōu)化[D];武漢理工大學;2013年
,本文編號:562132
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/562132.html