分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究
發(fā)布時(shí)間:2017-03-28 11:19
本文關(guān)鍵詞:分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上站點(diǎn)與信息等越來龐雜;無論是個(gè)人還是企業(yè)對(duì)互聯(lián)網(wǎng)上的信息需求越來越多,俞漸依賴于搜索引擎。網(wǎng)絡(luò)爬蟲作為搜索引擎的數(shù)據(jù)源,起著至關(guān)重要的作用。并且網(wǎng)絡(luò)爬蟲的抓取速度、覆蓋面、網(wǎng)頁排序、索引、實(shí)時(shí)性等直接影響著搜索的結(jié)果。同時(shí),深入整合信息的需求是廣泛存在的。到目前為止,很多企業(yè)、機(jī)構(gòu)和個(gè)人仍在不斷研究開發(fā)新的爬蟲,尤其是主題爬蟲。在企業(yè)中,爬蟲采集的信息既可以作為數(shù)據(jù)倉(cāng)庫多維展現(xiàn)的數(shù)據(jù)源,也可以作為數(shù)據(jù)挖掘的來源。例如,做輿情監(jiān)測(cè)需要從互聯(lián)網(wǎng)上采集新聞、輿論等相關(guān)信息;房地產(chǎn)商會(huì)利用爬蟲去抓取有關(guān)的房產(chǎn)信息以便于做決策分析等。甚至有些人專門利用爬蟲從互聯(lián)網(wǎng)上挖掘信息、搜集情報(bào)。但傳統(tǒng)的單機(jī)爬蟲難以應(yīng)對(duì)高速增長(zhǎng)的信息帶來的挑戰(zhàn),難以快速、有效抓取海量數(shù)據(jù)。分布式技術(shù)支持龐大的集群、海量的共享存儲(chǔ)空間;綜合利用各節(jié)點(diǎn)CPU,提高總運(yùn)算能力;擁有更大的總帶寬;從根本上克服了爬蟲效率的問題,并可以解決IT運(yùn)營(yíng)成本(分布式技術(shù)依賴的是廉價(jià)的PC機(jī),而不是昂貴的服務(wù)器)問題。本文基于互聯(lián)網(wǎng)網(wǎng)頁結(jié)構(gòu)與網(wǎng)站原理分析了爬蟲的實(shí)現(xiàn)原理、工作流程、抓取策略及網(wǎng)頁解析方法等相關(guān)理論。利用Hadoop分布式集群特性優(yōu)化網(wǎng)絡(luò)爬蟲,提高抓取效率;贖adoop設(shè)計(jì)實(shí)現(xiàn)了一個(gè)可配置、高效、負(fù)載均衡且可擴(kuò)展的分布式網(wǎng)絡(luò)爬蟲原型系統(tǒng)。闡述分析了該系統(tǒng)的系統(tǒng)架構(gòu)、實(shí)現(xiàn)方案及各關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn),并對(duì)大規(guī)模URL隊(duì)列設(shè)計(jì)與去重、多線程并行抓取、動(dòng)態(tài)網(wǎng)頁解析及網(wǎng)頁增量更新等幾個(gè)關(guān)鍵技術(shù)問題給出了解決方案,最后對(duì)該系統(tǒng)性能進(jìn)行了測(cè)試分析。
【關(guān)鍵詞】:分布式集群 URL隊(duì)列 并行抓取 動(dòng)態(tài)網(wǎng)頁解析 分布式爬蟲
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
- 摘要3-5
- ABSTRACT5-13
- 第一章 緒論13-17
- 1.1 背景13-14
- 1.2 研究的意義14
- 1.3 研究動(dòng)態(tài)14-15
- 1.4 主要工作與論文結(jié)構(gòu)15-17
- 第二章 爬蟲相關(guān)理論17-28
- 2.1 通用爬蟲與主題爬蟲18-20
- 2.1.1 通用爬蟲18-19
- 2.1.2 主題爬蟲19-20
- 2.2 網(wǎng)頁的抓取策略20-22
- 2.2.1 深度優(yōu)先策略20
- 2.2.2 廣度優(yōu)先策略20-21
- 2.2.3 最佳優(yōu)先策略21
- 2.2.4 增量搜索策略21-22
- 2.2.5 禮貌策略22
- 2.3 網(wǎng)頁分析算法22-24
- 2.3.1 PageRank算法22-23
- 2.3.2 HITS算法23-24
- 2.4 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)分析24-28
- 第三章 分布式爬蟲系統(tǒng)分析設(shè)計(jì)28-39
- 3.1 分布式技術(shù)28-31
- 3.1.1 Hadoop分布式文件系統(tǒng)29-30
- 3.1.2 MapReduce工作原理30-31
- 3.2 分布式爬蟲分析設(shè)計(jì)31-39
- 3.2.1 分布式爬蟲分析32-33
- 3.2.2 分布式爬蟲架構(gòu)及工作流程33-35
- 3.2.3 分布式爬蟲模塊設(shè)計(jì)35-39
- 第四章 關(guān)鍵技術(shù)39-47
- 4.1 URL隊(duì)列設(shè)計(jì)與去重39-42
- 4.2 并行抓取42-43
- 4.3 動(dòng)態(tài)網(wǎng)頁解析與內(nèi)嵌文檔內(nèi)容抽取43-45
- 4.4 爬蟲陷進(jìn)與網(wǎng)頁更新45-47
- 第五章 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)47-54
- 5.1 平臺(tái)環(huán)境47
- 5.2 系統(tǒng)實(shí)現(xiàn)47-54
- 5.2.1 爬蟲總體結(jié)構(gòu)48-49
- 5.2.2 核心類的實(shí)現(xiàn)49-54
- 第六章 測(cè)試分析54-60
- 6.1 節(jié)點(diǎn)擴(kuò)展測(cè)試54-58
- 6.2 抓取效率對(duì)比58-60
- 第七章 總結(jié)與展望60-61
- 參考文獻(xiàn)61-64
- 致謝64-65
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前2條
1 崔杰;李陶深;蘭紅星;;基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
2 黃仁;王良偉;;基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J];計(jì)算機(jī)應(yīng)用研究;2013年08期
本文關(guān)鍵詞:分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):272172
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/272172.html
最近更新
教材專著