一種基于Hadoop的分布式網絡爬蟲的研究與設計
發(fā)布時間:2017-04-27 17:00
本文關鍵詞:一種基于Hadoop的分布式網絡爬蟲的研究與設計,,由筆耕文化傳播整理發(fā)布。
【摘要】:信息技術的飛速發(fā)展,尤其是近些年來互聯(lián)網和移動互聯(lián)網的發(fā)展,深刻的改變著我們生活的世界。信息技術產業(yè)以及信息技術與傳統(tǒng)產業(yè)的結合已經成為世界經濟的重要組成部分。而當前隨著網絡將越來越多事物連接起來,人們需要面對的信息量也激增了,因此一個新的課題也就產生了——如何找到有價值的信息。對于個體用戶面對互聯(lián)網的情況,這一問題的答案就是搜索引擎。而對于想獲得海量數(shù)據(jù)當中隱藏的價值的企業(yè),這一問題的答案就是數(shù)據(jù)分析與數(shù)據(jù)挖掘。對于這些解決辦法而言,信息處理的第一步就是獲取互聯(lián)網上的海量的信息。本論文的研究課題就是從互聯(lián)網上獲取海量信息的網絡爬蟲技術,由于當前單機平臺已經難以應對互聯(lián)網大數(shù)據(jù)量的挑戰(zhàn),本課題借助分布式平臺來作為應用的底層平臺。 本論文的主要研究工作包括以下幾個方面: 網絡爬蟲研究的背景技術與相關理論;ヂ(lián)網信息的爆發(fā)式增長,衍生出了搜索引擎技術,而網絡爬蟲是搜索引擎的重要組成部分。本論文研究分析了搜索引擎的基本工作原理與關鍵模塊的技術細節(jié),主要是建立搜索索引和搜索結果排序的技術原理。在這些研究的基礎上,本論文對網絡爬蟲的原理進行了分析。對于網絡爬蟲涉及的一些關鍵的技術給出了詳細的介紹與分析。 本論文研究了云計算發(fā)展狀況與Hadoop分布式平臺的主要構成和關鍵技術,并介紹了云計算的產生與發(fā)展現(xiàn)狀,詳細研究了云計算的關鍵技術特征。Hadoop分布式平臺的主要構成包括HDFS、 MapReduce編程模型和HBase分布式數(shù)據(jù)庫。本論文對于他們的技術細節(jié)進行了分析,并著重分析了Hadoop平臺作為分布式開發(fā)框架的主要特征和優(yōu)勢。 本課題完成了分布式網絡爬蟲的設計實現(xiàn)、部署與測試。在前述技術研究的基礎上,本課題研究并設計了基于Hadoop分布式平臺的網絡爬蟲,詳細分析了各關鍵模塊的主要功能,以及在MapReduce編程框架下的實現(xiàn)。完成了該網絡爬蟲在20臺服務器組成的小型服務器集群上的部署與測試。最后,本論文通過實驗證明這套設計方案切實可行,該設計是使用開源分布式系統(tǒng)的很好地嘗試。本課題對網絡爬蟲技術和分布式系統(tǒng)的研究很有參考價值。
【關鍵詞】:網絡爬蟲 云計算 分布式系統(tǒng) Hadoop
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-15
- 1.1 課題的研究背景11-12
- 1.2 課題的研究內容與現(xiàn)狀12-14
- 1.3 本文的內容和結構14
- 1.4 本章小結14-15
- 第二章 相關研究工作綜述15-34
- 2.1 搜索引擎技術綜述15-19
- 2.1.1 搜索引擎中索引的建立16-18
- 2.1.2 搜索引擎中搜索結果排序18-19
- 2.2 網絡爬蟲概述19-22
- 2.2.1 網絡爬蟲的基本構成19-20
- 2.2.2 網絡爬蟲的研究現(xiàn)狀20-22
- 2.3 云計算發(fā)展綜述22-27
- 2.3.1 云計算的發(fā)展現(xiàn)狀23-24
- 2.3.2 云計算的特點24-25
- 2.3.3 云計算的體系結構與服務層次25-27
- 2.4 Hadoop分布式系統(tǒng)綜述27-33
- 2.4.1 Hadoop的分布式文件系統(tǒng)27-28
- 2.4.2 HBase數(shù)據(jù)庫與Zookeeper28-30
- 2.4.3 MapReduce分布式框架編程模型30-33
- 2.5 本章小結33-34
- 第三章 分布式網絡爬蟲的分析與概要設計34-47
- 3.1 分布式網絡爬蟲系統(tǒng)布局34-36
- 3.1.1 分布式平臺的系統(tǒng)架構34-35
- 3.1.2 分布式爬蟲的總體流程設計35-36
- 3.2 網絡爬蟲的爬取相關技術分析36-41
- 3.2.1 網絡爬蟲的爬取深度策略36-37
- 3.2.2 Robots 協(xié)議簡介37-38
- 3.2.3 DNS以及爬蟲相關解決方案分析38-39
- 3.2.4 網絡爬蟲消重策略分析39-40
- 3.2.5 跨語言服務開發(fā)框架Apache Thrift40-41
- 3.3 分布式網絡爬蟲的結構設計41-46
- 3.3.1 配置模塊設計42-44
- 3.3.2 存儲模塊設計44-46
- 3.3.3 任務管理模塊設計46
- 3.3.4 爬取模塊設計46
- 3.4 本章小結46-47
- 第四章 分布式網絡爬蟲的詳細設計與實現(xiàn)47-57
- 4.1 分布式網絡爬蟲的接口設計47-51
- 4.1.1 網頁接口的設計與實現(xiàn)47-48
- 4.1.2 Thrift程序接口的設計與實現(xiàn)48-51
- 4.2 分布式網絡爬蟲的數(shù)據(jù)信息51-52
- 4.2.1 URL的狀態(tài)信息51
- 4.2.2 頁面信息51
- 4.2.3 頁面解析信息51-52
- 4.3 分布式爬蟲的主要模塊分析與實現(xiàn)52-56
- 4.3.1 URL注入模塊52-53
- 4.3.2 待爬取URL列表生成模塊53-55
- 4.3.3 爬取與更新模塊55-56
- 4.4 本章小結56-57
- 第五章 分布式網絡爬蟲的實驗測試與分析57-69
- 5.1 分布式平臺的軟硬件環(huán)境57-60
- 5.1.1 硬件環(huán)境介紹57-58
- 5.1.2 軟件環(huán)境介紹58-60
- 5.2 分布式網絡爬蟲的部署60-64
- 5.2.1 系統(tǒng)環(huán)境配置60-63
- 5.2.2 爬蟲的部署與基本測試63-64
- 5.3 分布式網絡爬蟲的系統(tǒng)測試與分析64-68
- 5.3.1 基本功能測試65-66
- 5.3.2 性能測試66-67
- 5.3.3 測試結果分析67-68
- 5.4 本章小結68-69
- 第六章 總結與展望69-71
- 6.1 總結69-70
- 6.2 工作展望70-71
- 參考文獻71-73
- 致謝73
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李翔;劉文兵;馬超;劉海艷;;基于云計算的空間數(shù)據(jù)處理技術[J];測繪與空間地理信息;2012年09期
2 欒亞建;黃爛
本文編號:330997
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/330997.html
教材專著