基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)
發(fā)布時間:2021-06-23 13:02
隨著互聯(lián)網(wǎng)迅速普及并應(yīng)用于人類生活的各個方面,互聯(lián)網(wǎng)上的數(shù)據(jù)急劇增加。用戶想要從如此大規(guī)模的數(shù)據(jù)中找到自己想要的信息必須借助搜索引擎。網(wǎng)絡(luò)爬蟲是搜索引擎的核心,它通過廣泛抓取互聯(lián)網(wǎng)中數(shù)以億計個網(wǎng)頁的數(shù)據(jù),支撐搜索引擎的運(yùn)行。因此研究高效穩(wěn)定的網(wǎng)絡(luò)爬蟲系統(tǒng)具有重要的意義。本文主要利用Hadoop大數(shù)據(jù)平臺,研究設(shè)計了一個分布式網(wǎng)絡(luò)爬蟲系統(tǒng),主要工作如下:1)設(shè)計了一個基于-Hadoop的分布式網(wǎng)絡(luò)爬蟲,并利用HBase數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲。其中主要包括了可以繞過網(wǎng)站反爬蟲機(jī)制的抓取模塊,提取網(wǎng)頁鏈出URL的解析模塊,利用HBase行鍵的唯一性完成去重功能的去重模塊以及方便爬蟲系統(tǒng)數(shù)據(jù)存取和PageRank計算的HBase存儲模塊。2)在MapR educe分布式計算框架下實(shí)現(xiàn)了PageRank算法。利用Hadoop分布式集群強(qiáng)大的計算能力,大幅度提高了PageRank值的計算速度。3)在實(shí)驗(yàn)室服務(wù)器上搭建了8個節(jié)點(diǎn)的Hadoop集群,每個節(jié)點(diǎn)安裝配置Java開發(fā)環(huán)境、Hadoop、ZooKeeper、HBase。然后在該實(shí)驗(yàn)環(huán)境上測試本文設(shè)計的分布式網(wǎng)絡(luò)爬蟲的功能性、性能、穩(wěn)定性和可擴(kuò)展性...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 分布式爬蟲研究現(xiàn)狀
1.2.2 Hadoop研究現(xiàn)狀
1.2.3 網(wǎng)絡(luò)爬蟲排序算法研究現(xiàn)狀
1.3 本文主要工作
1.4 本文結(jié)構(gòu)安排
2 相關(guān)理論與技術(shù)
2.1 網(wǎng)絡(luò)爬蟲
2.1.1 網(wǎng)絡(luò)爬蟲分類
2.1.2 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
2.1.3 網(wǎng)絡(luò)爬蟲工作流程
2.1.4 網(wǎng)絡(luò)爬蟲策略
2.1.5 分布式網(wǎng)絡(luò)爬蟲
2.2 PageRank算法
2.3 Hadoop大數(shù)據(jù)平臺
2.3.1 Hadoop生態(tài)系統(tǒng)
2.3.2 HDFS文件系統(tǒng)
2.3.3 MapReduce分布式計算框架
2.3.4 ZooKeeper
2.3.5 HBase數(shù)據(jù)庫
2.4 本章小結(jié)
3 基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)
3.1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)總體框架
3.1.1 分布式網(wǎng)絡(luò)爬蟲基本流程
3.1.2 分布式網(wǎng)絡(luò)爬蟲基本架構(gòu)
3.2 分布式爬蟲系統(tǒng)存儲數(shù)據(jù)庫設(shè)計
3.2.1 HBase數(shù)據(jù)存儲結(jié)構(gòu)
3.2.2 URLList表設(shè)計
3.2.3 Data表設(shè)計
3.3 分布式網(wǎng)絡(luò)爬蟲各功能模塊設(shè)計與實(shí)現(xiàn)
3.3.1 抓取模塊的設(shè)計與實(shí)現(xiàn)
3.3.2 解析模塊的設(shè)計與實(shí)現(xiàn)
3.3.3 去重模塊的設(shè)計與實(shí)現(xiàn)
3.4 MapReduce框架下PageRank算法的實(shí)現(xiàn)
3.5 本章小結(jié)
4 實(shí)驗(yàn)測試
4.1 實(shí)驗(yàn)軟硬件條件
4.2 Hadoop平臺環(huán)境搭建
4.3 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)測試
4.3.1 功能性測試
4.3.2 性能測試
4.3.3 穩(wěn)定性測試
4.3.4 擴(kuò)展性測試
4.3.5 MapReduce下 PageRank算法性能測試
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的海量氣象水文數(shù)據(jù)并發(fā)處理模型[J]. 李輝,王建文,葉明雯. 計算機(jī)應(yīng)用. 2018(S2)
[2]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧. 情報科學(xué). 2016(03)
[3]Hadoop平臺下的地震波形數(shù)據(jù)存儲與應(yīng)用規(guī)劃[J]. 王丹寧,柴旭超,王文青. 軟件工程. 2016(01)
[4]基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 李文海,許舒人. 計算機(jī)工程與設(shè)計. 2014(01)
[5]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計算機(jī)(專業(yè)版). 2008(05)
[6]加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J]. 張嶺,馬范援. 計算機(jī)研究與發(fā)展. 2004(01)
碩士論文
[1]基于Hadoop的交通大數(shù)據(jù)計算應(yīng)用研究[D]. 程豪.長安大學(xué) 2014
本文編號:3244986
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 分布式爬蟲研究現(xiàn)狀
1.2.2 Hadoop研究現(xiàn)狀
1.2.3 網(wǎng)絡(luò)爬蟲排序算法研究現(xiàn)狀
1.3 本文主要工作
1.4 本文結(jié)構(gòu)安排
2 相關(guān)理論與技術(shù)
2.1 網(wǎng)絡(luò)爬蟲
2.1.1 網(wǎng)絡(luò)爬蟲分類
2.1.2 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
2.1.3 網(wǎng)絡(luò)爬蟲工作流程
2.1.4 網(wǎng)絡(luò)爬蟲策略
2.1.5 分布式網(wǎng)絡(luò)爬蟲
2.2 PageRank算法
2.3 Hadoop大數(shù)據(jù)平臺
2.3.1 Hadoop生態(tài)系統(tǒng)
2.3.2 HDFS文件系統(tǒng)
2.3.3 MapReduce分布式計算框架
2.3.4 ZooKeeper
2.3.5 HBase數(shù)據(jù)庫
2.4 本章小結(jié)
3 基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)
3.1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)總體框架
3.1.1 分布式網(wǎng)絡(luò)爬蟲基本流程
3.1.2 分布式網(wǎng)絡(luò)爬蟲基本架構(gòu)
3.2 分布式爬蟲系統(tǒng)存儲數(shù)據(jù)庫設(shè)計
3.2.1 HBase數(shù)據(jù)存儲結(jié)構(gòu)
3.2.2 URLList表設(shè)計
3.2.3 Data表設(shè)計
3.3 分布式網(wǎng)絡(luò)爬蟲各功能模塊設(shè)計與實(shí)現(xiàn)
3.3.1 抓取模塊的設(shè)計與實(shí)現(xiàn)
3.3.2 解析模塊的設(shè)計與實(shí)現(xiàn)
3.3.3 去重模塊的設(shè)計與實(shí)現(xiàn)
3.4 MapReduce框架下PageRank算法的實(shí)現(xiàn)
3.5 本章小結(jié)
4 實(shí)驗(yàn)測試
4.1 實(shí)驗(yàn)軟硬件條件
4.2 Hadoop平臺環(huán)境搭建
4.3 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)測試
4.3.1 功能性測試
4.3.2 性能測試
4.3.3 穩(wěn)定性測試
4.3.4 擴(kuò)展性測試
4.3.5 MapReduce下 PageRank算法性能測試
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的海量氣象水文數(shù)據(jù)并發(fā)處理模型[J]. 李輝,王建文,葉明雯. 計算機(jī)應(yīng)用. 2018(S2)
[2]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧. 情報科學(xué). 2016(03)
[3]Hadoop平臺下的地震波形數(shù)據(jù)存儲與應(yīng)用規(guī)劃[J]. 王丹寧,柴旭超,王文青. 軟件工程. 2016(01)
[4]基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 李文海,許舒人. 計算機(jī)工程與設(shè)計. 2014(01)
[5]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計算機(jī)(專業(yè)版). 2008(05)
[6]加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J]. 張嶺,馬范援. 計算機(jī)研究與發(fā)展. 2004(01)
碩士論文
[1]基于Hadoop的交通大數(shù)據(jù)計算應(yīng)用研究[D]. 程豪.長安大學(xué) 2014
本文編號:3244986
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3244986.html
最近更新
教材專著