天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)

發(fā)布時間:2021-06-23 13:02
  隨著互聯(lián)網(wǎng)迅速普及并應(yīng)用于人類生活的各個方面,互聯(lián)網(wǎng)上的數(shù)據(jù)急劇增加。用戶想要從如此大規(guī)模的數(shù)據(jù)中找到自己想要的信息必須借助搜索引擎。網(wǎng)絡(luò)爬蟲是搜索引擎的核心,它通過廣泛抓取互聯(lián)網(wǎng)中數(shù)以億計個網(wǎng)頁的數(shù)據(jù),支撐搜索引擎的運(yùn)行。因此研究高效穩(wěn)定的網(wǎng)絡(luò)爬蟲系統(tǒng)具有重要的意義。本文主要利用Hadoop大數(shù)據(jù)平臺,研究設(shè)計了一個分布式網(wǎng)絡(luò)爬蟲系統(tǒng),主要工作如下:1)設(shè)計了一個基于-Hadoop的分布式網(wǎng)絡(luò)爬蟲,并利用HBase數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲。其中主要包括了可以繞過網(wǎng)站反爬蟲機(jī)制的抓取模塊,提取網(wǎng)頁鏈出URL的解析模塊,利用HBase行鍵的唯一性完成去重功能的去重模塊以及方便爬蟲系統(tǒng)數(shù)據(jù)存取和PageRank計算的HBase存儲模塊。2)在MapR educe分布式計算框架下實(shí)現(xiàn)了PageRank算法。利用Hadoop分布式集群強(qiáng)大的計算能力,大幅度提高了PageRank值的計算速度。3)在實(shí)驗(yàn)室服務(wù)器上搭建了8個節(jié)點(diǎn)的Hadoop集群,每個節(jié)點(diǎn)安裝配置Java開發(fā)環(huán)境、Hadoop、ZooKeeper、HBase。然后在該實(shí)驗(yàn)環(huán)境上測試本文設(shè)計的分布式網(wǎng)絡(luò)爬蟲的功能性、性能、穩(wěn)定性和可擴(kuò)展性... 

【文章來源】:西安理工大學(xué)陜西省

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
1 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 分布式爬蟲研究現(xiàn)狀
        1.2.2 Hadoop研究現(xiàn)狀
        1.2.3 網(wǎng)絡(luò)爬蟲排序算法研究現(xiàn)狀
    1.3 本文主要工作
    1.4 本文結(jié)構(gòu)安排
2 相關(guān)理論與技術(shù)
    2.1 網(wǎng)絡(luò)爬蟲
        2.1.1 網(wǎng)絡(luò)爬蟲分類
        2.1.2 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
        2.1.3 網(wǎng)絡(luò)爬蟲工作流程
        2.1.4 網(wǎng)絡(luò)爬蟲策略
        2.1.5 分布式網(wǎng)絡(luò)爬蟲
    2.2 PageRank算法
    2.3 Hadoop大數(shù)據(jù)平臺
        2.3.1 Hadoop生態(tài)系統(tǒng)
        2.3.2 HDFS文件系統(tǒng)
        2.3.3 MapReduce分布式計算框架
        2.3.4 ZooKeeper
        2.3.5 HBase數(shù)據(jù)庫
    2.4 本章小結(jié)
3 基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)
    3.1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)總體框架
        3.1.1 分布式網(wǎng)絡(luò)爬蟲基本流程
        3.1.2 分布式網(wǎng)絡(luò)爬蟲基本架構(gòu)
    3.2 分布式爬蟲系統(tǒng)存儲數(shù)據(jù)庫設(shè)計
        3.2.1 HBase數(shù)據(jù)存儲結(jié)構(gòu)
        3.2.2 URLList表設(shè)計
        3.2.3 Data表設(shè)計
    3.3 分布式網(wǎng)絡(luò)爬蟲各功能模塊設(shè)計與實(shí)現(xiàn)
        3.3.1 抓取模塊的設(shè)計與實(shí)現(xiàn)
        3.3.2 解析模塊的設(shè)計與實(shí)現(xiàn)
        3.3.3 去重模塊的設(shè)計與實(shí)現(xiàn)
    3.4 MapReduce框架下PageRank算法的實(shí)現(xiàn)
    3.5 本章小結(jié)
4 實(shí)驗(yàn)測試
    4.1 實(shí)驗(yàn)軟硬件條件
    4.2 Hadoop平臺環(huán)境搭建
    4.3 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)測試
        4.3.1 功能性測試
        4.3.2 性能測試
        4.3.3 穩(wěn)定性測試
        4.3.4 擴(kuò)展性測試
        4.3.5 MapReduce下 PageRank算法性能測試
    4.4 本章小結(jié)
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的海量氣象水文數(shù)據(jù)并發(fā)處理模型[J]. 李輝,王建文,葉明雯.  計算機(jī)應(yīng)用. 2018(S2)
[2]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧.  情報科學(xué). 2016(03)
[3]Hadoop平臺下的地震波形數(shù)據(jù)存儲與應(yīng)用規(guī)劃[J]. 王丹寧,柴旭超,王文青.  軟件工程. 2016(01)
[4]基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 李文海,許舒人.  計算機(jī)工程與設(shè)計. 2014(01)
[5]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音.  現(xiàn)代計算機(jī)(專業(yè)版). 2008(05)
[6]加速評估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J]. 張嶺,馬范援.  計算機(jī)研究與發(fā)展. 2004(01)

碩士論文
[1]基于Hadoop的交通大數(shù)據(jù)計算應(yīng)用研究[D]. 程豪.長安大學(xué) 2014



本文編號:3244986

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3244986.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b0344***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com