天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-11-22 13:33

  本文關(guān)鍵詞:基于Hadoop的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)


  更多相關(guān)文章: 分布式爬蟲(chóng) HadoopHDFS MapReduce


【摘要】:互聯(lián)網(wǎng)在人們的工作生活中占有越來(lái)越重要的地位,網(wǎng)站,微博,論壇,QQ,電子郵件等網(wǎng)絡(luò)應(yīng)用成為人們重要的溝通方式和信息獲取來(lái)源。多種服務(wù)模式共存,互聯(lián)網(wǎng)已演化成為一個(gè)虛擬社會(huì),如何讓這個(gè)虛擬社會(huì)得到有效監(jiān)督,成為互聯(lián)網(wǎng)管理中的大問(wèn)題。因此,十分有必要結(jié)合互聯(lián)網(wǎng)虛擬社會(huì)的特點(diǎn)利用現(xiàn)有的技術(shù)手段,構(gòu)建一個(gè)互聯(lián)網(wǎng)綜合管理系統(tǒng),構(gòu)建這類管理系統(tǒng)首先需要提供大量的互聯(lián)網(wǎng)網(wǎng)站備案數(shù)據(jù)。 本文的目標(biāo)是設(shè)計(jì)和實(shí)現(xiàn)基于Hadoop的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),從互聯(lián)網(wǎng)抓取大規(guī)模數(shù)據(jù),為基礎(chǔ)資源管理系統(tǒng)提供網(wǎng)站備案信息。該爬蟲(chóng)系統(tǒng)的抓取方式是全站式信息采集,從省門戶網(wǎng)站采集不同網(wǎng)址對(duì)應(yīng)的網(wǎng)站備案信息,并將這些信息整理和存儲(chǔ)用于后期網(wǎng)站備案信息管理。 本文深入分析了網(wǎng)絡(luò)爬蟲(chóng)的基本工作原理、體系架構(gòu)和爬行策略,詳細(xì)描述了Hadoop分布式平臺(tái)技術(shù),包括HDFS分布式文件系統(tǒng)和MapReduce分布式計(jì)算模型。本文對(duì)爬蟲(chóng)系統(tǒng)的業(yè)務(wù)需求和性能需求進(jìn)行了分析,完成了系統(tǒng)的物理架構(gòu)設(shè)計(jì)、功能模塊設(shè)計(jì)和工作流程設(shè)計(jì),并基于系統(tǒng)設(shè)計(jì)進(jìn)行各模塊的代碼編寫(xiě),完成了系統(tǒng)的具體實(shí)現(xiàn)和后期測(cè)試工作。本文最終實(shí)現(xiàn)了一個(gè)基于Hadoop的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),該系統(tǒng)采用HDFS分布式文件系統(tǒng)和MapReduce計(jì)算模型。 本文的意義主要在于設(shè)計(jì)實(shí)現(xiàn)的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)在一定程度上解決了單機(jī)爬蟲(chóng)系統(tǒng)低效率、低擴(kuò)展性的弊端,提高了爬蟲(chóng)采集信息的速度和質(zhì)量,為基礎(chǔ)資源管理系統(tǒng)提供了大量網(wǎng)站備案信息。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.07

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 王俊生;施運(yùn)梅;張仰森;;基于Hadoop的分布式搜索引擎關(guān)鍵技術(shù)[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

2 郎鳳舉;;HTMLParser提取網(wǎng)頁(yè)超鏈接研究[J];電腦編程技巧與維護(hù);2010年02期

3 張亮;;基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲(chóng)原理與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2011年20期

4 胡光民;周亮;柯立新;;基于Hadoop的網(wǎng)絡(luò)日志分析系統(tǒng)研究[J];電腦知識(shí)與技術(shù);2010年22期

5 蔣建洪;;主要分布式搜索引擎技術(shù)的研究[J];科學(xué)技術(shù)與工程;2007年10期

,

本文編號(hào):1214904

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1214904.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4af1d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com