天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于高實(shí)時(shí)分布式網(wǎng)絡(luò)的爬蟲軟件設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-11-07 12:55
   隨著互聯(lián)網(wǎng),尤其是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)數(shù)字信息幾何級的規(guī)模增長,如何有效的提取這些信息,使數(shù)據(jù)分析更為方便,是網(wǎng)絡(luò)爬蟲研究的主要內(nèi)容。隨著分布式系統(tǒng)的興起,包括分布式計(jì)算與分布式存儲,這些技術(shù)框架的廣泛應(yīng)用使人們看到分布式系統(tǒng)在面對大規(guī)模數(shù)據(jù)的處理問題上的優(yōu)勢。本文實(shí)現(xiàn)了一種高實(shí)時(shí)分布式的網(wǎng)絡(luò)爬蟲軟件,并以新浪微博為例實(shí)現(xiàn)了對微博用戶信息以及博文的爬取,根據(jù)實(shí)際需要實(shí)現(xiàn)了分布式系統(tǒng)框架,包括節(jié)點(diǎn)通信與負(fù)載分配問題。本文的主要工作內(nèi)容如下:1)分析國內(nèi)外爬蟲軟件與分布式系統(tǒng)的研究現(xiàn)狀,介紹典型技術(shù)框架的原理以及應(yīng)用情況。2)在分布式系統(tǒng)方面,本文提出了應(yīng)用RDMA技術(shù)實(shí)現(xiàn)節(jié)點(diǎn)之間的內(nèi)核旁路低延遲傳輸技術(shù),保證了爬蟲軟件的運(yùn)行效率以及實(shí)時(shí)性。為了保證負(fù)載均衡與系統(tǒng)的健壯性,本文提出了一種簡單但有效的負(fù)載分配方案。3)針對微博頁面制訂了爬蟲策略,應(yīng)用Scrapy框架實(shí)現(xiàn)了爬蟲模塊,運(yùn)用數(shù)據(jù)庫服務(wù)器做為節(jié)點(diǎn)之間的樞紐,并根據(jù)實(shí)驗(yàn)結(jié)果調(diào)整爬蟲策略。4)利用分詞技術(shù)與話題熱度評估技術(shù)實(shí)現(xiàn)了主題發(fā)現(xiàn)模塊,發(fā)現(xiàn)微博熱門主題并可以通過爬蟲軟件后續(xù)跟蹤。5)驗(yàn)證分布式爬蟲軟件的系統(tǒng)功能與性能。
【學(xué)位單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP311.52
【部分圖文】:

頁面,搜索引擎,種子,工作原理


畫??數(shù)據(jù)倉庫??圖1.1搜索引擎原理??可以看出,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。全文搜索目前已經(jīng)是非常??成熟的技術(shù),但是常用的搜索引擎是一種通用的搜索服務(wù),很難為用戶定制主題??化大規(guī)模搜索,除了?GoogleCrawle/21之外,絕大多數(shù)搜索引擎的設(shè)計(jì)并沒有公??開。一方面,由于互聯(lián)網(wǎng)信息巨大,每一個(gè)搜索引擎的索引服務(wù)器更新都需要一??定時(shí)間,對實(shí)時(shí)性消息,尤其是社交網(wǎng)絡(luò)的話題爆炸性傳播很難敏銳捕捉。另一??方面,搜索引擎主要針對靜態(tài)網(wǎng)頁,比如HTML頁面,但是WEB2.0時(shí)代大量??網(wǎng)頁采用Ajax技術(shù),包含異步傳輸?shù)膭?dòng)態(tài)信息,而Ajax技術(shù)的通用網(wǎng)絡(luò)爬蟲目??前還面臨很多問題

中間人,對等式,分布式網(wǎng)絡(luò),主從式


圖1.3主從式分布式爬蟲框架??對等式分布式網(wǎng)絡(luò)爬蟲是指系統(tǒng)中沒有中間人,各節(jié)點(diǎn)間都是平等的關(guān)系,??所有節(jié)點(diǎn)用過一個(gè)心跳信號進(jìn)行同步,一起通信決定任務(wù)分配策略,并在分布式??數(shù)據(jù)庫中存。眨遥剃(duì)列與爬取結(jié)果。其通信方式又可進(jìn)一步分為全連接通信,??每個(gè)節(jié)點(diǎn)和其它所有節(jié)點(diǎn)相連接,以及環(huán)形通信,所有節(jié)點(diǎn)組成一個(gè)環(huán)形,每個(gè)??節(jié)點(diǎn)只和相鄰的兩個(gè)節(jié)點(diǎn)通信。在環(huán)形通信中,數(shù)據(jù)必須在環(huán)上單向傳遞。因此,??每個(gè)節(jié)點(diǎn)只需要知道其前一個(gè)節(jié)點(diǎn)與后一個(gè)節(jié)點(diǎn)的地址,當(dāng)收到消息時(shí),毎個(gè)節(jié)??點(diǎn)需要判斷自己是不是該消息的接受者,如果不是則中轉(zhuǎn)這條消息。環(huán)形系統(tǒng)由??于實(shí)現(xiàn)簡單,應(yīng)用也比較廣泛。??本文的分布式系統(tǒng)采用主從式系統(tǒng),分為一個(gè)Master與4個(gè)Slave,方便部??署并且由于各個(gè)節(jié)點(diǎn)之間直接的依賴性很弱,保證了系統(tǒng)的健壯性。??相比與單主機(jī)爬蟲,分布式爬蟲將一個(gè)爬蟲系統(tǒng)部署到分布式主機(jī)群當(dāng)中,??具有以下優(yōu)點(diǎn):??

過濾器,誤差率,占用空間,哈希函數(shù)


浙江大學(xué)碩士學(xué)位論文?關(guān)鍵技術(shù)介紹??不是都是1,如果都是的話,那么說明此URL已經(jīng)爬取過,否則可以爬。當(dāng)然,??這種方法存在一定慨率誤判,因?yàn)槟硞(gè)URL的地址對應(yīng)的哈希函數(shù)的結(jié)果可能??與其它幾個(gè)URL重合,已經(jīng)處理的URL規(guī)模越大,這個(gè)誤判的概率就越高。??〇??
【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 劉志明;劉魯;;微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J];系統(tǒng)工程;2011年06期

2 羅林波;陳綺;吳清秀;;基于Shark-Search和Hits算法的主題爬蟲研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年11期



本文編號:2873978

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2873978.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c065***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
久久亚洲成熟女人毛片| 国产精品午夜一区二区三区| 精品国产91亚洲一区二区三区| 一区二区三区18禁看| 午夜福利直播在线视频| 久久亚洲成熟女人毛片| 久草视频这里只是精品| 国产精品亚洲欧美一区麻豆| 大香蕉大香蕉手机在线视频| 免费播放一区二区三区四区| 免费观看在线午夜视频| 欧美国产日本高清在线| 欧美不卡午夜中文字幕| 黄色三级日本在线观看| 日本不卡片一区二区三区| 神马午夜福利一区二区| 色哟哟在线免费一区二区三区| 亚洲女同一区二区另类| 欧美91精品国产自产| 欧美日韩国产亚洲三级理论片| 国产色偷丝袜麻豆亚洲| 伊人久久青草地综合婷婷| 成人午夜在线视频观看| 中文字幕人妻综合一区二区| 夜夜躁狠狠躁日日躁视频黑人| 欧美视频在线观看一区| 熟妇人妻av中文字幕老熟妇| 亚洲天堂国产精品久久精品| 日本女优一色一伦一区二区三区 | 国产一区麻豆水好多高潮| 黑丝国产精品一区二区| 亚洲男人天堂成人在线视频| 国产精品一级香蕉一区| 国产免费一区二区三区av大片| 欧洲一区二区三区蜜桃| 国产午夜免费在线视频| 欧美国产日产综合精品| 欧美中文字幕日韩精品| 日本丰满大奶熟女一区二区| 99香蕉精品视频国产版| 粉嫩内射av一区二区|