天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

云數(shù)據(jù)采集系統(tǒng)中云爬蟲子系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2021-08-11 14:59
  隨著互聯(lián)網(wǎng)和數(shù)據(jù)挖掘技術(shù)的高速發(fā)展,因特網(wǎng)上海量的網(wǎng)頁數(shù)據(jù)價值愈發(fā)凸顯,F(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù)對于網(wǎng)頁數(shù)據(jù)采集問題存在著不易使用、不易定制等不足。本文把云計算技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合,基于軟件即服務(wù)(SaaS)的服務(wù)模式,設(shè)計和實現(xiàn)了云數(shù)據(jù)采集系統(tǒng)中的云爬蟲子系統(tǒng)。不同的用戶可以根據(jù)自身的需求在云爬蟲子系統(tǒng)提供的獨立的爬蟲集群服務(wù)上便捷地執(zhí)行數(shù)據(jù)采集任務(wù)。為了實現(xiàn)分布式爬蟲與SaaS模式有機結(jié)合,本文主要研究了云爬蟲子系統(tǒng)中的兩個關(guān)鍵問題:爬蟲節(jié)點管理和鏈接抓取任務(wù)調(diào)度。在爬蟲節(jié)點管理方面,本文提出了一種使用etcd輔助的爬蟲節(jié)點管理方案,該方案通過規(guī)定子系統(tǒng)中所有爬蟲節(jié)點一系列共同的行為,使得各個集群的爬蟲節(jié)點可以混合部署相互替換。該方案支持爬蟲節(jié)點配置運行時更新,支持對于各個爬蟲集群在運行時動態(tài)增減節(jié)點,以及集群故障節(jié)點及時感知,保證爬蟲集群服務(wù)的可靠性。在鏈接抓取任務(wù)調(diào)度方面,本文提出了一種基于jump consistent hash算法改進的調(diào)度方案OJCH。OJCH使用jump consistent hash算法計算節(jié)點,得到與jump consistent hash算法類似的性... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:99 頁

【學(xué)位級別】:碩士

【部分圖文】:

云數(shù)據(jù)采集系統(tǒng)中云爬蟲子系統(tǒng)的設(shè)計與實現(xiàn)


圖2-1網(wǎng)絡(luò)爬蟲工作流程圖??如圖2-1所示,網(wǎng)絡(luò)爬蟲在啟動時先把用戶提供的初始種子URL加入到待??抓取URL隊列中,然后在待抓取URL隊列不為空時,進行循環(huán)操作:從待抓取??

主從式架構(gòu),節(jié)點,隊列,策略


?Slave??圖2-2主從式架構(gòu)圖??如圖2-2所示,圖中的中心節(jié)點(Master)?—般有待抓取的URL隊列,按??照一定策略將待抓取隊列中的URL交給某個爬蟲節(jié)點(Slave)去執(zhí)行,同時接??收爬蟲節(jié)點發(fā)來的新的URL,將爬蟲節(jié)點發(fā)來的URL去重后放入待抓取的URL??隊列中。爬蟲節(jié)點負責(zé)從中心節(jié)點處接收URL,選組完成該URL的網(wǎng)頁文件后,??解析網(wǎng)頁文件,得到其中的URL并發(fā)送給中心節(jié)點。在主從式架構(gòu)中,各個爬??蟲節(jié)點之間一般不需要通信,URL統(tǒng)一由中心節(jié)點調(diào)度處理,比較容易設(shè)計及??實現(xiàn),但是中心節(jié)點容易成為整個系統(tǒng)的性能瓶頸,如果中心節(jié)點停止工作就會??導(dǎo)致整個分布式爬蟲系統(tǒng)停止工作。??對等式架構(gòu)與主從式架構(gòu)不同,在對等式架構(gòu)的爬蟲系統(tǒng)中,沒有主從式結(jié)??構(gòu)中的中心節(jié)點

節(jié)點,抓取任務(wù),對等式,健壯性


?需要按照統(tǒng)一的方法對數(shù)據(jù)抓取任務(wù)進行調(diào)度,以便能將相同URL的數(shù)據(jù)抓取??任務(wù)調(diào)度到相同的爬蟲節(jié)點上。對等式架構(gòu)的結(jié)構(gòu)如圖2-3所示。??/Peer\??^???-k??0?0??Peer?Peer??圖2-3對等式架構(gòu)??如圖2-3所示,在這種結(jié)構(gòu)中,各個節(jié)點地位是相等的,有部分節(jié)點發(fā)生故??障時,其他節(jié)點仍能正常工作,整個系統(tǒng)的健壯性較好,但是每個爬蟲節(jié)點需要??維護同其他爬蟲節(jié)點之間的通信以及監(jiān)聽其他爬蟲節(jié)點的狀態(tài),系統(tǒng)較為復(fù)雜,??設(shè)計及實現(xiàn)難度較大。??2.2分布式爬蟲相關(guān)技術(shù)??分布式爬蟲集群需要爬蟲集群中的節(jié)點進行協(xié)作,以完成數(shù)據(jù)抓取的任務(wù)。??鏈接抓取任務(wù)是由網(wǎng)頁URL組成的,在分布式爬蟲系統(tǒng)中,每個爬蟲節(jié)點都會??處理許多鏈接抓取任務(wù),鏈接抓取任務(wù)調(diào)度和鏈接抓取任務(wù)去重算法對于分布式??爬蟲集群的效率尤為重要。下文將介紹鏈接抓取任務(wù)調(diào)度和鏈接抓取任務(wù)去重算??法。??2.2.1鏈接抓取任務(wù)調(diào)度??在分布式爬蟲系統(tǒng)中,各個爬蟲節(jié)點并行地處理同一個數(shù)據(jù)采集任務(wù)產(chǎn)生的??數(shù)量眾多鏈接抓取任務(wù)

【參考文獻】:
期刊論文
[1]一種基于Kademlia的全分布式爬蟲集群方法[J]. 黃志敏,曾學(xué)文,陳君.  計算機科學(xué). 2014(03)
[2]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā).  電腦知識與技術(shù). 2010(15)

碩士論文
[1]基于改進爬蟲技術(shù)的SQL注入的自動化掃描工具的研究與設(shè)計[D]. 賈瀟雨.北京郵電大學(xué) 2018
[2]基于高實時分布式網(wǎng)絡(luò)的爬蟲軟件設(shè)計與實現(xiàn)[D]. 張峰.浙江大學(xué) 2018
[3]基于Hadoop平臺的網(wǎng)絡(luò)爬蟲技術(shù)研究[D]. 張金.南京郵電大學(xué) 2017
[4]基于分布式的網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 榮晗.電子科技大學(xué) 2017
[5]針對動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法[D]. 曹煜.北京郵電大學(xué) 2017
[6]分布式爬蟲任務(wù)調(diào)度與AJAX頁面抓取研究[D]. 李婷.電子科技大學(xué) 2015
[7]搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D]. 段兵營.西安電子科技大學(xué) 2014
[8]分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D]. 王毅桐.電子科技大學(xué) 2012
[9]基于可擴展哈希算法的并行爬蟲動態(tài)負載均衡實現(xiàn)[D]. 孫守興.哈爾濱工業(yè)大學(xué) 2010



本文編號:3336369

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3336369.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶70e20***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com