天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云平臺的分布式高性能網(wǎng)絡(luò)爬蟲的研究與設(shè)計

發(fā)布時間:2019-03-30 11:47
【摘要】:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)成為最寶貴的資源,而網(wǎng)絡(luò)爬蟲技術(shù)作為外部數(shù)據(jù)采集的重要手段,已然成為數(shù)據(jù)分析的標(biāo)配。介紹了一種高性能、靈活和便捷的基于云平臺的爬蟲架構(gòu)設(shè)計和實(shí)現(xiàn)。從爬蟲的整體架構(gòu)、分布式設(shè)計以及各模塊的設(shè)計等角度進(jìn)行了詳細(xì)的闡述。爬蟲各模塊用Docker封裝,Kubernetes做集群的資源調(diào)度和管理,在性能優(yōu)化上采用了MD5去重樹算法、DNS優(yōu)化和異步I/O等多種策略組合的形式。實(shí)驗(yàn)表明,對比未優(yōu)化的方案,爬蟲在性能上具有較明顯的優(yōu)勢。
[Abstract]:With the arrival of big data era, data has become the most valuable resource, and Web crawler technology, as an important means of external data collection, has become the standard of data analysis. This paper introduces a high performance, flexible and convenient crawler architecture design and implementation based on cloud platform. In this paper, the whole structure of crawler, distributed design and the design of each module are described in detail. The crawler modules are encapsulated by Docker and Kubernetes is used for resource scheduling and management of cluster. In performance optimization, MD5 de-re-tree algorithm, DNS optimization and asynchronous I / O strategy combination are used to optimize the performance. The experiment shows that the crawler has obvious advantages in performance compared with the unoptimized scheme.
【作者單位】: 廣州優(yōu)億信息科技有限公司;
【分類號】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計算機(jī)應(yīng)用;2008年05期

2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

3 楊靖韜;陳會果;;對網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期

4 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J];電腦知識與技術(shù);2008年35期

5 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)與現(xiàn)代化;2011年07期

6 流言;;網(wǎng)絡(luò)爬蟲攻防內(nèi)幕[J];電腦愛好者;2012年21期

7 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計和實(shí)現(xiàn)[J];計算機(jī)工程與應(yīng)用;2006年10期

8 陳言;顏晨陽;;一種網(wǎng)絡(luò)爬蟲的帶緩存非阻塞異步域名解析器模型及其性能分析[J];軟件導(dǎo)刊;2009年11期

9 鄧岳貴;;啟發(fā)式搜索在網(wǎng)絡(luò)爬蟲中應(yīng)用的分析[J];軟件導(dǎo)刊;2008年02期

10 曾偉輝;李淼;曾偉輝;;深層網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)系統(tǒng)應(yīng)用;2008年05期

相關(guān)碩士學(xué)位論文 前10條

1 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];西南交通大學(xué);2015年

2 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年

3 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學(xué);2015年

4 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

5 姚富貴;基于分布式的商品信息網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];華中科技大學(xué);2014年

6 王義華;基于Web服務(wù)的虛假評論檢測系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];云南大學(xué);2016年

7 劉小云;網(wǎng)絡(luò)爬蟲技術(shù)在云平臺上的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年

8 管圣騰;社區(qū)發(fā)現(xiàn)算法的研究及其在代碼托管平臺的應(yīng)用[D];西南交通大學(xué);2017年

9 蔡光波;面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[D];西北民族大學(xué);2017年

10 劉晶晶;面向微博的網(wǎng)絡(luò)爬蟲研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年



本文編號:2450051

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2450051.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1083***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com