基于云平臺(tái)的分布式高性能網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)
[Abstract]:With the arrival of big data era, data has become the most valuable resource, and Web crawler technology, as an important means of external data collection, has become the standard of data analysis. This paper introduces a high performance, flexible and convenient crawler architecture design and implementation based on cloud platform. In this paper, the whole structure of crawler, distributed design and the design of each module are described in detail. The crawler modules are encapsulated by Docker and Kubernetes is used for resource scheduling and management of cluster. In performance optimization, MD5 de-re-tree algorithm, DNS optimization and asynchronous I / O strategy combination are used to optimize the performance. The experiment shows that the crawler has obvious advantages in performance compared with the unoptimized scheme.
【作者單位】: 廣州優(yōu)億信息科技有限公司;
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計(jì)算機(jī)應(yīng)用;2008年05期
2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
3 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
4 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2008年35期
5 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期
6 流言;;網(wǎng)絡(luò)爬蟲攻防內(nèi)幕[J];電腦愛好者;2012年21期
7 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年10期
8 陳言;顏晨陽;;一種網(wǎng)絡(luò)爬蟲的帶緩存非阻塞異步域名解析器模型及其性能分析[J];軟件導(dǎo)刊;2009年11期
9 鄧岳貴;;啟發(fā)式搜索在網(wǎng)絡(luò)爬蟲中應(yīng)用的分析[J];軟件導(dǎo)刊;2008年02期
10 曾偉輝;李淼;曾偉輝;;深層網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2008年05期
相關(guān)碩士學(xué)位論文 前10條
1 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
2 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年
3 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁主動(dòng)智能檢測[D];華北電力大學(xué);2015年
4 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 姚富貴;基于分布式的商品信息網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2014年
6 王義華;基于Web服務(wù)的虛假評(píng)論檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];云南大學(xué);2016年
7 劉小云;網(wǎng)絡(luò)爬蟲技術(shù)在云平臺(tái)上的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
8 管圣騰;社區(qū)發(fā)現(xiàn)算法的研究及其在代碼托管平臺(tái)的應(yīng)用[D];西南交通大學(xué);2017年
9 蔡光波;面向主題的多線程網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];西北民族大學(xué);2017年
10 劉晶晶;面向微博的網(wǎng)絡(luò)爬蟲研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年
,本文編號(hào):2450051
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2450051.html