天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法

發(fā)布時(shí)間:2018-10-09 11:14
【摘要】:伴隨著互聯(lián)網(wǎng)的爆炸性發(fā)展,Web已經(jīng)發(fā)展成為站點(diǎn)遍布全球的巨大信息服務(wù)網(wǎng)絡(luò),越來越多的人也開始把自己的精力和時(shí)間都投向了互聯(lián)網(wǎng)。電商、視頻、論壇、微博等都是獲取重要數(shù)據(jù)的來源。無論是自己想要能夠及時(shí)獲取最新的數(shù)據(jù)來進(jìn)行研究亦或者是需要批量獲取大量的數(shù)據(jù)來進(jìn)行相關(guān)分析,都需要一個(gè)適當(dāng)高效的方法來支持這些數(shù)據(jù)的提取。爬蟲技術(shù)作為大規(guī)模提取數(shù)據(jù)的技術(shù)之一,又重新了映入人們的眼簾。人們?cè)谑褂门老x技術(shù)從互聯(lián)網(wǎng)上獲取大量的數(shù)據(jù)的同時(shí),也在不斷對(duì)其做出改進(jìn)和完善。在經(jīng)過對(duì)爬蟲技術(shù)、分布式技術(shù)、Docker技術(shù)、以及Linux相關(guān)技術(shù)的學(xué)習(xí)之后,本論文中總計(jì)完成了以下工作:首先提出了實(shí)用爬蟲的設(shè)計(jì)思路,并重點(diǎn)詳細(xì)闡述了信息提取模塊和數(shù)據(jù)存儲(chǔ)模塊的設(shè)計(jì)與實(shí)現(xiàn)方法以及如何解決網(wǎng)站反爬問題。隨后搭建了基于分布式爬蟲框架PySpider的分布式爬蟲集群來代替人工手動(dòng)分布式爬蟲,并解決了搭建集群時(shí)遇到的一些Linux服務(wù)器相關(guān)問題。接著為了改進(jìn)分布式爬蟲框架PySpider的運(yùn)行效率,設(shè)計(jì)并實(shí)現(xiàn)了一種使用Docker來構(gòu)建分布式爬蟲集群的方法。對(duì)改進(jìn)前后的爬取效率進(jìn)行了測(cè)試,并對(duì)測(cè)試結(jié)果做出了相應(yīng)的分析。最后為了結(jié)合項(xiàng)目中的實(shí)際工作需要,將增量爬蟲和分布式爬蟲框架PySpider進(jìn)行了結(jié)合,最終實(shí)現(xiàn)了基于動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法。在本文的最后,對(duì)目前的工作做出了總結(jié),并對(duì)未來的工作進(jìn)行了相應(yīng)的展望和部署。
[Abstract]:With the explosive development of the Internet, Web has developed into a huge information service network with sites all over the world, and more people have begun to invest their energy and time on the Internet. E-commerce, video, forums, Weibo and so on are important sources of data. Whether they want to be able to obtain the latest data in time for research or need to obtain a large number of data for correlation analysis, they need a suitable and efficient method to support the extraction of these data. Reptile technology, as one of the large-scale data extraction techniques, has reappeared in people's eyes. While using crawler technology to obtain a large amount of data from the Internet, people are constantly improving and perfecting it. After the study of crawler technology, distributed technology and Linux related technology, the following works have been accomplished in this paper: firstly, the design idea of practical reptile is put forward. The design and implementation of the information extraction module and the data storage module as well as how to solve the backcrawling problem of the website are described in detail. Then, a distributed crawler cluster based on distributed crawler framework (PySpider) is built to replace manual distributed crawler, and some problems related to Linux server are solved. Then, in order to improve the efficiency of distributed crawler framework (PySpider), a method of constructing distributed crawler cluster using Docker is designed and implemented. The crawling efficiency before and after improvement was tested and the test results were analyzed. Finally, in order to meet the practical needs of the project, the incremental crawler and the distributed crawler framework (PySpider) are combined. Finally, the distributed incremental acquisition method based on dynamic network data is realized. At the end of this paper, the current work is summarized, and the future work is prospected and deployed.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 于萍,虞春宜,張堯弼;使用動(dòng)態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];微型機(jī)與應(yīng)用;2001年01期

2 關(guān)治洪;張皓;朱茹;;一類時(shí)空切換動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定性[J];華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期

3 鄭海青;井元偉;劉曉平;;一類具有多種耦合時(shí)滯的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的牽制同步[J];控制與決策;2010年11期

4 李濤;于曉楠;;延遲復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定性研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年08期

5 高琳;楊建業(yè);覃桂敏;;動(dòng)態(tài)網(wǎng)絡(luò)模式挖掘方法及其應(yīng)用[J];軟件學(xué)報(bào);2013年09期

6 陳關(guān)榮;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下控制理論遇到的問題與挑戰(zhàn)[J];自動(dòng)化學(xué)報(bào);2013年04期

7 段文勇;蔡晨曉;鄒云;尤靜;;時(shí)滯耦合和非時(shí)滯耦合的奇異復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)之同步性準(zhǔn)則(英文)[J];控制理論與應(yīng)用;2013年08期

8 于蘋,張堯弼,虞春宜;使用動(dòng)態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];計(jì)算機(jī)工程與應(yīng)用;2002年03期

9 王得蓉;;試論能源管理計(jì)算機(jī)動(dòng)態(tài)網(wǎng)絡(luò)體系的建設(shè)[J];資源節(jié)約與環(huán)保;2010年03期

10 鄭宏珍,胡屏;動(dòng)態(tài)網(wǎng)絡(luò)需要?jiǎng)討B(tài)的安全策略[J];中國信息導(dǎo)報(bào);2002年01期

相關(guān)會(huì)議論文 前10條

1 朱陳平;孔輝;李莉;古志鳴;熊詩杰;;耦合演化動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定效率與反選舉人模型[A];2009年第五屆全國網(wǎng)絡(luò)科學(xué)論壇論文集[C];2009年

2 徐式蘊(yùn);楊瑩;;一類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的全局魯棒H_-/H_∞同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年

3 盧劍權(quán);Daniel W.C.Ho;曹進(jìn)德;;脈沖動(dòng)態(tài)網(wǎng)絡(luò)的一個(gè)統(tǒng)一同步標(biāo)準(zhǔn)[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年

4 劉斌;雷鳴;余沛;馮春;;具有多藕合時(shí)滯的不確定脈沖動(dòng)態(tài)網(wǎng)絡(luò)的魯棒指數(shù)同步[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文集[C];2006年

5 汪小帆;蘇厚勝;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)控制研究進(jìn)展[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年

6 張海濤;陳志強(qiáng);周濤;;二階動(dòng)態(tài)網(wǎng)絡(luò)的模型預(yù)測(cè)一致性控制策略研究[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年

7 廖丙連;蔣國平;;具有不同拓?fù)浣Y(jié)構(gòu)的時(shí)滯耦合復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)同步控制[A];中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)A卷[C];2011年

8 陳姚;呂金虎;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的有限時(shí)間同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年

9 李常品;陳關(guān)榮;周天壽;;帶非線性內(nèi)部耦合函數(shù)的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步注記[A];第二屆全國復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2005年

10 雷曉;蔣國平;張躍;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)不穩(wěn)定平衡點(diǎn)的輸出反饋牽制控制[A];第24屆中國控制與決策會(huì)議論文集[C];2012年

相關(guān)重要報(bào)紙文章 前1條

1 周海龍;秦電:動(dòng)態(tài)網(wǎng)絡(luò)圖實(shí)時(shí)演示檢修進(jìn)度[N];華北電力報(bào);2005年

相關(guān)博士學(xué)位論文 前9條

1 趙耀培;動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下服務(wù)組合優(yōu)化方法的分析與研究[D];北京科技大學(xué);2016年

2 郝修清;幾類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步與學(xué)習(xí)控制[D];西安電子科技大學(xué);2015年

3 李圓媛;基于網(wǎng)絡(luò)的復(fù)雜疾病的研究[D];武漢大學(xué);2016年

4 王剛;復(fù)雜疾病臨界突變的定性理論與統(tǒng)計(jì)分析[D];武漢大學(xué);2017年

5 郭曉永;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的自適應(yīng)同步控制研究[D];西安電子科技大學(xué);2013年

6 陳卓;動(dòng)態(tài)網(wǎng)絡(luò)上的演化博弈研究[D];上海交通大學(xué);2012年

7 張麗麗;具有相似節(jié)點(diǎn)的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)鎮(zhèn)定與同步控制研究[D];廣東工業(yè)大學(xué);2014年

8 仲偉松;幾類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的若干動(dòng)力學(xué)問題的研究[D];東北大學(xué);2012年

9 朱會(huì)賓;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步控制及應(yīng)用[D];江南大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 曹煜;針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法[D];北京郵電大學(xué);2017年

2 張陽揚(yáng);面向微博突發(fā)事件發(fā)現(xiàn)的自適應(yīng)社區(qū)檢測(cè)算法研究及系統(tǒng)實(shí)現(xiàn)[D];西南交通大學(xué);2015年

3 梁狄;一類非線性網(wǎng)絡(luò)系統(tǒng)全局性質(zhì)與一致性的分析與控制[D];北京工業(yè)大學(xué);2015年

4 梁博;基于局部模塊度的動(dòng)態(tài)社團(tuán)檢測(cè)算法[D];西安電子科技大學(xué);2014年

5 郭爭(zhēng)爭(zhēng);復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步控制研究[D];石家莊鐵道大學(xué);2015年

6 劉杰;基于事件觸發(fā)的有向復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)同步控制[D];南京郵電大學(xué);2015年

7 羌毅;動(dòng)態(tài)網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法研究[D];南京郵電大學(xué);2015年

8 朱雪梅;動(dòng)態(tài)網(wǎng)絡(luò)中自適應(yīng)社區(qū)檢測(cè)算法研究[D];云南大學(xué);2016年

9 顧嬋媛;幾類具有時(shí)滯的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的外部同步控制分析[D];電子科技大學(xué);2016年

10 馬志才;復(fù)雜動(dòng)力學(xué)系統(tǒng)的同步問題研究[D];中國礦業(yè)大學(xué);2016年

,

本文編號(hào):2259138

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2259138.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶32c2e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com