針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法
[Abstract]:With the explosive development of the Internet, Web has developed into a huge information service network with sites all over the world, and more people have begun to invest their energy and time on the Internet. E-commerce, video, forums, Weibo and so on are important sources of data. Whether they want to be able to obtain the latest data in time for research or need to obtain a large number of data for correlation analysis, they need a suitable and efficient method to support the extraction of these data. Reptile technology, as one of the large-scale data extraction techniques, has reappeared in people's eyes. While using crawler technology to obtain a large amount of data from the Internet, people are constantly improving and perfecting it. After the study of crawler technology, distributed technology and Linux related technology, the following works have been accomplished in this paper: firstly, the design idea of practical reptile is put forward. The design and implementation of the information extraction module and the data storage module as well as how to solve the backcrawling problem of the website are described in detail. Then, a distributed crawler cluster based on distributed crawler framework (PySpider) is built to replace manual distributed crawler, and some problems related to Linux server are solved. Then, in order to improve the efficiency of distributed crawler framework (PySpider), a method of constructing distributed crawler cluster using Docker is designed and implemented. The crawling efficiency before and after improvement was tested and the test results were analyzed. Finally, in order to meet the practical needs of the project, the incremental crawler and the distributed crawler framework (PySpider) are combined. Finally, the distributed incremental acquisition method based on dynamic network data is realized. At the end of this paper, the current work is summarized, and the future work is prospected and deployed.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于萍,虞春宜,張堯弼;使用動(dòng)態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];微型機(jī)與應(yīng)用;2001年01期
2 關(guān)治洪;張皓;朱茹;;一類時(shí)空切換動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定性[J];華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期
3 鄭海青;井元偉;劉曉平;;一類具有多種耦合時(shí)滯的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的牽制同步[J];控制與決策;2010年11期
4 李濤;于曉楠;;延遲復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定性研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年08期
5 高琳;楊建業(yè);覃桂敏;;動(dòng)態(tài)網(wǎng)絡(luò)模式挖掘方法及其應(yīng)用[J];軟件學(xué)報(bào);2013年09期
6 陳關(guān)榮;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下控制理論遇到的問題與挑戰(zhàn)[J];自動(dòng)化學(xué)報(bào);2013年04期
7 段文勇;蔡晨曉;鄒云;尤靜;;時(shí)滯耦合和非時(shí)滯耦合的奇異復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)之同步性準(zhǔn)則(英文)[J];控制理論與應(yīng)用;2013年08期
8 于蘋,張堯弼,虞春宜;使用動(dòng)態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];計(jì)算機(jī)工程與應(yīng)用;2002年03期
9 王得蓉;;試論能源管理計(jì)算機(jī)動(dòng)態(tài)網(wǎng)絡(luò)體系的建設(shè)[J];資源節(jié)約與環(huán)保;2010年03期
10 鄭宏珍,胡屏;動(dòng)態(tài)網(wǎng)絡(luò)需要?jiǎng)討B(tài)的安全策略[J];中國信息導(dǎo)報(bào);2002年01期
相關(guān)會(huì)議論文 前10條
1 朱陳平;孔輝;李莉;古志鳴;熊詩杰;;耦合演化動(dòng)態(tài)網(wǎng)絡(luò)的穩(wěn)定效率與反選舉人模型[A];2009年第五屆全國網(wǎng)絡(luò)科學(xué)論壇論文集[C];2009年
2 徐式蘊(yùn);楊瑩;;一類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的全局魯棒H_-/H_∞同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
3 盧劍權(quán);Daniel W.C.Ho;曹進(jìn)德;;脈沖動(dòng)態(tài)網(wǎng)絡(luò)的一個(gè)統(tǒng)一同步標(biāo)準(zhǔn)[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
4 劉斌;雷鳴;余沛;馮春;;具有多藕合時(shí)滯的不確定脈沖動(dòng)態(tài)網(wǎng)絡(luò)的魯棒指數(shù)同步[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文集[C];2006年
5 汪小帆;蘇厚勝;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)控制研究進(jìn)展[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年
6 張海濤;陳志強(qiáng);周濤;;二階動(dòng)態(tài)網(wǎng)絡(luò)的模型預(yù)測(cè)一致性控制策略研究[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
7 廖丙連;蔣國平;;具有不同拓?fù)浣Y(jié)構(gòu)的時(shí)滯耦合復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)同步控制[A];中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)A卷[C];2011年
8 陳姚;呂金虎;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的有限時(shí)間同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
9 李常品;陳關(guān)榮;周天壽;;帶非線性內(nèi)部耦合函數(shù)的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步注記[A];第二屆全國復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2005年
10 雷曉;蔣國平;張躍;;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)不穩(wěn)定平衡點(diǎn)的輸出反饋牽制控制[A];第24屆中國控制與決策會(huì)議論文集[C];2012年
相關(guān)重要報(bào)紙文章 前1條
1 周海龍;秦電:動(dòng)態(tài)網(wǎng)絡(luò)圖實(shí)時(shí)演示檢修進(jìn)度[N];華北電力報(bào);2005年
相關(guān)博士學(xué)位論文 前9條
1 趙耀培;動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下服務(wù)組合優(yōu)化方法的分析與研究[D];北京科技大學(xué);2016年
2 郝修清;幾類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步與學(xué)習(xí)控制[D];西安電子科技大學(xué);2015年
3 李圓媛;基于網(wǎng)絡(luò)的復(fù)雜疾病的研究[D];武漢大學(xué);2016年
4 王剛;復(fù)雜疾病臨界突變的定性理論與統(tǒng)計(jì)分析[D];武漢大學(xué);2017年
5 郭曉永;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的自適應(yīng)同步控制研究[D];西安電子科技大學(xué);2013年
6 陳卓;動(dòng)態(tài)網(wǎng)絡(luò)上的演化博弈研究[D];上海交通大學(xué);2012年
7 張麗麗;具有相似節(jié)點(diǎn)的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)鎮(zhèn)定與同步控制研究[D];廣東工業(yè)大學(xué);2014年
8 仲偉松;幾類復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的若干動(dòng)力學(xué)問題的研究[D];東北大學(xué);2012年
9 朱會(huì)賓;復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步控制及應(yīng)用[D];江南大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 曹煜;針對(duì)動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法[D];北京郵電大學(xué);2017年
2 張陽揚(yáng);面向微博突發(fā)事件發(fā)現(xiàn)的自適應(yīng)社區(qū)檢測(cè)算法研究及系統(tǒng)實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 梁狄;一類非線性網(wǎng)絡(luò)系統(tǒng)全局性質(zhì)與一致性的分析與控制[D];北京工業(yè)大學(xué);2015年
4 梁博;基于局部模塊度的動(dòng)態(tài)社團(tuán)檢測(cè)算法[D];西安電子科技大學(xué);2014年
5 郭爭(zhēng)爭(zhēng);復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的同步控制研究[D];石家莊鐵道大學(xué);2015年
6 劉杰;基于事件觸發(fā)的有向復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)同步控制[D];南京郵電大學(xué);2015年
7 羌毅;動(dòng)態(tài)網(wǎng)絡(luò)中的鏈接預(yù)測(cè)方法研究[D];南京郵電大學(xué);2015年
8 朱雪梅;動(dòng)態(tài)網(wǎng)絡(luò)中自適應(yīng)社區(qū)檢測(cè)算法研究[D];云南大學(xué);2016年
9 顧嬋媛;幾類具有時(shí)滯的復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)的外部同步控制分析[D];電子科技大學(xué);2016年
10 馬志才;復(fù)雜動(dòng)力學(xué)系統(tǒng)的同步問題研究[D];中國礦業(yè)大學(xué);2016年
,本文編號(hào):2259138
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2259138.html