天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于微博API的分布式抓取技術(shù)

發(fā)布時(shí)間:2018-08-21 11:53
【摘要】:隨著微博用戶(hù)的迅猛增長(zhǎng),越來(lái)越多的人希望從用戶(hù)的行為和微博內(nèi)容中挖掘有趣的模式。針對(duì)如何對(duì)微博數(shù)據(jù)進(jìn)行有效合理的采集,提出了基于微博API的分布式抓取技術(shù),通過(guò)模擬微博登錄自動(dòng)授權(quán),合理控制API的調(diào)用頻次,結(jié)合任務(wù)分配控制器高效地獲取微博數(shù)據(jù)。該分布式抓取技術(shù)還結(jié)合時(shí)間觸發(fā)和內(nèi)存數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)重復(fù)控制,避免了數(shù)據(jù)的重復(fù)爬取和重復(fù)存儲(chǔ),提高了系統(tǒng)的性能。本分布式抓取技術(shù)具有可擴(kuò)展性高、任務(wù)分配明確、效率高、多種爬取策略適應(yīng)不同的爬取需求等特點(diǎn)。新浪微博數(shù)據(jù)爬取實(shí)例驗(yàn)證了該技術(shù)的可行性。
[Abstract]:With the rapid growth of Weibo users, more and more people want to mine interesting patterns from their behavior and Weibo content. In view of how to collect Weibo data effectively and reasonably, this paper puts forward a distributed grab technology based on Weibo API, which can control the frequency of API call reasonably by simulating the automatic authorization of Weibo login. The Weibo data is obtained efficiently by the task assignment controller. The distributed crawling technology also combines time trigger and memory database technology to realize repetitive control, which avoids the repeated crawling and storage of data, and improves the performance of the system. The distributed crawling technology is characterized by high scalability, clear assignment of tasks, high efficiency and various crawling strategies adapted to different crawling requirements. Sina Weibo data crawling examples to verify the feasibility of the technology.
【作者單位】: 廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;廣州優(yōu)億信息科技有限公司;
【分類(lèi)號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 唐波;;網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年11期

2 漆晨曦;;電信企業(yè)大數(shù)據(jù)分析、應(yīng)用及管理發(fā)展策略[J];電信科學(xué);2013年03期

3 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計(jì)算機(jī)應(yīng)用;2012年07期

4 李保秀;;微博社交網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系構(gòu)建[J];科技廣場(chǎng);2012年04期

5 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期

6 王亮;;SNS社交網(wǎng)絡(luò)發(fā)展現(xiàn)狀及趨勢(shì)[J];現(xiàn)代電信科技;2009年06期

7 李軍;陳震;黃霽崴;;微博影響力評(píng)價(jià)研究[J];信息網(wǎng)絡(luò)安全;2012年03期

相關(guān)碩士學(xué)位論文 前1條

1 王娟;微博客用戶(hù)的使用動(dòng)機(jī)與行為[D];山東大學(xué);2010年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳蕾;;社會(huì)資本視野下的SNS網(wǎng)站[J];北方文學(xué)(下半月);2011年11期

2 李慧慧;;移動(dòng)SNS——人類(lèi)交流的又一延伸[J];東南傳播;2010年05期

3 雷軼;;我國(guó)SNS社交網(wǎng)站的盈利模式研究[J];電子商務(wù);2011年07期

4 劉曉麗;宋朝霞;;SNS網(wǎng)站與搜索引擎融合的可能性和策略探討[J];電子商務(wù);2011年09期

5 肖揚(yáng);段學(xué)東;;敏捷開(kāi)發(fā)方法下的基于LBS的籃球類(lèi)體育SNS社區(qū)的設(shè)計(jì)[J];福建電腦;2012年03期

6 李天健;;改善社交網(wǎng)絡(luò)安全對(duì)策思考[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年04期

7 劉燕錦;;社交網(wǎng)站和微博的信息傳播比較——以社會(huì)網(wǎng)絡(luò)分析結(jié)果為依據(jù)[J];東南傳播;2012年09期

8 張國(guó)安;鐘紹輝;;基于k均值聚類(lèi)的微博用戶(hù)分類(lèi)的研究[J];電腦知識(shí)與技術(shù);2012年26期

9 張國(guó)安;鐘紹輝;;基于微博用戶(hù)評(píng)論和用戶(hù)轉(zhuǎn)發(fā)的數(shù)據(jù)挖掘[J];電腦知識(shí)與技術(shù);2012年27期

10 周怡;;高校學(xué)生使用微博狀況及其影響評(píng)價(jià)分析[J];長(zhǎng)沙通信職業(yè)技術(shù)學(xué)院學(xué)報(bào);2012年04期

相關(guān)會(huì)議論文 前1條

1 單鐵城;張安妮;馬德輝;;基于爬蟲(chóng)改進(jìn)算法的個(gè)性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會(huì)論文集[C];2012年

相關(guān)博士學(xué)位論文 前2條

1 王睿;企業(yè)微博營(yíng)銷(xiāo)影響因素與短期效果測(cè)量研究[D];北京郵電大學(xué);2012年

2 吳保來(lái);基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)研究[D];中共中央黨校;2013年

相關(guān)碩士學(xué)位論文 前10條

1 馬曉寧;中國(guó)微博客價(jià)值與發(fā)展研究[D];南昌大學(xué);2010年

2 王立民;中國(guó)SNS網(wǎng)站發(fā)展策略研究[D];華東理工大學(xué);2011年

3 李峰;我國(guó)休閑娛樂(lè)型SNS網(wǎng)站發(fā)展的傳播學(xué)分析[D];山東師范大學(xué);2011年

4 鄧冬娜;新浪微博商業(yè)模式發(fā)展研究[D];西北大學(xué);2011年

5 楊莉;基于SNS的主題式協(xié)作學(xué)習(xí)平臺(tái)研究[D];西南大學(xué);2011年

6 張鈺雪;新浪微博傳播機(jī)制研究[D];西南大學(xué);2011年

7 武茜;基于Qt的移動(dòng)微博系統(tǒng)客戶(hù)端設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

8 殷崴;SNS社交網(wǎng)站成員在不同信任模式下使用動(dòng)機(jī)與行為研究[D];北京郵電大學(xué);2011年

9 藍(lán)勤華;用戶(hù)創(chuàng)造內(nèi)容(UGC)動(dòng)機(jī)研究[D];南京大學(xué);2011年

10 高嫻子;近年來(lái)我國(guó)社交網(wǎng)絡(luò)發(fā)展研究[D];暨南大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期

2 劉暉;;Twitter:微博客時(shí)代的到來(lái)[J];傳媒;2009年10期

3 李丹;;社交網(wǎng)站用戶(hù)的行為和動(dòng)機(jī)[J];傳媒觀察;2009年04期

4 劉文勇;;新時(shí)代傳播的寵兒——病毒式傳播[J];東南傳播;2007年09期

5 劉麗清;;微博雖“微”足值道爾——微博特性之淺析[J];東南傳播;2009年11期

6 許曉東;肖銀濤;朱士瑞;;微博社區(qū)的謠言傳播仿真研究[J];計(jì)算機(jī)工程;2011年10期

7 袁鵬亮;;基于Pagerank網(wǎng)頁(yè)排名技術(shù)計(jì)算方法的探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年12期

8 周立柱,林玲;聚焦爬蟲(chóng)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

9 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

10 姚峰;;Java平臺(tái)中Base64編碼/解碼算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年12期

相關(guān)重要報(bào)紙文章 前2條

1 馬曉芳;[N];第一財(cái)經(jīng)日?qǐng)?bào);2009年

2 本報(bào)記者 劉菁菁;[N];計(jì)算機(jī)世界;2009年

相關(guān)博士學(xué)位論文 前1條

1 陳錫鈞;網(wǎng)絡(luò)即時(shí)傳播軟件使用者需求研究[D];復(fù)旦大學(xué);2007年

相關(guān)碩士學(xué)位論文 前4條

1 汪名彥;博客用戶(hù)寫(xiě)作動(dòng)機(jī)與寫(xiě)作行為的關(guān)系研究[D];浙江大學(xué);2006年

2 劉耀庭;社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D];浙江大學(xué);2008年

3 趙青;高校研究生網(wǎng)絡(luò)依賴(lài)的動(dòng)機(jī)研究[D];東北師范大學(xué);2008年

4 王娟;微博客用戶(hù)的使用動(dòng)機(jī)與行為[D];山東大學(xué);2010年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉興平;馬燕;杜利峰;;插件技術(shù)研究初探[J];延安大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期

2 劉建明;賀占莊;;面向用戶(hù)的1553B指令系統(tǒng)設(shè)計(jì)[J];微電子學(xué)與計(jì)算機(jī);2006年06期

3 周強(qiáng),羅志強(qiáng);SCI協(xié)議標(biāo)準(zhǔn)綜述[J];航空電子技術(shù);2001年02期

4 葉安勝;周曉清;;ADO.NET通用數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)組件構(gòu)建與應(yīng)用[J];現(xiàn)代電子技術(shù);2009年18期

5 章美仁;李希文;;基于XML的數(shù)據(jù)操作描述語(yǔ)言設(shè)計(jì)[J];臺(tái)州學(xué)院學(xué)報(bào);2009年03期

6 葉海明;周紹磊;徐俊彥;;通用測(cè)試系統(tǒng)模型化技術(shù)研究[J];計(jì)算機(jī)測(cè)量與控制;2009年09期

7 陳然,杜曉黎;基于統(tǒng)一接口的機(jī)群中交換機(jī)監(jiān)控系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程;2005年16期

8 董涌江;;全插件GIS應(yīng)用框架的設(shè)計(jì)與實(shí)現(xiàn)[J];北京測(cè)繪;2009年01期

9 葉傳華;;基于C#.NET的通用數(shù)據(jù)訪(fǎng)問(wèn)接口的實(shí)現(xiàn)與應(yīng)用[J];數(shù)字技術(shù)與應(yīng)用;2010年10期

10 肖建清;丁德馨;張萍;徐根;;插件式疲勞分析軟件的體系結(jié)構(gòu)研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年12期

相關(guān)會(huì)議論文 前10條

1 袁松貴;吳敏;何勇;付成宏;;基于二維模型的非脆弱離散重復(fù)控制[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年

2 蘭永紅;吳敏;佘錦華;;基于二維混合模型的最優(yōu)重復(fù)控制[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

3 聶智軍;王寶園;;基于分區(qū)策略的RANS方程并行算法可擴(kuò)展性分析[A];計(jì)算流體力學(xué)研究進(jìn)展——第十二屆全國(guó)計(jì)算流體力學(xué)會(huì)議論文集[C];2004年

4 李芳;邊馥苓;;構(gòu)件化GIS的可擴(kuò)展性研究[A];第四屆海峽兩岸GIS發(fā)展研討會(huì)暨中國(guó)GIS協(xié)會(huì)第十屆年會(huì)論文集[C];2006年

5 趙佳;關(guān)淼;沈頌華;王永;;基于重復(fù)控制技術(shù)的航空靜止變流器[A];2006中國(guó)電工技術(shù)學(xué)會(huì)電力電子學(xué)會(huì)第十屆學(xué)術(shù)年會(huì)論文摘要集[C];2006年

6 侯婷;裴雪軍;劉明先;康勇;;大功率組合式三相逆變電源的控制技術(shù)研究[A];2006中國(guó)電工技術(shù)學(xué)會(huì)電力電子學(xué)會(huì)第十屆學(xué)術(shù)年會(huì)論文摘要集[C];2006年

7 武健;郭偉峰;徐殿國(guó);;基于重復(fù)控制的并聯(lián)混合有源濾波器實(shí)驗(yàn)研究[A];2008中國(guó)電工技術(shù)學(xué)會(huì)電力電子學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文摘要集[C];2008年

8 簡(jiǎn)林柯;李新忠;何鉞;;重復(fù)控制及其在多致動(dòng)器同步運(yùn)動(dòng)控制中的應(yīng)用[A];1997年中國(guó)控制會(huì)議論文集[C];1997年

9 郭丹旦;劉向東;張宇河;蘇延雄;;伺服系統(tǒng)摩擦補(bǔ)償?shù)闹貜?fù)控制策略[A];第二十一屆中國(guó)控制會(huì)議論文集[C];2002年

10 高保忠;;對(duì)等網(wǎng)的流量擁塞問(wèn)題研究[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(一)[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 余侃;借力“333”系統(tǒng)無(wú)短板[N];中國(guó)電腦教育報(bào);2009年

2 本報(bào)記者 梁靚;DiiVA接口加速普及 中國(guó)增強(qiáng)話(huà)語(yǔ)權(quán)[N];中國(guó)電子報(bào);2009年

3 於紅斌 本報(bào)特約記者 丁順國(guó);為戰(zhàn)時(shí)保障預(yù)留接口[N];解放軍報(bào);2009年

4 胡強(qiáng);手機(jī)充電器標(biāo)準(zhǔn)升級(jí)有望年內(nèi)獲批[N];經(jīng)理日?qǐng)?bào);2009年

5 中國(guó)軟件評(píng)測(cè)中心媒體測(cè)試部;以最精簡(jiǎn)配置 提供最高性?xún)r(jià)比[N];中國(guó)計(jì)算機(jī)報(bào);2008年

6 王松濤;重慶:家裝應(yīng)設(shè)置信息化接口[N];中國(guó)建設(shè)報(bào);2008年

7 杜樹(shù)臻 張立平;抓好接口補(bǔ)差訓(xùn)練[N];中國(guó)國(guó)防報(bào);2001年

8 本報(bào)記者 胡強(qiáng);手機(jī)充電器標(biāo)準(zhǔn)升級(jí)年內(nèi)完成[N];通信產(chǎn)業(yè)報(bào);2009年

9 本報(bào)記者 胡強(qiáng);手機(jī)充電器接口年內(nèi)統(tǒng)一[N];通信產(chǎn)業(yè)報(bào);2009年

10 何丹嬋 實(shí)習(xí)生 姜樊;DiiVA接口將看電視轉(zhuǎn)為用電視[N];科技日?qǐng)?bào);2009年

相關(guān)博士學(xué)位論文 前10條

1 趙富;低頻線(xiàn)振動(dòng)臺(tái)的重復(fù)控制研究[D];哈爾濱工業(yè)大學(xué);2010年

2 趙富;低頻線(xiàn)振動(dòng)臺(tái)的重復(fù)控制研究[D];哈爾濱工業(yè)大學(xué);2010年

3 王之元;并行計(jì)算可擴(kuò)展性分析與優(yōu)化[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

4 陳東;并網(wǎng)逆變器系統(tǒng)中的重復(fù)控制技術(shù)及其應(yīng)用研究[D];浙江大學(xué);2013年

5 陳宏;基于重復(fù)控制理論的逆變電源控制技術(shù)研究[D];南京航空航天大學(xué);2003年

6 蘭永紅;基于二維模型的重復(fù)控制系統(tǒng)分析與設(shè)計(jì)[D];中南大學(xué);2010年

7 周蘭;基于連續(xù)—離散二維模型的周期系數(shù)線(xiàn)性系統(tǒng)魯棒重復(fù)控制設(shè)計(jì)[D];中南大學(xué);2011年

8 陳軍;分布式存儲(chǔ)環(huán)境下并行計(jì)算可擴(kuò)展性的研究與應(yīng)用[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年

9 陳娟;伺服系統(tǒng)低速特性與抖動(dòng)補(bǔ)償研究[D];中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所;2001年

10 周伯生;移動(dòng)自組網(wǎng)絡(luò)中可擴(kuò)展性路由策略研究[D];東南大學(xué);2003年

相關(guān)碩士學(xué)位論文 前10條

1 吳昊;USB-PC104接口的設(shè)計(jì)與實(shí)現(xiàn)[D];四川大學(xué);2005年

2 王森;虹膜生物識(shí)別軟件系統(tǒng)框架設(shè)計(jì)[D];吉林大學(xué);2005年

3 陳建;基于Domino/Notes平臺(tái)下的辦公自動(dòng)化設(shè)計(jì)[D];電子科技大學(xué);2005年

4 高俊杰;基于OPC的實(shí)時(shí)數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用[D];北京化工大學(xué);2005年

5 曲艷華;光學(xué)電流互感器在繼電保護(hù)中的應(yīng)用[D];華北電力大學(xué)(河北);2005年

6 邢云濤;面向?qū)ο髷?shù)據(jù)庫(kù)ONet系統(tǒng)組件化體系的重構(gòu)與實(shí)現(xiàn)[D];浙江大學(xué);2006年

7 莫非;win版納稅申報(bào)錄入系統(tǒng)的開(kāi)發(fā)與加密[D];天津大學(xué);2004年

8 高育鵬;嵌入式網(wǎng)絡(luò)測(cè)控服務(wù)器的研究與實(shí)現(xiàn)[D];西北工業(yè)大學(xué);2006年

9 李建軍;基于COM/DCOM的組件技術(shù)研究與應(yīng)用[D];同濟(jì)大學(xué);2006年

10 姜國(guó)樹(shù);大連網(wǎng)通軟交換網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2007年

,

本文編號(hào):2195632

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2195632.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)c100e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com