基于微博API的分布式抓取技術(shù)
[Abstract]:With the rapid growth of Weibo users, more and more people want to mine interesting patterns from their behavior and Weibo content. In view of how to collect Weibo data effectively and reasonably, this paper puts forward a distributed grab technology based on Weibo API, which can control the frequency of API call reasonably by simulating the automatic authorization of Weibo login. The Weibo data is obtained efficiently by the task assignment controller. The distributed crawling technology also combines time trigger and memory database technology to realize repetitive control, which avoids the repeated crawling and storage of data, and improves the performance of the system. The distributed crawling technology is characterized by high scalability, clear assignment of tasks, high efficiency and various crawling strategies adapted to different crawling requirements. Sina Weibo data crawling examples to verify the feasibility of the technology.
【作者單位】: 廣東工業(yè)大學(xué)計算機(jī)學(xué)院;廣州優(yōu)億信息科技有限公司;
【分類號】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 唐波;;網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2009年11期
2 漆晨曦;;電信企業(yè)大數(shù)據(jù)分析、應(yīng)用及管理發(fā)展策略[J];電信科學(xué);2013年03期
3 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計算機(jī)應(yīng)用;2012年07期
4 李保秀;;微博社交網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)體系構(gòu)建[J];科技廣場;2012年04期
5 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期
6 王亮;;SNS社交網(wǎng)絡(luò)發(fā)展現(xiàn)狀及趨勢[J];現(xiàn)代電信科技;2009年06期
7 李軍;陳震;黃霽崴;;微博影響力評價研究[J];信息網(wǎng)絡(luò)安全;2012年03期
相關(guān)碩士學(xué)位論文 前1條
1 王娟;微博客用戶的使用動機(jī)與行為[D];山東大學(xué);2010年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳蕾;;社會資本視野下的SNS網(wǎng)站[J];北方文學(xué)(下半月);2011年11期
2 李慧慧;;移動SNS——人類交流的又一延伸[J];東南傳播;2010年05期
3 雷軼;;我國SNS社交網(wǎng)站的盈利模式研究[J];電子商務(wù);2011年07期
4 劉曉麗;宋朝霞;;SNS網(wǎng)站與搜索引擎融合的可能性和策略探討[J];電子商務(wù);2011年09期
5 肖揚;段學(xué)東;;敏捷開發(fā)方法下的基于LBS的籃球類體育SNS社區(qū)的設(shè)計[J];福建電腦;2012年03期
6 李天健;;改善社交網(wǎng)絡(luò)安全對策思考[J];計算機(jī)光盤軟件與應(yīng)用;2012年04期
7 劉燕錦;;社交網(wǎng)站和微博的信息傳播比較——以社會網(wǎng)絡(luò)分析結(jié)果為依據(jù)[J];東南傳播;2012年09期
8 張國安;鐘紹輝;;基于k均值聚類的微博用戶分類的研究[J];電腦知識與技術(shù);2012年26期
9 張國安;鐘紹輝;;基于微博用戶評論和用戶轉(zhuǎn)發(fā)的數(shù)據(jù)挖掘[J];電腦知識與技術(shù);2012年27期
10 周怡;;高校學(xué)生使用微博狀況及其影響評價分析[J];長沙通信職業(yè)技術(shù)學(xué)院學(xué)報;2012年04期
相關(guān)會議論文 前1條
1 單鐵城;張安妮;馬德輝;;基于爬蟲改進(jìn)算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年
相關(guān)博士學(xué)位論文 前2條
1 王睿;企業(yè)微博營銷影響因素與短期效果測量研究[D];北京郵電大學(xué);2012年
2 吳保來;基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)研究[D];中共中央黨校;2013年
相關(guān)碩士學(xué)位論文 前10條
1 馬曉寧;中國微博客價值與發(fā)展研究[D];南昌大學(xué);2010年
2 王立民;中國SNS網(wǎng)站發(fā)展策略研究[D];華東理工大學(xué);2011年
3 李峰;我國休閑娛樂型SNS網(wǎng)站發(fā)展的傳播學(xué)分析[D];山東師范大學(xué);2011年
4 鄧冬娜;新浪微博商業(yè)模式發(fā)展研究[D];西北大學(xué);2011年
5 楊莉;基于SNS的主題式協(xié)作學(xué)習(xí)平臺研究[D];西南大學(xué);2011年
6 張鈺雪;新浪微博傳播機(jī)制研究[D];西南大學(xué);2011年
7 武茜;基于Qt的移動微博系統(tǒng)客戶端設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
8 殷崴;SNS社交網(wǎng)站成員在不同信任模式下使用動機(jī)與行為研究[D];北京郵電大學(xué);2011年
9 藍(lán)勤華;用戶創(chuàng)造內(nèi)容(UGC)動機(jī)研究[D];南京大學(xué);2011年
10 高嫻子;近年來我國社交網(wǎng)絡(luò)發(fā)展研究[D];暨南大學(xué);2011年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
2 劉暉;;Twitter:微博客時代的到來[J];傳媒;2009年10期
3 李丹;;社交網(wǎng)站用戶的行為和動機(jī)[J];傳媒觀察;2009年04期
4 劉文勇;;新時代傳播的寵兒——病毒式傳播[J];東南傳播;2007年09期
5 劉麗清;;微博雖“微”足值道爾——微博特性之淺析[J];東南傳播;2009年11期
6 許曉東;肖銀濤;朱士瑞;;微博社區(qū)的謠言傳播仿真研究[J];計算機(jī)工程;2011年10期
7 袁鵬亮;;基于Pagerank網(wǎng)頁排名技術(shù)計算方法的探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年12期
8 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
9 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期
10 姚峰;;Java平臺中Base64編碼/解碼算法的改進(jìn)[J];計算機(jī)應(yīng)用與軟件;2008年12期
相關(guān)重要報紙文章 前2條
1 馬曉芳;[N];第一財經(jīng)日報;2009年
2 本報記者 劉菁菁;[N];計算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前1條
1 陳錫鈞;網(wǎng)絡(luò)即時傳播軟件使用者需求研究[D];復(fù)旦大學(xué);2007年
相關(guān)碩士學(xué)位論文 前4條
1 汪名彥;博客用戶寫作動機(jī)與寫作行為的關(guān)系研究[D];浙江大學(xué);2006年
2 劉耀庭;社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D];浙江大學(xué);2008年
3 趙青;高校研究生網(wǎng)絡(luò)依賴的動機(jī)研究[D];東北師范大學(xué);2008年
4 王娟;微博客用戶的使用動機(jī)與行為[D];山東大學(xué);2010年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉興平;馬燕;杜利峰;;插件技術(shù)研究初探[J];延安大學(xué)學(xué)報(自然科學(xué)版);2006年01期
2 劉建明;賀占莊;;面向用戶的1553B指令系統(tǒng)設(shè)計[J];微電子學(xué)與計算機(jī);2006年06期
3 周強(qiáng),羅志強(qiáng);SCI協(xié)議標(biāo)準(zhǔn)綜述[J];航空電子技術(shù);2001年02期
4 葉安勝;周曉清;;ADO.NET通用數(shù)據(jù)庫訪問組件構(gòu)建與應(yīng)用[J];現(xiàn)代電子技術(shù);2009年18期
5 章美仁;李希文;;基于XML的數(shù)據(jù)操作描述語言設(shè)計[J];臺州學(xué)院學(xué)報;2009年03期
6 葉海明;周紹磊;徐俊彥;;通用測試系統(tǒng)模型化技術(shù)研究[J];計算機(jī)測量與控制;2009年09期
7 陳然,杜曉黎;基于統(tǒng)一接口的機(jī)群中交換機(jī)監(jiān)控系統(tǒng)的設(shè)計[J];計算機(jī)工程;2005年16期
8 董涌江;;全插件GIS應(yīng)用框架的設(shè)計與實現(xiàn)[J];北京測繪;2009年01期
9 葉傳華;;基于C#.NET的通用數(shù)據(jù)訪問接口的實現(xiàn)與應(yīng)用[J];數(shù)字技術(shù)與應(yīng)用;2010年10期
10 肖建清;丁德馨;張萍;徐根;;插件式疲勞分析軟件的體系結(jié)構(gòu)研究[J];計算機(jī)工程與設(shè)計;2009年12期
相關(guān)會議論文 前10條
1 袁松貴;吳敏;何勇;付成宏;;基于二維模型的非脆弱離散重復(fù)控制[A];第二十九屆中國控制會議論文集[C];2010年
2 蘭永紅;吳敏;佘錦華;;基于二維混合模型的最優(yōu)重復(fù)控制[A];第二十六屆中國控制會議論文集[C];2007年
3 聶智軍;王寶園;;基于分區(qū)策略的RANS方程并行算法可擴(kuò)展性分析[A];計算流體力學(xué)研究進(jìn)展——第十二屆全國計算流體力學(xué)會議論文集[C];2004年
4 李芳;邊馥苓;;構(gòu)件化GIS的可擴(kuò)展性研究[A];第四屆海峽兩岸GIS發(fā)展研討會暨中國GIS協(xié)會第十屆年會論文集[C];2006年
5 趙佳;關(guān)淼;沈頌華;王永;;基于重復(fù)控制技術(shù)的航空靜止變流器[A];2006中國電工技術(shù)學(xué)會電力電子學(xué)會第十屆學(xué)術(shù)年會論文摘要集[C];2006年
6 侯婷;裴雪軍;劉明先;康勇;;大功率組合式三相逆變電源的控制技術(shù)研究[A];2006中國電工技術(shù)學(xué)會電力電子學(xué)會第十屆學(xué)術(shù)年會論文摘要集[C];2006年
7 武健;郭偉峰;徐殿國;;基于重復(fù)控制的并聯(lián)混合有源濾波器實驗研究[A];2008中國電工技術(shù)學(xué)會電力電子學(xué)會第十一屆學(xué)術(shù)年會論文摘要集[C];2008年
8 簡林柯;李新忠;何鉞;;重復(fù)控制及其在多致動器同步運動控制中的應(yīng)用[A];1997年中國控制會議論文集[C];1997年
9 郭丹旦;劉向東;張宇河;蘇延雄;;伺服系統(tǒng)摩擦補償?shù)闹貜?fù)控制策略[A];第二十一屆中國控制會議論文集[C];2002年
10 高保忠;;對等網(wǎng)的流量擁塞問題研究[A];山東省計算機(jī)學(xué)會2005年信息技術(shù)與信息化研討會論文集(一)[C];2005年
相關(guān)重要報紙文章 前10條
1 本報記者 余侃;借力“333”系統(tǒng)無短板[N];中國電腦教育報;2009年
2 本報記者 梁靚;DiiVA接口加速普及 中國增強(qiáng)話語權(quán)[N];中國電子報;2009年
3 於紅斌 本報特約記者 丁順國;為戰(zhàn)時保障預(yù)留接口[N];解放軍報;2009年
4 胡強(qiáng);手機(jī)充電器標(biāo)準(zhǔn)升級有望年內(nèi)獲批[N];經(jīng)理日報;2009年
5 中國軟件評測中心媒體測試部;以最精簡配置 提供最高性價比[N];中國計算機(jī)報;2008年
6 王松濤;重慶:家裝應(yīng)設(shè)置信息化接口[N];中國建設(shè)報;2008年
7 杜樹臻 張立平;抓好接口補差訓(xùn)練[N];中國國防報;2001年
8 本報記者 胡強(qiáng);手機(jī)充電器標(biāo)準(zhǔn)升級年內(nèi)完成[N];通信產(chǎn)業(yè)報;2009年
9 本報記者 胡強(qiáng);手機(jī)充電器接口年內(nèi)統(tǒng)一[N];通信產(chǎn)業(yè)報;2009年
10 何丹嬋 實習(xí)生 姜樊;DiiVA接口將看電視轉(zhuǎn)為用電視[N];科技日報;2009年
相關(guān)博士學(xué)位論文 前10條
1 趙富;低頻線振動臺的重復(fù)控制研究[D];哈爾濱工業(yè)大學(xué);2010年
2 趙富;低頻線振動臺的重復(fù)控制研究[D];哈爾濱工業(yè)大學(xué);2010年
3 王之元;并行計算可擴(kuò)展性分析與優(yōu)化[D];國防科學(xué)技術(shù)大學(xué);2011年
4 陳東;并網(wǎng)逆變器系統(tǒng)中的重復(fù)控制技術(shù)及其應(yīng)用研究[D];浙江大學(xué);2013年
5 陳宏;基于重復(fù)控制理論的逆變電源控制技術(shù)研究[D];南京航空航天大學(xué);2003年
6 蘭永紅;基于二維模型的重復(fù)控制系統(tǒng)分析與設(shè)計[D];中南大學(xué);2010年
7 周蘭;基于連續(xù)—離散二維模型的周期系數(shù)線性系統(tǒng)魯棒重復(fù)控制設(shè)計[D];中南大學(xué);2011年
8 陳軍;分布式存儲環(huán)境下并行計算可擴(kuò)展性的研究與應(yīng)用[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2000年
9 陳娟;伺服系統(tǒng)低速特性與抖動補償研究[D];中國科學(xué)院長春光學(xué)精密機(jī)械與物理研究所;2001年
10 周伯生;移動自組網(wǎng)絡(luò)中可擴(kuò)展性路由策略研究[D];東南大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 吳昊;USB-PC104接口的設(shè)計與實現(xiàn)[D];四川大學(xué);2005年
2 王森;虹膜生物識別軟件系統(tǒng)框架設(shè)計[D];吉林大學(xué);2005年
3 陳建;基于Domino/Notes平臺下的辦公自動化設(shè)計[D];電子科技大學(xué);2005年
4 高俊杰;基于OPC的實時數(shù)據(jù)庫技術(shù)與應(yīng)用[D];北京化工大學(xué);2005年
5 曲艷華;光學(xué)電流互感器在繼電保護(hù)中的應(yīng)用[D];華北電力大學(xué)(河北);2005年
6 邢云濤;面向?qū)ο髷?shù)據(jù)庫ONet系統(tǒng)組件化體系的重構(gòu)與實現(xiàn)[D];浙江大學(xué);2006年
7 莫非;win版納稅申報錄入系統(tǒng)的開發(fā)與加密[D];天津大學(xué);2004年
8 高育鵬;嵌入式網(wǎng)絡(luò)測控服務(wù)器的研究與實現(xiàn)[D];西北工業(yè)大學(xué);2006年
9 李建軍;基于COM/DCOM的組件技術(shù)研究與應(yīng)用[D];同濟(jì)大學(xué);2006年
10 姜國樹;大連網(wǎng)通軟交換網(wǎng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2007年
,本文編號:2195632
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2195632.html