基于Python的新浪微博數(shù)據(jù)爬蟲
本文關(guān)鍵詞:基于Python的新浪微博數(shù)據(jù)爬蟲 出處:《計(jì)算機(jī)應(yīng)用》2014年11期 論文類型:期刊論文
更多相關(guān)文章: 新浪微博 爬蟲 Python 并行 大數(shù)據(jù)
【摘要】:目前很多的社交網(wǎng)絡(luò)研究都是采用國外的平臺數(shù)據(jù),而國內(nèi)的新浪微博沒有很好的接口方便研究人員采集數(shù)據(jù)進(jìn)行分析。為了快速地獲取到微博中的數(shù)據(jù),開發(fā)了一款支持并行的微博數(shù)據(jù)抓取工具。該工具可以實(shí)時(shí)抓取微博中指定用戶的粉絲信息、微博正文等內(nèi)容;該工具利用關(guān)鍵字匹配技術(shù),匹配符合規(guī)定條件的微博,并抓取相關(guān)內(nèi)容;該工具支持并行抓取,可以同時(shí)抓取多個(gè)用戶的信息。最后將串行微博爬蟲工具和其并行版本進(jìn)行對比,并使用該工具對部分微博數(shù)據(jù)作了一個(gè)關(guān)于流感問題的分析。實(shí)驗(yàn)結(jié)果顯示:并行爬蟲擁有較好的加速比,可以快速地獲取數(shù)據(jù),并且這些數(shù)據(jù)具有實(shí)時(shí)性和準(zhǔn)確性。
【作者單位】: 上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(91330116) 高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金資助項(xiàng)目(20113108120022) 上海市科委重點(diǎn)項(xiàng)目(11510500300)
【分類號】:TP393.092
【正文快照】: 0引言計(jì)算機(jī)技術(shù)的進(jìn)步使人們的生活方式逐漸發(fā)生改變,社交網(wǎng)絡(luò)就是一個(gè)非常突出的例子。越來越多的人參與到社交網(wǎng)絡(luò)平臺中去,與他人互動,分享各種內(nèi)容。在大數(shù)據(jù)時(shí)代來臨之際,社交網(wǎng)絡(luò)就像一個(gè)巨大的寶庫,吸引了大量的研究人員參與到相關(guān)內(nèi)容的研究。在國外,人們針對Twitter
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
2 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
4 任斌;毛應(yīng)爽;;基于本體的主動學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[J];長春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年01期
5 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
6 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
7 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期
8 王遷;王麗娜;;對收費(fèi)網(wǎng)站中作品提供鏈接的法律性質(zhì)——評“娛樂基地”訴百度案[J];電子知識產(chǎn)權(quán);2007年08期
9 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期
10 張軍洲;連云凱;;基于旅游博客和論壇提高旅游產(chǎn)品質(zhì)量的模型研究[J];旅游論壇;2012年02期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
2 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
3 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
6 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
8 楊志;基于本體的語義互操作研究[D];北京郵電大學(xué);2012年
9 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年
10 王明軍;基于Web的空間數(shù)據(jù)爬取與度量研究[D];武漢大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 史煒;個(gè)性化搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2010年
5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年
7 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
8 張朝威;面向企業(yè)競爭情報(bào)的主題搜索研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
9 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
10 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曾浩;;基于Python的Web開發(fā)框架研究[J];廣西輕工業(yè);2011年08期
2 郭曉云;;基于Python和Selenium的新浪微博數(shù)據(jù)訪問[J];電腦編程技巧與維護(hù);2012年15期
3 ;精彩Blog推薦[J];程序員;2007年11期
4 王冉陽;;基于Django和Python的Web開發(fā)[J];電腦編程技巧與維護(hù);2009年02期
5 周峰;使用Web構(gòu)建“Web”[J];個(gè)人電腦;2001年07期
6 湯韜;;Zope——獨(dú)樹一幟的Web框架[J];程序員;2003年07期
7 楊晶;;基于Python的MoinMoin[J];軟件世界;2007年18期
8 張琦;;利用Python統(tǒng)計(jì)數(shù)據(jù)包特征值的研究[J];計(jì)算機(jī)安全;2011年06期
9 徐長瑜;;基于Google云的日程管理云服務(wù)的研究與實(shí)現(xiàn)[J];科技信息;2010年18期
10 叢宏斌;魏秀菊;王柳;朱明;曾勰婷;劉麗英;;利用PYTHON解析網(wǎng)絡(luò)上傳數(shù)據(jù)[J];中國科技期刊研究;2013年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 周一丁;基于面向服務(wù)并行計(jì)算的Python計(jì)算網(wǎng)格[D];上海交通大學(xué);2008年
,本文編號:1309438
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1309438.html