天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Python的新浪微博數(shù)據(jù)爬蟲

發(fā)布時間:2017-12-19 21:10

  本文關(guān)鍵詞:基于Python的新浪微博數(shù)據(jù)爬蟲 出處:《計算機應(yīng)用》2014年11期  論文類型:期刊論文


  更多相關(guān)文章: 新浪微博 爬蟲 Python 并行 大數(shù)據(jù)


【摘要】:目前很多的社交網(wǎng)絡(luò)研究都是采用國外的平臺數(shù)據(jù),而國內(nèi)的新浪微博沒有很好的接口方便研究人員采集數(shù)據(jù)進行分析。為了快速地獲取到微博中的數(shù)據(jù),開發(fā)了一款支持并行的微博數(shù)據(jù)抓取工具。該工具可以實時抓取微博中指定用戶的粉絲信息、微博正文等內(nèi)容;該工具利用關(guān)鍵字匹配技術(shù),匹配符合規(guī)定條件的微博,并抓取相關(guān)內(nèi)容;該工具支持并行抓取,可以同時抓取多個用戶的信息。最后將串行微博爬蟲工具和其并行版本進行對比,并使用該工具對部分微博數(shù)據(jù)作了一個關(guān)于流感問題的分析。實驗結(jié)果顯示:并行爬蟲擁有較好的加速比,可以快速地獲取數(shù)據(jù),并且這些數(shù)據(jù)具有實時性和準(zhǔn)確性。
【作者單位】: 上海大學(xué)計算機工程與科學(xué)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(91330116) 高等學(xué)校博士學(xué)科點專項科研基金資助項目(20113108120022) 上海市科委重點項目(11510500300)
【分類號】:TP393.092
【正文快照】: 0引言計算機技術(shù)的進步使人們的生活方式逐漸發(fā)生改變,社交網(wǎng)絡(luò)就是一個非常突出的例子。越來越多的人參與到社交網(wǎng)絡(luò)平臺中去,與他人互動,分享各種內(nèi)容。在大數(shù)據(jù)時代來臨之際,社交網(wǎng)絡(luò)就像一個巨大的寶庫,吸引了大量的研究人員參與到相關(guān)內(nèi)容的研究。在國外,人們針對Twitter

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期

2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學(xué);2009年20期

3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期

4 任斌;毛應(yīng)爽;;基于本體的主動學(xué)習(xí)主題爬行的研究與實現(xiàn)[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期

5 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期

6 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期

7 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期

8 王遷;王麗娜;;對收費網(wǎng)站中作品提供鏈接的法律性質(zhì)——評“娛樂基地”訴百度案[J];電子知識產(chǎn)權(quán);2007年08期

9 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期

10 張軍洲;連云凱;;基于旅游博客和論壇提高旅游產(chǎn)品質(zhì)量的模型研究[J];旅游論壇;2012年02期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

2 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年

3 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年

3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年

5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

6 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年

7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年

8 楊志;基于本體的語義互操作研究[D];北京郵電大學(xué);2012年

9 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年

10 王明軍;基于Web的空間數(shù)據(jù)爬取與度量研究[D];武漢大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學(xué);2010年

2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年

3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

4 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學(xué);2010年

5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學(xué);2009年

6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年

7 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

8 張朝威;面向企業(yè)競爭情報的主題搜索研究與實現(xiàn)[D];西安電子科技大學(xué);2010年

9 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn)[D];西安電子科技大學(xué);2009年

10 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 曾浩;;基于Python的Web開發(fā)框架研究[J];廣西輕工業(yè);2011年08期

2 郭曉云;;基于Python和Selenium的新浪微博數(shù)據(jù)訪問[J];電腦編程技巧與維護;2012年15期

3 ;精彩Blog推薦[J];程序員;2007年11期

4 王冉陽;;基于Django和Python的Web開發(fā)[J];電腦編程技巧與維護;2009年02期

5 周峰;使用Web構(gòu)建“Web”[J];個人電腦;2001年07期

6 湯韜;;Zope——獨樹一幟的Web框架[J];程序員;2003年07期

7 楊晶;;基于Python的MoinMoin[J];軟件世界;2007年18期

8 張琦;;利用Python統(tǒng)計數(shù)據(jù)包特征值的研究[J];計算機安全;2011年06期

9 徐長瑜;;基于Google云的日程管理云服務(wù)的研究與實現(xiàn)[J];科技信息;2010年18期

10 叢宏斌;魏秀菊;王柳;朱明;曾勰婷;劉麗英;;利用PYTHON解析網(wǎng)絡(luò)上傳數(shù)據(jù)[J];中國科技期刊研究;2013年04期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 周一丁;基于面向服務(wù)并行計算的Python計算網(wǎng)格[D];上海交通大學(xué);2008年

,

本文編號:1309438

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1309438.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶afa3c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com