基于多策略的新浪微博大數(shù)據(jù)抓取及應(yīng)用
本文關(guān)鍵詞:基于多策略的新浪微博大數(shù)據(jù)抓取及應(yīng)用
更多相關(guān)文章: 新浪微博API 大數(shù)據(jù) 數(shù)據(jù)挖掘 網(wǎng)絡(luò)爬蟲 多策略
【摘要】:微博數(shù)據(jù)處理屬于大數(shù)據(jù)范疇,其前提是獲取大量的微博數(shù)據(jù),而由于商業(yè)利益以及安全方面的考慮,獲取微博數(shù)據(jù)的途徑越來越少。同時隨著新浪官方API的逐步更新,數(shù)據(jù)獲取的限制也日益增加。文章嘗試?yán)矛F(xiàn)有資源,基于多策略獲取機制,設(shè)計出可穩(wěn)定獲得新浪微博數(shù)據(jù)的挖掘方案,并給出情感分析應(yīng)用實例。實驗表明,所設(shè)計的挖掘方案可以根據(jù)需要獲取微博上的數(shù)據(jù),并可以應(yīng)用于微博情感分析中。
【作者單位】: 合肥工業(yè)大學(xué)計算機與信息學(xué)院;
【關(guān)鍵詞】: 新浪微博API 大數(shù)據(jù) 數(shù)據(jù)挖掘 網(wǎng)絡(luò)爬蟲 多策略
【基金】:國家自然科學(xué)基金資助項目(61203315) 國家高技術(shù)研究發(fā)展計劃(863計劃)資助項目(2012AA011103) 安徽省科技攻關(guān)計劃資助項目(1206c0805039)
【分類號】:TP311.13;TP393.092
【正文快照】: 新浪微博在發(fā)展初期,主要采用國外的Twitter的發(fā)展模式。但隨著發(fā)展而表現(xiàn)出的個性化差異,讓新浪微博增加了更多適應(yīng)于中國用戶的客戶體驗。新浪微博擁有龐大數(shù)目的用戶群體基礎(chǔ),日均微博總發(fā)送量維持在5 000×104~1×108條之間。用戶狀態(tài)、用戶關(guān)注及粉絲等信息已經(jīng)成為非常
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報;2012年01期
2 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機應(yīng)用與軟件;2013年03期
3 孫曉;李承程;葉嘉麒;任福繼;;基于重復(fù)字串的微博新詞非監(jiān)督自動抽取[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2014年06期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊學(xué)成;隋越;岳欣;;機構(gòu)微博的社會關(guān)系網(wǎng)絡(luò)構(gòu)建——以騰訊商學(xué)院為例[J];北京郵電大學(xué)學(xué)報(社會科學(xué)版);2012年03期
2 祝方林;;大學(xué)圖書館微博信息行為分析[J];高校圖書情報論壇;2012年02期
3 張國安;鐘紹輝;;基于k均值聚類的微博用戶分類的研究[J];電腦知識與技術(shù);2012年26期
4 張國安;鐘紹輝;;基于微博用戶評論和用戶轉(zhuǎn)發(fā)的數(shù)據(jù)挖掘[J];電腦知識與技術(shù);2012年27期
5 趙前東;葉猛;;微博熱點話題檢測系統(tǒng)的設(shè)計與實現(xiàn)[J];電視技術(shù);2013年03期
6 張愷;馬忠軍;張溯章;;基于桂電微校園的社會網(wǎng)絡(luò)實證研究[J];桂林電子科技大學(xué)學(xué)報;2013年02期
7 孫建旺;呂學(xué)強;郭嵡秀;;基于微博轉(zhuǎn)發(fā)集的微博過濾研究[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2013年03期
8 許星;席鵬富;秦天;;社會網(wǎng)絡(luò)的輿情信息分析與可視化——以新浪微博為例[J];計算機光盤軟件與應(yīng)用;2013年12期
9 吳維;肖詩斌;;基于多特征與復(fù)合分類法的中文微博情感分析[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2013年04期
10 陳舜華;王曉彤;郝志峰;蔡瑞初;肖曉軍;盧宇;;基于微博API的分布式抓取技術(shù)[J];電信科學(xué);2013年08期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 譚婷婷;網(wǎng)絡(luò)微內(nèi)容推薦方法及支持系統(tǒng)研究[D];華中科技大學(xué);2011年
2 田野;基于微博平臺的事件趨勢分析及預(yù)測研究[D];武漢大學(xué);2012年
3 易蘭麗;基于人類動力學(xué)的微博用戶行為統(tǒng)計特征分析與建模研究[D];北京郵電大學(xué);2012年
4 肖宇;校園網(wǎng)絡(luò)信息傳播特性與用戶影響力研究[D];華中科技大學(xué);2012年
5 吳保來;基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)研究[D];中共中央黨校;2013年
6 田占偉;基于復(fù)雜網(wǎng)絡(luò)的微博信息傳播研究[D];哈爾濱工業(yè)大學(xué);2012年
7 郭龍飛;社交網(wǎng)絡(luò)用戶隱私關(guān)注動態(tài)影響因素及行為規(guī)律研究[D];北京郵電大學(xué);2013年
8 劉行軍;微博用戶及其信息傳播影響因素研究[D];華中師范大學(xué);2013年
9 崔安頎;微博熱點事件的公眾情感分析研究[D];清華大學(xué);2013年
10 郭曉姝;企業(yè)微博信息互動傳播模式、途徑與影響因素研究[D];東北財經(jīng)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 許玉;基于微博的網(wǎng)絡(luò)口碑研究[D];南京大學(xué);2011年
2 張嵐嵐;新浪微博的網(wǎng)絡(luò)輿情分析研究[D];華東師范大學(xué);2011年
3 史亞光;企業(yè)微博客營銷策略研究[D];華東師范大學(xué);2011年
4 紀(jì)珊珊;傳播學(xué)視野下的微博研究[D];安徽大學(xué);2011年
5 邵國川;基于用戶參與的高校圖書館信息服務(wù)研究[D];安徽大學(xué);2011年
6 施懌;微博在危機事件中的傳播特點和效果研究[D];華中科技大學(xué);2011年
7 陸毅;微博社會網(wǎng)絡(luò)構(gòu)造與分析技術(shù)研究[D];復(fù)旦大學(xué);2011年
8 賀佳瑩;微博客用戶接受模型及實證研究[D];北京郵電大學(xué);2012年
9 胡文靜;基于語義理解與PLSA的文本情感分類研究[D];天津師范大學(xué);2012年
10 楊艷;下一代網(wǎng)絡(luò)業(yè)務(wù)用戶行為研究[D];西南交通大學(xué);2012年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
2 丁楠;潘有能;;h指數(shù)和g指數(shù)評價實證研究——基于CSSCI的統(tǒng)計分析[J];圖書與情報;2008年02期
3 李華;趙文偉;;微博客:圖書館的下一個網(wǎng)絡(luò)新貴工具[J];圖書與情報;2009年04期
4 孫曉;黃德根;;基于最長次長匹配分詞的一體化中文詞法分析[J];大連理工大學(xué)學(xué)報;2010年06期
5 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
6 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2012年06期
7 王曉東;劉倩;陶縣俊;;情感Ontology構(gòu)建與文本傾向性分析[J];計算機工程與應(yīng)用;2010年30期
8 劉志明;劉魯;;基于機器學(xué)習(xí)的中文微博情感分類實證研究[J];計算機工程與應(yīng)用;2012年01期
9 張靖;金浩;;漢語詞語情感傾向自動判斷研究[J];計算機工程;2010年23期
10 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
2 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2010年03期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
5 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
8 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
10 楊松梅;;網(wǎng)絡(luò)爬蟲[J];硅谷;2009年15期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
3 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
4 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
5 王慶廣;何力;韓偉紅;;基于爬蟲的有害網(wǎng)站發(fā)現(xiàn)與判別系統(tǒng)的實現(xiàn)[A];第27次全國計算機安全學(xué)術(shù)交流會論文集[C];2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
2 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
3 陳奮;過濾型網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D];廈門大學(xué);2007年
4 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
5 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
6 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
7 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
8 張紅云;基于頁面分析的主題網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
9 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2014年
10 鄒海亮;可定制的聚焦網(wǎng)絡(luò)爬蟲[D];東華大學(xué);2009年
,本文編號:548287
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/548287.html