社交網(wǎng)絡數(shù)據(jù)采集技術研究與應用
本文選題:Python 切入點:微博API 出處:《計算機科學》2017年01期
【摘要】:隨著社交網(wǎng)絡的快速發(fā)展,對其研究也逐步深入。顯然,社交網(wǎng)絡基礎數(shù)據(jù)的獲取對研究具有非常重要的意義。針對目前已有的數(shù)據(jù)采集方案,根據(jù)新浪授權標準以及最新的微博加密方式,研究了兩種采集方案:1)經(jīng)OAuth2.0認證后,通過微博API接口獲取數(shù)據(jù);2)在RSA2加密方式下模擬登錄微博,再通過網(wǎng)絡爬蟲抓取數(shù)據(jù)。同時,還研究了通過網(wǎng)頁采集器針對微博編寫適當?shù)牟杉?guī)則進而實現(xiàn)對數(shù)據(jù)的獲取。3種數(shù)據(jù)采集方案都能有效地對數(shù)據(jù)進行采集且各具特點,針對數(shù)據(jù)的采集需求,提出融合不同的采集方案的策略。經(jīng)實驗研究,方案的融合策略可快速、高效地實現(xiàn)大數(shù)據(jù)量的采集。
[Abstract]:With the rapid development of social network, the research of social network has gradually deepened. Obviously, the acquisition of basic data of social network is very important for the research. According to Sina Authorization Standard and the latest Weibo encryption method, this paper studies two kinds of collection schemes: 1) after being certified by OAuth2.0, then acquires data through the API interface of Weibo) under the RSA2 encryption mode, simulates and logs on Weibo, then grabs the data through the web crawler. At the same time, It is also studied that all kinds of data acquisition schemes can collect data effectively and have their own characteristics, aiming at the demand of data collection. The strategy of fusion of different data acquisition schemes is put forward, and the experimental results show that the strategy can realize the acquisition of large amount of data quickly and efficiently.
【作者單位】: 江南大學數(shù)字媒體學院;
【基金】:國家自然科學基金項目(61103223)資助
【分類號】:TP393.09;TP274.2
【參考文獻】
相關期刊論文 前6條
1 孫曉;葉嘉麒;唐陳意;任福繼;;基于多策略的新浪微博大數(shù)據(jù)抓取及應用[J];合肥工業(yè)大學學報(自然科學版);2014年10期
2 丁兆云;賈焰;周斌;;微博數(shù)據(jù)挖掘研究綜述[J];計算機研究與發(fā)展;2014年04期
3 孫青云;王俊峰;趙宗渠;高夢超;;一種基于模擬登錄的微博數(shù)據(jù)采集方案[J];計算機技術與發(fā)展;2014年03期
4 黃延煒;劉嘉勇;;新浪微博數(shù)據(jù)獲取技術研究[J];信息安全與通信保密;2013年06期
5 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學學報(自然科學版);2011年10期
6 姚峰;;Java平臺中Base64編碼/解碼算法的改進[J];計算機應用與軟件;2008年12期
【共引文獻】
相關期刊論文 前3條
1 閆林;阮寧;閆碩;高偉;;相關集的數(shù)據(jù)關聯(lián)描述及實例討論[J];計算機科學;2017年01期
2 閆碩;閆林;;數(shù)據(jù)關聯(lián)的;瘶涿枋龇椒╗J];模式識別與人工智能;2015年12期
3 閆林;劉濤;閆碩;李峰;阮寧;;基于結構粒化的數(shù)據(jù)合并方法[J];計算機應用;2015年02期
【二級參考文獻】
相關期刊論文 前5條
1 閆林;宋金朋;;數(shù)據(jù)集的;瘶浼捌浣肹J];計算機科學;2014年03期
2 胡清華;于達仁;謝宗霞;;基于鄰域粒化和粗糙逼近的數(shù)值屬性約簡[J];軟件學報;2008年03期
3 仇國芳,陳勁;概念知識系統(tǒng)與概念信息粒格[J];工程數(shù)學學報;2005年06期
4 張燕平,張鈴,夏瑩;商空間理論與粗糙集的比較[J];微機發(fā)展;2004年10期
5 張鈴,張鈸;模糊商空間理論(模糊粒度計算方法)[J];軟件學報;2003年04期
【相似文獻】
相關期刊論文 前10條
1 ;基于位置的手機社交網(wǎng)絡“貝多”正式發(fā)布[J];中國新通信;2008年06期
2 曹增輝;;社交網(wǎng)絡更偏向于用戶工具[J];信息網(wǎng)絡;2009年11期
3 ;美國:印刷企業(yè)青睞社交網(wǎng)絡營銷新方式[J];中國包裝工業(yè);2010年Z1期
4 李智惠;柳承燁;;韓國移動社交網(wǎng)絡服務的類型分析與促進方案[J];現(xiàn)代傳播(中國傳媒大學學報);2010年08期
5 賈富;;改變一切的社交網(wǎng)絡[J];互聯(lián)網(wǎng)天地;2011年04期
6 譚拯;;社交網(wǎng)絡:連接與發(fā)現(xiàn)[J];廣東通信技術;2011年07期
7 陳一舟;;社交網(wǎng)絡的發(fā)展趨勢[J];傳媒;2011年12期
8 殷樂;;全球社交網(wǎng)絡新態(tài)勢及文化影響[J];新聞與寫作;2012年01期
9 許麗;;社交網(wǎng)絡:孤獨年代的集體狂歡[J];上海信息化;2012年09期
10 李玲麗;吳新年;;科研社交網(wǎng)絡的發(fā)展現(xiàn)狀及趨勢分析[J];圖書館學研究;2013年01期
相關會議論文 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡用戶的人格預測與關系強度研究[A];第七屆(2012)中國管理學年會商務智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網(wǎng)絡中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學科研究生學術論壇獲獎論文[C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡與大學生焦慮緩解[A];心理學與創(chuàng)新能力提升——第十六屆全國心理學學術會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡解析[A];第九屆全國體育科學大會論文摘要匯編(4)[C];2011年
5 杜p,
本文編號:1681095
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1681095.html