社交網(wǎng)絡(luò)挖掘方案研究
本文關(guān)鍵詞:社交網(wǎng)絡(luò)挖掘方案研究
更多相關(guān)文章: 新浪微博 數(shù)據(jù)挖掘 Android SDK 新浪API 網(wǎng)絡(luò)爬蟲 信息采集
【摘要】:隨著社交網(wǎng)絡(luò)普及,社交網(wǎng)絡(luò)的數(shù)據(jù)獲取成為首先要解決的問題。針對如何獲取社交網(wǎng)站的數(shù)據(jù),提出了基于API和網(wǎng)絡(luò)爬蟲的兩種方法。通過采取對比試驗,分別用兩種方式在單位時間內(nèi)抓取微博,比較抓取的微博條數(shù)。實驗結(jié)果表明,基于API抓取的速度比較快,但是穩(wěn)定性和數(shù)據(jù)完整性欠佳;基于網(wǎng)路爬蟲方式抓取的速度比較慢,但是穩(wěn)定性和數(shù)據(jù)完整性較好。最后提出通過采用兩種方式相結(jié)合的方式,能夠進一步提高抓取效率。
【作者單位】: 南京理工大學(xué);
【關(guān)鍵詞】: 新浪微博 數(shù)據(jù)挖掘 Android SDK 新浪API 網(wǎng)絡(luò)爬蟲 信息采集
【基金】:國家社會科學(xué)基金項目(13BTQ046)
【分類號】:TP393.092;TP391.1
【正文快照】: 根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》指出:社交網(wǎng)站的整體覆蓋率為61.7%,中國互聯(lián)網(wǎng)用戶總數(shù)已經(jīng)達(dá)到6.18億,互聯(lián)網(wǎng)的滲透率已經(jīng)達(dá)到67.8%。其中微博等社交網(wǎng)絡(luò)的使用規(guī)模為2.81億,網(wǎng)中微博的使用率[1]為45.5%。社交網(wǎng)絡(luò)的使用率越
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 蔣宗禮;田曉燕;趙旭;;一種基于語義分析的主題爬蟲算法[J];計算機工程與科學(xué);2010年09期
2 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
3 吳黎兵;柯亞林;何炎祥;劉楠;;分布式網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];計算機應(yīng)用與軟件;2011年11期
4 宋海洋;劉曉然;錢海俊;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期
5 韓宇貞,朱華生;基于Base64編碼的數(shù)據(jù)加密技術(shù)[J];南昌水專學(xué)報;2002年04期
6 盧體廣;劉新;劉任任;;微博數(shù)據(jù)通用抓取算法[J];計算機工程;2014年05期
7 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期
8 黃延煒;劉嘉勇;;新浪微博數(shù)據(jù)獲取技術(shù)研究[J];信息安全與通信保密;2013年06期
9 朱云鵬;馮楓;陳江寧;;多策略融合的中文微博數(shù)據(jù)采集方法[J];計算機工程與設(shè)計;2013年11期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學(xué);2009年20期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期
4 唐武生;田立紅;曹偉;;Base64編碼的實現(xiàn)與應(yīng)用研究[J];長春大學(xué)學(xué)報;2006年04期
5 唐武生;徐慧莉;張洪昭;;本科教學(xué)工作水平評估網(wǎng)站的建設(shè)[J];長春大學(xué)學(xué)報;2006年12期
6 任斌;毛應(yīng)爽;;基于本體的主動學(xué)習(xí)主題爬行的研究與實現(xiàn)[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期
7 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
8 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
9 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期
10 王遷;王麗娜;;對收費網(wǎng)站中作品提供鏈接的法律性質(zhì)——評“娛樂基地”訴百度案[J];電子知識產(chǎn)權(quán);2007年08期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
2 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
3 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
4 方春林;郭曉勇;;基于主題的微博數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)[A];廣西計算機學(xué)會2014年學(xué)術(shù)年會論文集[C];2014年
5 彭鑫;秦秋莉;;基于相關(guān)度分析的主題聚焦爬蟲研究[A];第六屆ABB杯全國自動化系統(tǒng)工程師論文大賽論文集[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
6 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
8 楊志;基于本體的語義互操作研究[D];北京郵電大學(xué);2012年
9 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年
10 劉行軍;微博用戶及其信息傳播影響因素研究[D];華中師范大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學(xué);2010年
2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學(xué);2010年
5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學(xué);2009年
6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年
7 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
8 張朝威;面向企業(yè)競爭情報的主題搜索研究與實現(xiàn)[D];西安電子科技大學(xué);2010年
9 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn)[D];西安電子科技大學(xué);2009年
10 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
2 陳媛;E-mail傳輸?shù)淖詣咏獯a系統(tǒng)[J];電腦開發(fā)與應(yīng)用;2000年02期
3 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報;2002年S1期
4 姚科;;開放API:新浪微博必經(jīng)之路?[J];互聯(lián)網(wǎng)天地;2010年08期
5 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程;2003年17期
6 蔣宗禮;田曉燕;趙旭;;一種基于語義分析的主題爬蟲算法[J];計算機工程與科學(xué);2010年09期
7 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期
8 高弋坤;;新浪微博用戶數(shù)再創(chuàng)新高[J];通信世界;2011年46期
9 鄒永斌;陳興蜀;王文賢;;基于貝葉斯分類器的主題爬蟲研究[J];計算機應(yīng)用研究;2009年09期
10 姚峰;;Java平臺中Base64編碼/解碼算法的改進[J];計算機應(yīng)用與軟件;2008年12期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 朱少龍;基于微博的社會化媒體分析系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
2 譚思亮;聚焦爬行系統(tǒng)的設(shè)計—算法視角[D];中國科學(xué)院研究生院(成都計算機應(yīng)用研究所);2006年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李林容;;社交網(wǎng)絡(luò)的特性及其發(fā)展趨勢[J];新聞界;2010年05期
2 陳琛;沙昊;;社交網(wǎng)絡(luò)的開放融合圖譜[J];通信世界;2010年48期
3 楊宇良;;網(wǎng)絡(luò)讓我們更遠(yuǎn)還是更近[J];互聯(lián)網(wǎng)天地;2011年01期
4 陳昱;;社交網(wǎng)絡(luò)革命與國家安全關(guān)系[J];情報雜志;2011年S2期
5 勞倫·考克斯;;請在工作時更新你的狀態(tài)[J];科技創(chuàng)業(yè);2011年05期
6 斯蒂芬·卡斯;;在線社區(qū)能否解決隱私問題[J];科技創(chuàng)業(yè);2011年08期
7 陳云鵬;;電子商務(wù)引領(lǐng)社交網(wǎng)絡(luò)走進2.0時代[J];上海信息化;2012年01期
8 馬文剛;;智慧的物聯(lián)社交網(wǎng)絡(luò)[J];上海信息化;2012年03期
9 朱乾龍;張倩;杜娟;;我國社交網(wǎng)絡(luò)繁榮背后面臨深層次問題困擾[J];世界電信;2012年06期
10 劉華;;社交網(wǎng)絡(luò)的融合之路[J];軟件工程師;2012年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測與關(guān)系強度研究[A];第七屆(2012)中國管理學(xué)年會商務(wù)智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎?wù)撐腫C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年
5 杜p,
本文編號:782558
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/782558.html