多策略融合的中文微博數(shù)據(jù)采集方法
發(fā)布時間:2021-08-05 05:29
在基于Cookie爬蟲微博數(shù)據(jù)采集方法和基于API接口微博數(shù)據(jù)采集方法的對比分析基礎(chǔ)上,提出了一種多策略融合的中文微博數(shù)據(jù)采集方法。設(shè)計實現(xiàn)了廣度優(yōu)先的微博數(shù)據(jù)采集算法和隨機活躍用戶微博數(shù)據(jù)采集算法,全面高效采集中文微博中的用戶ID數(shù)據(jù)、用戶個人信息數(shù)據(jù)、用戶微博信息數(shù)據(jù)和微博用戶關(guān)注信息數(shù)據(jù),為微博社會網(wǎng)絡(luò)分析提供有價值的微博信息源。真實數(shù)據(jù)集上的實驗結(jié)果表明,該方法不僅具有較高的采集效率,而且還具有很好的用戶覆蓋面。
【文章來源】:計算機工程與設(shè)計. 2013,34(11)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
0引言
1多策略融合的中文微博數(shù)據(jù)采集方法
1.1多策略融合的微博數(shù)據(jù)采集框架
1.2廣度優(yōu)先微博數(shù)據(jù)采集
1.3隨機活躍用戶微博采集
2實驗及結(jié)果分析
3結(jié)束語
本文編號:3323162
【文章來源】:計算機工程與設(shè)計. 2013,34(11)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
0引言
1多策略融合的中文微博數(shù)據(jù)采集方法
1.1多策略融合的微博數(shù)據(jù)采集框架
1.2廣度優(yōu)先微博數(shù)據(jù)采集
1.3隨機活躍用戶微博采集
2實驗及結(jié)果分析
3結(jié)束語
本文編號:3323162
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3323162.html
最近更新
教材專著