多策略融合的中文微博數(shù)據(jù)采集方法
發(fā)布時(shí)間:2021-08-05 05:29
在基于Cookie爬蟲(chóng)微博數(shù)據(jù)采集方法和基于API接口微博數(shù)據(jù)采集方法的對(duì)比分析基礎(chǔ)上,提出了一種多策略融合的中文微博數(shù)據(jù)采集方法。設(shè)計(jì)實(shí)現(xiàn)了廣度優(yōu)先的微博數(shù)據(jù)采集算法和隨機(jī)活躍用戶微博數(shù)據(jù)采集算法,全面高效采集中文微博中的用戶ID數(shù)據(jù)、用戶個(gè)人信息數(shù)據(jù)、用戶微博信息數(shù)據(jù)和微博用戶關(guān)注信息數(shù)據(jù),為微博社會(huì)網(wǎng)絡(luò)分析提供有價(jià)值的微博信息源。真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法不僅具有較高的采集效率,而且還具有很好的用戶覆蓋面。
【文章來(lái)源】:計(jì)算機(jī)工程與設(shè)計(jì). 2013,34(11)北大核心CSCD
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
0引言
1多策略融合的中文微博數(shù)據(jù)采集方法
1.1多策略融合的微博數(shù)據(jù)采集框架
1.2廣度優(yōu)先微博數(shù)據(jù)采集
1.3隨機(jī)活躍用戶微博采集
2實(shí)驗(yàn)及結(jié)果分析
3結(jié)束語(yǔ)
本文編號(hào):3323162
【文章來(lái)源】:計(jì)算機(jī)工程與設(shè)計(jì). 2013,34(11)北大核心CSCD
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
0引言
1多策略融合的中文微博數(shù)據(jù)采集方法
1.1多策略融合的微博數(shù)據(jù)采集框架
1.2廣度優(yōu)先微博數(shù)據(jù)采集
1.3隨機(jī)活躍用戶微博采集
2實(shí)驗(yàn)及結(jié)果分析
3結(jié)束語(yǔ)
本文編號(hào):3323162
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3323162.html
最近更新
教材專著