基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析
發(fā)布時間:2017-06-27 07:17
本文關(guān)鍵詞:基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析,,由筆耕文化傳播整理發(fā)布。
【摘要】:為充分利用大數(shù)據(jù)時代的海量數(shù)據(jù),提出一種基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析方法。通過Web Crawler從新浪微博抓取所需時空范圍內(nèi)的公交微博,分析公交微博發(fā)布的時間與空間分布規(guī)律;隨后采用KMP算法統(tǒng)計并剔除冗余轉(zhuǎn)發(fā)及回復(fù)微博,提取并分析公交相關(guān)的熱點(diǎn)話題;基于中科院ICTCLAS算法進(jìn)行中文分詞處理,刪除停用詞后統(tǒng)計詞頻,生成關(guān)鍵詞的詞云。最后通過南京市范圍內(nèi)的8 913條公交微博進(jìn)行實(shí)例驗(yàn)證與分析,結(jié)果表明,該方法可以從海量的微博數(shù)據(jù)中提取公交相關(guān)數(shù)據(jù)并進(jìn)行分析,分析數(shù)據(jù)量大且有時效性,分析結(jié)果可為公交系統(tǒng)管理的優(yōu)化與改善、公交政策的制定提供數(shù)據(jù)支撐。
【作者單位】: 河海大學(xué)商學(xué)院;東南大學(xué)交通學(xué)院;
【關(guān)鍵詞】: 微博 公交系統(tǒng) 數(shù)據(jù)抓取 中文分詞 大數(shù)據(jù)
【分類號】:TP391.1;TP393.092
【正文快照】: 0引言現(xiàn)代交通科學(xué)是一門多學(xué)科交叉與多技術(shù)融合的科學(xué),其研究工作很大程度上是基于對交通數(shù)據(jù)的采集與分析而逐層展開的。傳統(tǒng)的交通數(shù)據(jù)采集方法為交通調(diào)查,至今已有超過75年的歷史[1],主要是通過郵件、電話、網(wǎng)絡(luò)、入戶、街訪等方式展開。近年來,為了彌補(bǔ)傳統(tǒng)方法不能獲取
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 尹若波,于連家,扈興強(qiáng),趙亞男;FRDPP信息工程管理系統(tǒng)數(shù)據(jù)采集、錄入技術(shù)及功能實(shí)現(xiàn)的探討[J];山東林業(yè)科技;1999年S1期
2 張柯,張新宇,鞠儒生,邱曉剛;基于HLA的分布仿真系統(tǒng)數(shù)據(jù)采集解決方案[J];系統(tǒng)仿真學(xué)報;2004年12期
3 ;[J];;年期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 拜戰(zhàn)勝;SNAX系統(tǒng)數(shù)據(jù)采集研究[D];中南大學(xué);2009年
本文關(guān)鍵詞:基于新浪微博的公交系統(tǒng)數(shù)據(jù)采集及分析,由筆耕文化傳播整理發(fā)布。
本文編號:488919
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/488919.html
最近更新
教材專著