基于云計算的微博輿情監(jiān)控系統(tǒng)研究
發(fā)布時間:2017-08-30 10:43
本文關(guān)鍵詞:基于云計算的微博輿情監(jiān)控系統(tǒng)研究
更多相關(guān)文章: 微博 Hadoop平臺 新詞發(fā)現(xiàn) 話題發(fā)現(xiàn) 輿情監(jiān)控
【摘要】:目前,社會中的很多熱點話題往往都是從微博開始傳播,如何從微博中發(fā)現(xiàn)熱點話題并對熱點話題做輿情分析,是非常有現(xiàn)實意義的工作。本文針對微博輿情的特點,研究了微博輿情監(jiān)控系統(tǒng)的實現(xiàn)方法。介紹Hadoop平臺處理大數(shù)據(jù)的優(yōu)勢和原理,實現(xiàn)了數(shù)據(jù)采集、文本模型表示、話題發(fā)現(xiàn)以及輿情分析的功能。本文的主要工作和研究內(nèi)容如下:第一,本文在數(shù)據(jù)采集模塊采用新浪微博API和網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合實現(xiàn)微博數(shù)據(jù)采集;谖⒉崴言~檢索實現(xiàn)相關(guān)微博的定位,能夠在短時間內(nèi)獲取大量領(lǐng)域相關(guān)的微博數(shù)據(jù)。第二,在熱點話題發(fā)現(xiàn)方法的改進上,采用了基于新詞發(fā)現(xiàn)的微博文本主題發(fā)現(xiàn)方法,將其分為三個步驟:中文分詞、LDA主題建模、主題聚類。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高了分詞準(zhǔn)確率。在建立文本模型時,采用LDA主題模型,提高了話題發(fā)現(xiàn)的準(zhǔn)確率。第三,為了提高LDA建模的準(zhǔn)確度,在構(gòu)建文本模型前加入文本分類模塊,解決了原有的話題發(fā)現(xiàn)方法在應(yīng)用于微博文本時精度不高以及將同一關(guān)鍵字下的不同話題混淆的問題。本文基于實際的新浪微博數(shù)據(jù)實現(xiàn)熱點話題發(fā)現(xiàn)、話題傳播路徑、內(nèi)容傾向性分析、社會網(wǎng)絡(luò)分析功能進行測試、分析。最后本文針對系統(tǒng)的缺陷,對未來的工作做展望。
【關(guān)鍵詞】:微博 Hadoop平臺 新詞發(fā)現(xiàn) 話題發(fā)現(xiàn) 輿情監(jiān)控
【學(xué)位授予單位】:西南科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- Abstract5-8
- 1 緒論8-14
- 1.1 課題背景研究8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 國外話題發(fā)現(xiàn)研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)話題發(fā)現(xiàn)研究現(xiàn)狀11
- 1.3 課題主要內(nèi)容11-12
- 1.4 課題來源12-13
- 1.5 論文章節(jié)安排13-14
- 2 相關(guān)技術(shù)介紹14-26
- 2.1 云計算技術(shù)14-19
- 2.1.1 云計算的服務(wù)模式14-15
- 2.1.2 典型的云計算平臺15
- 2.1.3 Apache Hadoop15-19
- 2.2 輿情監(jiān)控主要流程19-24
- 2.2.1 文本模型建立20-21
- 2.2.2 文本相似度計算21-22
- 2.2.3 微博輿情監(jiān)控分析22-24
- 2.3 本章小結(jié)24-26
- 3 基于微博短文本話題發(fā)現(xiàn)算法26-38
- 3.1 微博文本分類27-29
- 3.2 中文分詞29-31
- 3.2.1 數(shù)據(jù)預(yù)處理30
- 3.2.2 新詞發(fā)現(xiàn)30-31
- 3.3 改進的LDA模型31-35
- 3.3.1 微博文本的LDA建模32-34
- 3.3.2 選取LDA超越參數(shù)34-35
- 3.4 熱點話題發(fā)現(xiàn)流程35-37
- 3.4.1 LDA主題模型算法流程35-36
- 3.4.2 基于LDA的主題聚類36-37
- 3.5 本章小結(jié)37-38
- 4 微博輿情監(jiān)控系統(tǒng)的設(shè)計38-51
- 4.1 數(shù)據(jù)采集模塊38-41
- 4.1.1 基于新浪API的數(shù)據(jù)采集39
- 4.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集39-41
- 4.2 數(shù)據(jù)處理模塊41-42
- 4.2.1 去除無用符號41-42
- 4.2.2 分詞處理42
- 4.2.3 去除停用詞42
- 4.2.4 文本模型42
- 4.3 話題發(fā)現(xiàn)模塊42-48
- 4.3.1 K-means++ 算法實現(xiàn)43-47
- 4.3.2 熱點話題發(fā)現(xiàn)47-48
- 4.4 輿情分析模塊48-50
- 4.4.1 熱點話題傳播路徑48-49
- 4.4.2 熱點話題傾向性分析49-50
- 4.4.3 熱點話題社會網(wǎng)絡(luò)分析50
- 4.5 本章小結(jié)50-51
- 5 實驗結(jié)果分析51-61
- 5.1 系統(tǒng)部署51-53
- 5.1.1 集群系統(tǒng)結(jié)構(gòu)51
- 5.1.2 環(huán)境配置51-53
- 5.2 微博數(shù)據(jù)采集53
- 5.3 話題發(fā)現(xiàn)實驗結(jié)果與分析53-60
- 5.3.1 建立分類模型53-54
- 5.3.2 中文分詞54-55
- 5.3.3 熱點話題發(fā)現(xiàn)55-56
- 5.3.4 輿情分析結(jié)果展示56-60
- 5.4 本章小結(jié)60-61
- 結(jié)論61-62
- 致謝62-63
- 參考文獻63-68
- 攻讀學(xué)位期間發(fā)表的相關(guān)學(xué)術(shù)論文及研究成果68
本文編號:758858
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/758858.html
最近更新
教材專著