當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

基于云計算的微博輿情監(jiān)控系統(tǒng)研究

發(fā)布時間：2017-08-30 10:43

本文關(guān)鍵詞：基于云計算的微博輿情監(jiān)控系統(tǒng)研究

【摘要】：目前,社會中的很多熱點話題往往都是從微博開始傳播,如何從微博中發(fā)現(xiàn)熱點話題并對熱點話題做輿情分析,是非常有現(xiàn)實意義的工作。本文針對微博輿情的特點,研究了微博輿情監(jiān)控系統(tǒng)的實現(xiàn)方法。介紹Hadoop平臺處理大數(shù)據(jù)的優(yōu)勢和原理,實現(xiàn)了數(shù)據(jù)采集、文本模型表示、話題發(fā)現(xiàn)以及輿情分析的功能。本文的主要工作和研究內(nèi)容如下:第一,本文在數(shù)據(jù)采集模塊采用新浪微博API和網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合實現(xiàn)微博數(shù)據(jù)采集�；谖⒉崴言~檢索實現(xiàn)相關(guān)微博的定位,能夠在短時間內(nèi)獲取大量領(lǐng)域相關(guān)的微博數(shù)據(jù)。第二,在熱點話題發(fā)現(xiàn)方法的改進(jìn)上,采用了基于新詞發(fā)現(xiàn)的微博文本主題發(fā)現(xiàn)方法,將其分為三個步驟:中文分詞、LDA主題建模、主題聚類。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高了分詞準(zhǔn)確率。在建立文本模型時,采用LDA主題模型,提高了話題發(fā)現(xiàn)的準(zhǔn)確率。第三,為了提高LDA建模的準(zhǔn)確度,在構(gòu)建文本模型前加入文本分類模塊,解決了原有的話題發(fā)現(xiàn)方法在應(yīng)用于微博文本時精度不高以及將同一關(guān)鍵字下的不同話題混淆的問題。本文基于實際的新浪微博數(shù)據(jù)實現(xiàn)熱點話題發(fā)現(xiàn)、話題傳播路徑、內(nèi)容傾向性分析、社會網(wǎng)絡(luò)分析功能進(jìn)行測試、分析。最后本文針對系統(tǒng)的缺陷,對未來的工作做展望。
【關(guān)鍵詞】：微博 Hadoop平臺 新詞發(fā)現(xiàn) 話題發(fā)現(xiàn) 輿情監(jiān)控
【學(xué)位授予單位】：西南科技大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1;TP393.092
【目錄】：

摘要4-5
Abstract5-8
1 緒論8-14
1.1 課題背景研究8-9
1.2 國內(nèi)外研究現(xiàn)狀9-11
1.2.1 國外話題發(fā)現(xiàn)研究現(xiàn)狀10-11
1.2.2 國內(nèi)話題發(fā)現(xiàn)研究現(xiàn)狀11
1.3 課題主要內(nèi)容11-12
1.4 課題來源12-13
1.5 論文章節(jié)安排13-14
2 相關(guān)技術(shù)介紹14-26
2.1 云計算技術(shù)14-19
2.1.1 云計算的服務(wù)模式14-15
2.1.2 典型的云計算平臺15
2.1.3 Apache Hadoop15-19
2.2 輿情監(jiān)控主要流程19-24
2.2.1 文本模型建立20-21
2.2.2 文本相似度計算21-22
2.2.3 微博輿情監(jiān)控分析22-24
2.3 本章小結(jié)24-26
3 基于微博短文本話題發(fā)現(xiàn)算法26-38
3.1 微博文本分類27-29
3.2 中文分詞29-31
3.2.1 數(shù)據(jù)預(yù)處理30
3.2.2 新詞發(fā)現(xiàn)30-31
3.3 改進(jìn)的LDA模型31-35
3.3.1 微博文本的LDA建模32-34
3.3.2 選取LDA超越參數(shù)34-35
3.4 熱點話題發(fā)現(xiàn)流程35-37
3.4.1 LDA主題模型算法流程35-36
3.4.2 基于LDA的主題聚類36-37
3.5 本章小結(jié)37-38
4 微博輿情監(jiān)控系統(tǒng)的設(shè)計38-51
4.1 數(shù)據(jù)采集模塊38-41
4.1.1 基于新浪API的數(shù)據(jù)采集39
4.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集39-41
4.2 數(shù)據(jù)處理模塊41-42
4.2.1 去除無用符號41-42
4.2.2 分詞處理42
4.2.3 去除停用詞42
4.2.4 文本模型42
4.3 話題發(fā)現(xiàn)模塊42-48
4.3.1 K-means++ 算法實現(xiàn)43-47
4.3.2 熱點話題發(fā)現(xiàn)47-48
4.4 輿情分析模塊48-50
4.4.1 熱點話題傳播路徑48-49
4.4.2 熱點話題傾向性分析49-50
4.4.3 熱點話題社會網(wǎng)絡(luò)分析50
4.5 本章小結(jié)50-51
5 實驗結(jié)果分析51-61
5.1 系統(tǒng)部署51-53
5.1.1 集群系統(tǒng)結(jié)構(gòu)51
5.1.2 環(huán)境配置51-53
5.2 微博數(shù)據(jù)采集53
5.3 話題發(fā)現(xiàn)實驗結(jié)果與分析53-60
5.3.1 建立分類模型53-54
5.3.2 中文分詞54-55
5.3.3 熱點話題發(fā)現(xiàn)55-56
5.3.4 輿情分析結(jié)果展示56-60
5.4 本章小結(jié)60-61
結(jié)論61-62
致謝62-63
參考文獻(xiàn)63-68
攻讀學(xué)位期間發(fā)表的相關(guān)學(xué)術(shù)論文及研究成果68

，

本文編號：758858

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/758858.html

上一篇：移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展淺析
下一篇：電力云計算平臺資源調(diào)度策略的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云計算的微博輿情監(jiān)控系統(tǒng)研究