天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云計算的微博輿情監(jiān)控系統(tǒng)研究

發(fā)布時間:2017-08-30 10:43

  本文關(guān)鍵詞:基于云計算的微博輿情監(jiān)控系統(tǒng)研究


  更多相關(guān)文章: 微博 Hadoop平臺 新詞發(fā)現(xiàn) 話題發(fā)現(xiàn) 輿情監(jiān)控


【摘要】:目前,社會中的很多熱點話題往往都是從微博開始傳播,如何從微博中發(fā)現(xiàn)熱點話題并對熱點話題做輿情分析,是非常有現(xiàn)實意義的工作。本文針對微博輿情的特點,研究了微博輿情監(jiān)控系統(tǒng)的實現(xiàn)方法。介紹Hadoop平臺處理大數(shù)據(jù)的優(yōu)勢和原理,實現(xiàn)了數(shù)據(jù)采集、文本模型表示、話題發(fā)現(xiàn)以及輿情分析的功能。本文的主要工作和研究內(nèi)容如下:第一,本文在數(shù)據(jù)采集模塊采用新浪微博API和網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合實現(xiàn)微博數(shù)據(jù)采集;谖⒉崴言~檢索實現(xiàn)相關(guān)微博的定位,能夠在短時間內(nèi)獲取大量領(lǐng)域相關(guān)的微博數(shù)據(jù)。第二,在熱點話題發(fā)現(xiàn)方法的改進上,采用了基于新詞發(fā)現(xiàn)的微博文本主題發(fā)現(xiàn)方法,將其分為三個步驟:中文分詞、LDA主題建模、主題聚類。在中文分詞環(huán)節(jié),加入了新詞發(fā)現(xiàn)模塊,提高了分詞準(zhǔn)確率。在建立文本模型時,采用LDA主題模型,提高了話題發(fā)現(xiàn)的準(zhǔn)確率。第三,為了提高LDA建模的準(zhǔn)確度,在構(gòu)建文本模型前加入文本分類模塊,解決了原有的話題發(fā)現(xiàn)方法在應(yīng)用于微博文本時精度不高以及將同一關(guān)鍵字下的不同話題混淆的問題。本文基于實際的新浪微博數(shù)據(jù)實現(xiàn)熱點話題發(fā)現(xiàn)、話題傳播路徑、內(nèi)容傾向性分析、社會網(wǎng)絡(luò)分析功能進行測試、分析。最后本文針對系統(tǒng)的缺陷,對未來的工作做展望。
【關(guān)鍵詞】:微博 Hadoop平臺 新詞發(fā)現(xiàn) 話題發(fā)現(xiàn) 輿情監(jiān)控
【學(xué)位授予單位】:西南科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 1 緒論8-14
  • 1.1 課題背景研究8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 國外話題發(fā)現(xiàn)研究現(xiàn)狀10-11
  • 1.2.2 國內(nèi)話題發(fā)現(xiàn)研究現(xiàn)狀11
  • 1.3 課題主要內(nèi)容11-12
  • 1.4 課題來源12-13
  • 1.5 論文章節(jié)安排13-14
  • 2 相關(guān)技術(shù)介紹14-26
  • 2.1 云計算技術(shù)14-19
  • 2.1.1 云計算的服務(wù)模式14-15
  • 2.1.2 典型的云計算平臺15
  • 2.1.3 Apache Hadoop15-19
  • 2.2 輿情監(jiān)控主要流程19-24
  • 2.2.1 文本模型建立20-21
  • 2.2.2 文本相似度計算21-22
  • 2.2.3 微博輿情監(jiān)控分析22-24
  • 2.3 本章小結(jié)24-26
  • 3 基于微博短文本話題發(fā)現(xiàn)算法26-38
  • 3.1 微博文本分類27-29
  • 3.2 中文分詞29-31
  • 3.2.1 數(shù)據(jù)預(yù)處理30
  • 3.2.2 新詞發(fā)現(xiàn)30-31
  • 3.3 改進的LDA模型31-35
  • 3.3.1 微博文本的LDA建模32-34
  • 3.3.2 選取LDA超越參數(shù)34-35
  • 3.4 熱點話題發(fā)現(xiàn)流程35-37
  • 3.4.1 LDA主題模型算法流程35-36
  • 3.4.2 基于LDA的主題聚類36-37
  • 3.5 本章小結(jié)37-38
  • 4 微博輿情監(jiān)控系統(tǒng)的設(shè)計38-51
  • 4.1 數(shù)據(jù)采集模塊38-41
  • 4.1.1 基于新浪API的數(shù)據(jù)采集39
  • 4.1.2 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集39-41
  • 4.2 數(shù)據(jù)處理模塊41-42
  • 4.2.1 去除無用符號41-42
  • 4.2.2 分詞處理42
  • 4.2.3 去除停用詞42
  • 4.2.4 文本模型42
  • 4.3 話題發(fā)現(xiàn)模塊42-48
  • 4.3.1 K-means++ 算法實現(xiàn)43-47
  • 4.3.2 熱點話題發(fā)現(xiàn)47-48
  • 4.4 輿情分析模塊48-50
  • 4.4.1 熱點話題傳播路徑48-49
  • 4.4.2 熱點話題傾向性分析49-50
  • 4.4.3 熱點話題社會網(wǎng)絡(luò)分析50
  • 4.5 本章小結(jié)50-51
  • 5 實驗結(jié)果分析51-61
  • 5.1 系統(tǒng)部署51-53
  • 5.1.1 集群系統(tǒng)結(jié)構(gòu)51
  • 5.1.2 環(huán)境配置51-53
  • 5.2 微博數(shù)據(jù)采集53
  • 5.3 話題發(fā)現(xiàn)實驗結(jié)果與分析53-60
  • 5.3.1 建立分類模型53-54
  • 5.3.2 中文分詞54-55
  • 5.3.3 熱點話題發(fā)現(xiàn)55-56
  • 5.3.4 輿情分析結(jié)果展示56-60
  • 5.4 本章小結(jié)60-61
  • 結(jié)論61-62
  • 致謝62-63
  • 參考文獻63-68
  • 攻讀學(xué)位期間發(fā)表的相關(guān)學(xué)術(shù)論文及研究成果68
,

本文編號:758858

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/758858.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶29814***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
中字幕一区二区三区久久蜜桃| 日韩欧美一区二区不卡看片| 日本大学生精油按摩在线观看| 日韩综合国产欧美一区| 成人区人妻精品一区二区三区 | 国产精品日韩精品最新| 中文字幕乱码亚洲三区| 国产二级一级内射视频播放| 国产传媒精品视频一区| 99热九九在线中文字幕| 欧美日韩黑人免费观看| 国产精品香蕉在线的人| 欧美熟妇喷浆一区二区| 国产不卡的视频在线观看| 一区二区欧美另类稀缺| 97人妻人人揉人人躁人人| 精品少妇一区二区视频| 99一级特黄色性生活片| av免费视屏在线观看| 真实偷拍一区二区免费视频| 开心五月激情综合婷婷色| 中文字幕亚洲在线一区| 久久精品国产99国产免费| 国产偷拍精品在线视频| 精品人妻少妇二区三区| 欧美三级精品在线观看| 欧美日韩亚洲国产av| 91欧美日韩国产在线观看| 国产专区亚洲专区久久| 99久热只有精品视频最新| 成人精品视频一区二区在线观看| 我要看日本黄色小视频| 亚洲精品成人福利在线| 午夜精品福利视频观看| 办公室丝袜高跟秘书国产| 激情五月天免费在线观看| 伊人天堂午夜精品草草网| 欧美日韩校园春色激情偷拍| 欧美丰满大屁股一区二区三区| 日韩黄片大全免费在线看| 国产日韩欧美专区一区|