互聯(lián)網輿情監(jiān)控系統(tǒng)的關鍵技術研究與實現(xiàn)
本文關鍵詞:互聯(lián)網輿情監(jiān)控系統(tǒng)的關鍵技術研究與實現(xiàn)
更多相關文章: 互聯(lián)網 輿情監(jiān)控 微博 未登錄詞 文本聚類
【摘要】:基于互聯(lián)網的輿情分析已被廣泛應用,但隨著新的交流平臺的出現(xiàn),互聯(lián)網輿情分析也在不斷的擴充與完善。如今互聯(lián)網輿情監(jiān)控已經覆蓋到微博、微信、論壇、博客、貼吧、新聞等各個方面。微博作為近年來最流行的網絡社交工具之一,其傳播快、互動性強等特點,已發(fā)展為重要的互聯(lián)網信息交流共享平臺。目前微博輿情監(jiān)控尚存在一些不足之處,本文著重從微博出發(fā),對微博輿情監(jiān)控相關技術進行分析與研究。本論文的主要研究工作及研究成果如下:針對微博短文本的特點,分析了微博短文本信息預處理方案,并對微博中的“未登錄詞”進行識別。根據微博文本的特殊形式,提取微博話題內文本,經過過濾并計算互信息值等步驟識別微博新詞。建立未登錄詞詞庫,從而提高微博文本分詞效果。對傳統(tǒng)輿情監(jiān)控中所涉及到的相關理論和技術進行了研究,對比傳統(tǒng)文本與微博短文本之間的差異。深入分析傳統(tǒng)文本聚類算法在微博短文本聚類中的局限性,借助VSM向量空間模型和LDA文檔主題生成模型對K-means聚類算法性能進行優(yōu)化,優(yōu)化了K-means初始中心的確立方法和文本相似度計算公式,提高了聚類的準確率;ヂ(lián)網媒體早已深入廣大人民的日常生活中,網友的高度活躍導致對國內外任何熱點事件都能立馬產生輿情。在給人們的交流帶來了巨大的方便的同時,也已經成為了社會輿情傳播的重要載體。因此,輿情監(jiān)測對于國家政府及網絡監(jiān)管部門來說是十分必要的。
【關鍵詞】:互聯(lián)網 輿情監(jiān)控 微博 未登錄詞 文本聚類
【學位授予單位】:東華理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-9
- 第一章 緒論9-13
- 1.1 課題背景及研究意義9-10
- 1.1.1 輿情概述9
- 1.1.2 研究的目的和意義9-10
- 1.2 國內外研究現(xiàn)狀10-11
- 1.3 學位論文的主要內容11-13
- 第二章 相關理論與技術研究13-29
- 2.1 輿情監(jiān)控技術框架13-15
- 2.1.1 輿情監(jiān)控系統(tǒng)概述13
- 2.1.2 系統(tǒng)框架結構13-14
- 2.1.3 輿情監(jiān)控系統(tǒng)關鍵技術14-15
- 2.1.4 輿情監(jiān)控系統(tǒng)存在的問題15
- 2.2 微博Web文本信息獲取技術15-17
- 2.2.1 基于網絡爬蟲的數(shù)據獲取技術15-17
- 2.2.2 基于微博開放平臺的數(shù)據獲取技術17
- 2.3 中文分詞技術17-18
- 2.4 特征降維18-21
- 2.4.1 特征選擇18-20
- 2.4.2 特征權重計算20-21
- 2.5 文本表示21-24
- 2.5.1 空間向量模型21-23
- 2.5.2 布爾模型23-24
- 2.5.3 概率模型24
- 2.5.4 語言模型24
- 2.6 相似度計算24-25
- 2.7 文本聚類的主要方法25-28
- 2.8 本章小結28-29
- 第三章 微博文本預處理及未登錄詞識別29-39
- 3.1 短文本數(shù)據特點分析29
- 3.2 微博短文本預處理29-32
- 3.2.1 符號預處理30-31
- 3.2.2 中文分詞31-32
- 3.3 未登錄詞識別算法32-36
- 3.3.1 未登錄詞識別32-33
- 3.3.2 微博未登錄詞識別算法33-36
- 3.4 實驗與結果分析36-38
- 3.4.1 實驗環(huán)境36
- 3.4.2 數(shù)據采集36
- 3.4.3 實驗結果36-37
- 3.4.4 結果分析37-38
- 3.5 本章小結38-39
- 第四章 微博短文本聚類技術研究與優(yōu)化39-55
- 4.1 向量空間模型39-40
- 4.2 文檔主題生成模型40-42
- 4.3 基于LDA的傳統(tǒng)K-means算法42-44
- 4.3.1 算法思想描述43-44
- 4.3.2 存在的局限44
- 4.4 優(yōu)化的K-means算法44-48
- 4.4.1 初始中心的確定優(yōu)化45-46
- 4.4.2 文本相似度計算優(yōu)化46-47
- 4.4.3 整體優(yōu)化的K-means聚類算法47-48
- 4.5 實驗與結果分析48-53
- 4.5.1 實驗環(huán)境48
- 4.5.2 文本聚類評價標準48-49
- 4.5.3 實驗相關參數(shù)設定49-51
- 4.5.4 微博文本聚類結果與分析51-53
- 4.6 本章小結53-55
- 第五章 輿情監(jiān)控系統(tǒng)設計與實現(xiàn)55-67
- 5.1 系統(tǒng)總體設計55-57
- 5.1.1 系統(tǒng)需求分析55
- 5.1.2 系統(tǒng)設計目標55-57
- 5.2 功能模塊詳細設計與實現(xiàn)57-63
- 5.2.1 數(shù)據采集模塊57-59
- 5.2.2 文本預處理59-60
- 5.2.3 短文本聚類60
- 5.2.4 微博輿情分析模塊60-63
- 5.3 系統(tǒng)功能描述63-65
- 5.3.1 系統(tǒng)設置63-64
- 5.3.2 數(shù)據采集64
- 5.3.3 監(jiān)控設置64-65
- 5.3.4 門戶管理65
- 5.4 本章小結65-67
- 第六章 總結與展望67-69
- 6.1 總結67
- 6.2 展望67-69
- 致謝69-71
- 參考文獻71-73
【參考文獻】
中國期刊全文數(shù)據庫 前10條
1 于海歡;;大數(shù)據時代的網絡輿情管理和應對[J];視聽;2016年02期
2 王雨;;事業(yè)單位財務管理的科學化與精細化趨勢分析[J];價值工程;2016年04期
3 吳青林;周天宏;;基于話題聚類及情感強度的中文微博輿情分析[J];情報理論與實踐;2016年01期
4 李玲;劉華文;徐曉丹;趙建民;;基于信息增益的多標簽特征選擇算法[J];計算機科學;2015年07期
5 潘舒;祁云嵩;;多重假設檢驗及其在大數(shù)據特征降維中的應用[J];計算機科學;2015年S1期
6 崔保國;何丹嵋;;互聯(lián)網驅動傳媒產業(yè)增長——2014年中國傳媒產業(yè)發(fā)展報告[J];中國報業(yè);2015年11期
7 劉晉勝;;基于平均互信息的混合條件屬性聚類算法[J];計算機科學;2015年03期
8 李綱;王丹丹;;社交網站用戶個人信息披露意愿影響因素研究——以新浪微博為例[J];情報資料工作;2015年01期
9 徐濤;于洪志;加羊吉;;基于改進卡方統(tǒng)計量的藏文文本表示方法[J];計算機工程;2014年06期
10 丁兆云;賈焰;周斌;;微博數(shù)據挖掘研究綜述[J];計算機研究與發(fā)展;2014年04期
中國博士學位論文全文數(shù)據庫 前1條
1 董堅峰;面向公共危機預警的網絡輿情分析研究[D];武漢大學;2013年
中國碩士學位論文全文數(shù)據庫 前10條
1 鄒妍;網絡輿情監(jiān)控與分析系統(tǒng)的設計與實現(xiàn)[D];吉林大學;2015年
2 佟林;基于Hadoop平臺的網絡輿情分析系統(tǒng)的研究與實現(xiàn)[D];吉林大學;2015年
3 傅饒;基于中文分詞的輿情監(jiān)控系統(tǒng)分析模塊的設計與實現(xiàn)[D];南京大學;2015年
4 賀偉;互聯(lián)網輿情監(jiān)控軟件的設計開發(fā)[D];華南理工大學;2015年
5 姜朋;山東大學輿情分析系統(tǒng)的設計與實現(xiàn)[D];山東大學;2015年
6 劉峰;基于數(shù)據挖掘技術的輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
7 高天宏;互聯(lián)網輿情分析中信息采集技術的研究與設計[D];北京郵電大學;2015年
8 馮金剛;網絡輿情中文信息情感傾向分析研究[D];華北電力大學;2015年
9 毛立鵬;互聯(lián)網輿情監(jiān)控分析系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2014年
10 郭永輝;面向短文本分類的特征擴展方法[D];哈爾濱工業(yè)大學;2013年
,本文編號:682020
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/682020.html