互聯(lián)網輿情監(jiān)控系統(tǒng)的關鍵技術研究與實現(xiàn)

發(fā)布時間：2017-08-16 07:21

本文關鍵詞：互聯(lián)網輿情監(jiān)控系統(tǒng)的關鍵技術研究與實現(xiàn)

【摘要】：基于互聯(lián)網的輿情分析已被廣泛應用,但隨著新的交流平臺的出現(xiàn),互聯(lián)網輿情分析也在不斷的擴充與完善。如今互聯(lián)網輿情監(jiān)控已經覆蓋到微博、微信、論壇、博客、貼吧、新聞等各個方面。微博作為近年來最流行的網絡社交工具之一,其傳播快、互動性強等特點,已發(fā)展為重要的互聯(lián)網信息交流共享平臺。目前微博輿情監(jiān)控尚存在一些不足之處,本文著重從微博出發(fā),對微博輿情監(jiān)控相關技術進行分析與研究。本論文的主要研究工作及研究成果如下:針對微博短文本的特點,分析了微博短文本信息預處理方案,并對微博中的“未登錄詞”進行識別。根據微博文本的特殊形式,提取微博話題內文本,經過過濾并計算互信息值等步驟識別微博新詞。建立未登錄詞詞庫,從而提高微博文本分詞效果。對傳統(tǒng)輿情監(jiān)控中所涉及到的相關理論和技術進行了研究,對比傳統(tǒng)文本與微博短文本之間的差異。深入分析傳統(tǒng)文本聚類算法在微博短文本聚類中的局限性,借助VSM向量空間模型和LDA文檔主題生成模型對K-means聚類算法性能進行優(yōu)化,優(yōu)化了K-means初始中心的確立方法和文本相似度計算公式,提高了聚類的準確率�；ヂ�(lián)網媒體早已深入廣大人民的日常生活中,網友的高度活躍導致對國內外任何熱點事件都能立馬產生輿情。在給人們的交流帶來了巨大的方便的同時,也已經成為了社會輿情傳播的重要載體。因此,輿情監(jiān)測對于國家政府及網絡監(jiān)管部門來說是十分必要的。
【關鍵詞】：互聯(lián)網 輿情監(jiān)控 微博 未登錄詞 文本聚類
【學位授予單位】：東華理工大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要4-5
Abstract5-9
第一章緒論9-13
1.1 課題背景及研究意義9-10
1.1.1 輿情概述9
1.1.2 研究的目的和意義9-10
1.2 國內外研究現(xiàn)狀10-11
1.3 學位論文的主要內容11-13
第二章相關理論與技術研究13-29
2.1 輿情監(jiān)控技術框架13-15
2.1.1 輿情監(jiān)控系統(tǒng)概述13
2.1.2 系統(tǒng)框架結構13-14
2.1.3 輿情監(jiān)控系統(tǒng)關鍵技術14-15
2.1.4 輿情監(jiān)控系統(tǒng)存在的問題15
2.2 微博Web文本信息獲取技術15-17
2.2.1 基于網絡爬蟲的數(shù)據獲取技術15-17
2.2.2 基于微博開放平臺的數(shù)據獲取技術17
2.3 中文分詞技術17-18
2.4 特征降維18-21
2.4.1 特征選擇18-20
2.4.2 特征權重計算20-21
2.5 文本表示21-24
2.5.1 空間向量模型21-23
2.5.2 布爾模型23-24
2.5.3 概率模型24
2.5.4 語言模型24
2.6 相似度計算24-25
2.7 文本聚類的主要方法25-28
2.8 本章小結28-29
第三章微博文本預處理及未登錄詞識別29-39
3.1 短文本數(shù)據特點分析29
3.2 微博短文本預處理29-32
3.2.1 符號預處理30-31
3.2.2 中文分詞31-32
3.3 未登錄詞識別算法32-36
3.3.1 未登錄詞識別32-33
3.3.2 微博未登錄詞識別算法33-36
3.4 實驗與結果分析36-38
3.4.1 實驗環(huán)境36
3.4.2 數(shù)據采集36
3.4.3 實驗結果36-37
3.4.4 結果分析37-38
3.5 本章小結38-39
第四章微博短文本聚類技術研究與優(yōu)化39-55
4.1 向量空間模型39-40
4.2 文檔主題生成模型40-42
4.3 基于LDA的傳統(tǒng)K-means算法42-44
4.3.1 算法思想描述43-44
4.3.2 存在的局限44
4.4 優(yōu)化的K-means算法44-48
4.4.1 初始中心的確定優(yōu)化45-46
4.4.2 文本相似度計算優(yōu)化46-47
4.4.3 整體優(yōu)化的K-means聚類算法47-48
4.5 實驗與結果分析48-53
4.5.1 實驗環(huán)境48
4.5.2 文本聚類評價標準48-49
4.5.3 實驗相關參數(shù)設定49-51
4.5.4 微博文本聚類結果與分析51-53
4.6 本章小結53-55
第五章輿情監(jiān)控系統(tǒng)設計與實現(xiàn)55-67
5.1 系統(tǒng)總體設計55-57
5.1.1 系統(tǒng)需求分析55
5.1.2 系統(tǒng)設計目標55-57
5.2 功能模塊詳細設計與實現(xiàn)57-63
5.2.1 數(shù)據采集模塊57-59
5.2.2 文本預處理59-60
5.2.3 短文本聚類60
5.2.4 微博輿情分析模塊60-63
5.3 系統(tǒng)功能描述63-65
5.3.1 系統(tǒng)設置63-64
5.3.2 數(shù)據采集64
5.3.3 監(jiān)控設置64-65
5.3.4 門戶管理65
5.4 本章小結65-67
第六章總結與展望67-69
6.1 總結67
6.2 展望67-69
致謝69-71
參考文獻71-73

【參考文獻】

中國期刊全文數(shù)據庫前10條

1 于海歡;;大數(shù)據時代的網絡輿情管理和應對[J];視聽;2016年02期

2 王雨;;事業(yè)單位財務管理的科學化與精細化趨勢分析[J];價值工程;2016年04期

3 吳青林;周天宏;;基于話題聚類及情感強度的中文微博輿情分析[J];情報理論與實踐;2016年01期

4 李玲;劉華文;徐曉丹;趙建民;;基于信息增益的多標簽特征選擇算法[J];計算機科學;2015年07期

5 潘舒;祁云嵩;;多重假設檢驗及其在大數(shù)據特征降維中的應用[J];計算機科學;2015年S1期

6 崔保國;何丹嵋;;互聯(lián)網驅動傳媒產業(yè)增長——2014年中國傳媒產業(yè)發(fā)展報告[J];中國報業(yè);2015年11期

7 劉晉勝;;基于平均互信息的混合條件屬性聚類算法[J];計算機科學;2015年03期

8 李綱;王丹丹;;社交網站用戶個人信息披露意愿影響因素研究——以新浪微博為例[J];情報資料工作;2015年01期

9 徐濤;于洪志;加羊吉;;基于改進卡方統(tǒng)計量的藏文文本表示方法[J];計算機工程;2014年06期

10 丁兆云;賈焰;周斌;;微博數(shù)據挖掘研究綜述[J];計算機研究與發(fā)展;2014年04期

中國博士學位論文全文數(shù)據庫前1條

1 董堅峰;面向公共危機預警的網絡輿情分析研究[D];武漢大學;2013年

中國碩士學位論文全文數(shù)據庫前10條

1 鄒妍;網絡輿情監(jiān)控與分析系統(tǒng)的設計與實現(xiàn)[D];吉林大學;2015年

2 佟林;基于Hadoop平臺的網絡輿情分析系統(tǒng)的研究與實現(xiàn)[D];吉林大學;2015年

3 傅饒;基于中文分詞的輿情監(jiān)控系統(tǒng)分析模塊的設計與實現(xiàn)[D];南京大學;2015年

4 賀偉;互聯(lián)網輿情監(jiān)控軟件的設計開發(fā)[D];華南理工大學;2015年

5 姜朋;山東大學輿情分析系統(tǒng)的設計與實現(xiàn)[D];山東大學;2015年

6 劉峰;基于數(shù)據挖掘技術的輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年

7 高天宏;互聯(lián)網輿情分析中信息采集技術的研究與設計[D];北京郵電大學;2015年

8 馮金剛;網絡輿情中文信息情感傾向分析研究[D];華北電力大學;2015年

9 毛立鵬;互聯(lián)網輿情監(jiān)控分析系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2014年

10 郭永輝;面向短文本分類的特征擴展方法[D];哈爾濱工業(yè)大學;2013年

，

本文編號：682020

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/682020.html

上一篇：大數(shù)據技術在隨訪健康檔案平臺中的應用分析
下一篇：基于手勢操控的多媒體交互技術在藝術展覽中的應用

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網輿情監(jiān)控系統(tǒng)的關鍵技術研究與實現(xiàn)