熱門微博話題事件主題聚類分析

發(fā)布時間：2017-07-26 16:28

本文關鍵詞：熱門微博話題事件主題聚類分析

更多相關文章： 文本挖掘 微博 LDA主題模型 主題演變

【摘要】：在當今的社會中,以互聯(lián)網為載體,產生了與電視、報紙、廣播等傳統(tǒng)媒體近乎對等的網絡媒體,這些新媒體經過不斷地發(fā)展,擁有大量的用戶基礎,它們也成為了社會輿論非常重要的陣地之一,典型的代表有網絡視頻網站、微博、微信等。這些網絡輿論陣地,表達的是群眾的意志,是無數網民自由表達觀點想法的平臺。通過這些平臺,網民隨時隨地發(fā)表身邊的新鮮事,或者發(fā)表對熱門微博話題的看法和觀點,而這些微博上的輿論信息能夠很好的反映人們真實的想法,能夠從中挖掘出許多有價值的信息。因此對這些平臺上的內容進行研究,有著許多重要的意義,比如輿情分析、新媒體營銷、品牌維護等。微博是基于關注關系形成的社交網絡,用戶可以發(fā)表少于140個字的文本,對別人的微博進行點贊、評論、轉發(fā)。隨著近幾年的發(fā)展,用戶數快速增長,每天都會生成海量的數據。隨著數據量的爆炸式增長,用戶越來越感覺到,從這些數據中獲取自己關心的有價值的信息越來越難。第一,微博內容五花八門,良莠不齊,充斥著許多垃圾信息；第二,對于特定事件,每個人看問題的角度或者目的不同,摻雜的情感也不同,所以都會有一些不同的看法；第三,隨著事件討論熱度變化,或者一些新的情況出現,事件的輿論發(fā)生改變,如何準確獲取這些演變,也是一個值得研究的問題。對微博的分析研究,有助于我們發(fā)現其中蘊含的-輿論觀點,感情傾向,為決策和預測提供可靠而寶貴的信息支撐。本文從文本挖掘的基本概念開始,討論了相關的算法和基本技術,文本的表示方法,文本挖掘的相關理論。接著詳述了LDA (Latent Dirichlet Allocation,潛在狄利克雷分布)主題模型,包括模型的數學基礎、評估、推斷。本文的主要研究工作有：1.通過新詞發(fā)現、詞頻TF和逆文檔頻率IDF進行詞級特征選擇,能夠很好的挑選出良好的特征,剔除不良特征；2.使用LDA主題模型對數據建模,然后進行主題聚類,分析主題的變化,提出了主題詞及其權重作為二元組的元素結合動態(tài)閾值進行新主題發(fā)現的方法；3.提出了“一篇短文本有且僅有一個主要主題”假設�；谶@個假設,使用文本主題分布中的主要主題作為分類決定因素,對文本進行分類,提出了一種先主題聚類再文本分類的方法。實驗中,面向有關巴黎恐怖襲擊微博數據和百度知道數據,采用本文提出的算法,對實驗結果進行分析,以驗證本文提出的方法。實驗結果分析表明,本文的特征選擇方法改進了LDA主題模型的建模效果；基于主題詞及其權重的新主題發(fā)現算法能夠很好的發(fā)現新主題,這些新主題對應著話題下的一些熱門子話題；基于主題聚類的文本分類方法,相比較傳統(tǒng)的K均值方法效果上有所提升。
【關鍵詞】：文本挖掘 微博 LDA主題模型 主題演變
【學位授予單位】：安徽大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要3-5
Abstract5-9
第一章緒論9-14
1.1 研究背景9-11
1.1.1 微博的發(fā)展9-10
1.1.2 研究目的和意義10-11
1.2 國內外研究現狀11-13
1.2.1 社交網絡研究11
1.2.2 微博情感分析11-12
1.2.3 微博內容研究12-13
1.3 論文主要工作13-14
第二章文本挖掘概述14-27
2.1 文本表示14-18
2.1.1 中文分詞和停用詞14-16
2.1.2 詞頻和逆文檔頻率16-17
2.1.3 向量空間模型17-18
2.2 文本分類18-22
2.2.1 分類的相關問題18-19
2.2.2 常見分類算法19-22
2.3 文本聚類22-26
2.3.1 聚類的相關問題22-23
2.3.2 扁平聚類算法23-24
2.3.3 層次聚類24-26
2.4 本章小結26-27
第三章 LDA主題模型27-41
3.1 隱性語義索引29-33
3.1.1 隱性語義索引29-30
3.1.2 概率隱性語義索引30-32
3.1.3 一元混合模型32-33
3.2 LDA主題模型33-40
3.2.1 LDA主題模型簡介33-34
3.2.2 LDA數學基礎34-36
3.2.3 LDA主題模型36-40
3.3 本章小結40-41
第四章微博主題分析和基于主題聚類的短文本分類41-63
4.1 主題聚類41-42
4.2 微博短文本分類42-45
4.3 算法設計與實驗分析45-62
4.3.1 實驗數據集和實驗環(huán)境45-47
4.3.2 詞級特征選擇：新詞發(fā)現、分詞、特征詞選擇47-55
4.3.3 主題演化和新主題發(fā)現55-59
4.3.4 短文本分類實驗59-62
4.4 本章小結62-63
第五章總結與展望63-65
5.1 全文工作總結63
5.2 未來工作展望63-65
參考文獻65-69
致謝69

【參考文獻】

中國期刊全文數據庫前10條

1 呂超鎮(zhèn);姬東鴻;吳飛飛;;基于LDA特征擴展的短文本分類[J];計算機工程與應用;2015年04期

2 吳信東;李毅;李磊;;在線社交網絡影響力分析[J];計算機學報;2014年04期

3 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學;2013年12期

4 唐曉波;房小可;;基于文本聚類與LDA相融合的微博主題檢索模型研究[J];情報理論與實踐;2013年08期

5 薛素芝;魯燃;任圓圓;;基于速度增長的微博熱點話題發(fā)現[J];計算機應用研究;2013年09期

6 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機應用與軟件;2013年03期

7 程亮;邱云飛;孫魯;;微博謠言檢測方法研究[J];計算機應用與軟件;2013年02期

8 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期

9 奉國和;吳敬學;;KNN分類算法改進研究進展[J];圖書情報工作;2012年21期

10 孫艷;周學廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學學報(自然科學版);2013年01期

中國博士學位論文全文數據庫前2條

1 陳曉美;網絡評論觀點知識發(fā)現研究[D];吉林大學;2014年

2 陳t熀，

本文編號：577323

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/577323.html

上一篇：面向智慧城市的智慧公交監(jiān)管平臺設計
下一篇：基于Spark平臺的K-means聚類算法改進及并行化實現

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

熱門微博話題事件主題聚類分析