熱門微博話題事件主題聚類分析
本文關鍵詞:熱門微博話題事件主題聚類分析
【摘要】:在當今的社會中,以互聯(lián)網為載體,產生了與電視、報紙、廣播等傳統(tǒng)媒體近乎對等的網絡媒體,這些新媒體經過不斷地發(fā)展,擁有大量的用戶基礎,它們也成為了社會輿論非常重要的陣地之一,典型的代表有網絡視頻網站、微博、微信等。這些網絡輿論陣地,表達的是群眾的意志,是無數網民自由表達觀點想法的平臺。通過這些平臺,網民隨時隨地發(fā)表身邊的新鮮事,或者發(fā)表對熱門微博話題的看法和觀點,而這些微博上的輿論信息能夠很好的反映人們真實的想法,能夠從中挖掘出許多有價值的信息。因此對這些平臺上的內容進行研究,有著許多重要的意義,比如輿情分析、新媒體營銷、品牌維護等。微博是基于關注關系形成的社交網絡,用戶可以發(fā)表少于140個字的文本,對別人的微博進行點贊、評論、轉發(fā)。隨著近幾年的發(fā)展,用戶數快速增長,每天都會生成海量的數據。隨著數據量的爆炸式增長,用戶越來越感覺到,從這些數據中獲取自己關心的有價值的信息越來越難。第一,微博內容五花八門,良莠不齊,充斥著許多垃圾信息;第二,對于特定事件,每個人看問題的角度或者目的不同,摻雜的情感也不同,所以都會有一些不同的看法;第三,隨著事件討論熱度變化,或者一些新的情況出現,事件的輿論發(fā)生改變,如何準確獲取這些演變,也是一個值得研究的問題。對微博的分析研究,有助于我們發(fā)現其中蘊含的-輿論觀點,感情傾向,為決策和預測提供可靠而寶貴的信息支撐。本文從文本挖掘的基本概念開始,討論了相關的算法和基本技術,文本的表示方法,文本挖掘的相關理論。接著詳述了LDA (Latent Dirichlet Allocation,潛在狄利克雷分布)主題模型,包括模型的數學基礎、評估、推斷。本文的主要研究工作有:1.通過新詞發(fā)現、詞頻TF和逆文檔頻率IDF進行詞級特征選擇,能夠很好的挑選出良好的特征,剔除不良特征;2.使用LDA主題模型對數據建模,然后進行主題聚類,分析主題的變化,提出了主題詞及其權重作為二元組的元素結合動態(tài)閾值進行新主題發(fā)現的方法;3.提出了“一篇短文本有且僅有一個主要主題”假設;谶@個假設,使用文本主題分布中的主要主題作為分類決定因素,對文本進行分類,提出了一種先主題聚類再文本分類的方法。實驗中,面向有關巴黎恐怖襲擊微博數據和百度知道數據,采用本文提出的算法,對實驗結果進行分析,以驗證本文提出的方法。實驗結果分析表明,本文的特征選擇方法改進了LDA主題模型的建模效果;基于主題詞及其權重的新主題發(fā)現算法能夠很好的發(fā)現新主題,這些新主題對應著話題下的一些熱門子話題;基于主題聚類的文本分類方法,相比較傳統(tǒng)的K均值方法效果上有所提升。
【關鍵詞】:文本挖掘 微博 LDA主題模型 主題演變
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-14
- 1.1 研究背景9-11
- 1.1.1 微博的發(fā)展9-10
- 1.1.2 研究目的和意義10-11
- 1.2 國內外研究現狀11-13
- 1.2.1 社交網絡研究11
- 1.2.2 微博情感分析11-12
- 1.2.3 微博內容研究12-13
- 1.3 論文主要工作13-14
- 第二章 文本挖掘概述14-27
- 2.1 文本表示14-18
- 2.1.1 中文分詞和停用詞14-16
- 2.1.2 詞頻和逆文檔頻率16-17
- 2.1.3 向量空間模型17-18
- 2.2 文本分類18-22
- 2.2.1 分類的相關問題18-19
- 2.2.2 常見分類算法19-22
- 2.3 文本聚類22-26
- 2.3.1 聚類的相關問題22-23
- 2.3.2 扁平聚類算法23-24
- 2.3.3 層次聚類24-26
- 2.4 本章小結26-27
- 第三章 LDA主題模型27-41
- 3.1 隱性語義索引29-33
- 3.1.1 隱性語義索引29-30
- 3.1.2 概率隱性語義索引30-32
- 3.1.3 一元混合模型32-33
- 3.2 LDA主題模型33-40
- 3.2.1 LDA主題模型簡介33-34
- 3.2.2 LDA數學基礎34-36
- 3.2.3 LDA主題模型36-40
- 3.3 本章小結40-41
- 第四章 微博主題分析和基于主題聚類的短文本分類41-63
- 4.1 主題聚類41-42
- 4.2 微博短文本分類42-45
- 4.3 算法設計與實驗分析45-62
- 4.3.1 實驗數據集和實驗環(huán)境45-47
- 4.3.2 詞級特征選擇:新詞發(fā)現、分詞、特征詞選擇47-55
- 4.3.3 主題演化和新主題發(fā)現55-59
- 4.3.4 短文本分類實驗59-62
- 4.4 本章小結62-63
- 第五章 總結與展望63-65
- 5.1 全文工作總結63
- 5.2 未來工作展望63-65
- 參考文獻65-69
- 致謝69
【參考文獻】
中國期刊全文數據庫 前10條
1 呂超鎮(zhèn);姬東鴻;吳飛飛;;基于LDA特征擴展的短文本分類[J];計算機工程與應用;2015年04期
2 吳信東;李毅;李磊;;在線社交網絡影響力分析[J];計算機學報;2014年04期
3 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學;2013年12期
4 唐曉波;房小可;;基于文本聚類與LDA相融合的微博主題檢索模型研究[J];情報理論與實踐;2013年08期
5 薛素芝;魯燃;任圓圓;;基于速度增長的微博熱點話題發(fā)現[J];計算機應用研究;2013年09期
6 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機應用與軟件;2013年03期
7 程亮;邱云飛;孫魯;;微博謠言檢測方法研究[J];計算機應用與軟件;2013年02期
8 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期
9 奉國和;吳敬學;;KNN分類算法改進研究進展[J];圖書情報工作;2012年21期
10 孫艷;周學廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學學報(自然科學版);2013年01期
中國博士學位論文全文數據庫 前2條
1 陳曉美;網絡評論觀點知識發(fā)現研究[D];吉林大學;2014年
2 陳t熀,
本文編號:577323
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/577323.html