天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

熱門微博話題事件主題聚類分析

發(fā)布時間:2017-07-26 16:28

  本文關(guān)鍵詞:熱門微博話題事件主題聚類分析


  更多相關(guān)文章: 文本挖掘 微博 LDA主題模型 主題演變


【摘要】:在當今的社會中,以互聯(lián)網(wǎng)為載體,產(chǎn)生了與電視、報紙、廣播等傳統(tǒng)媒體近乎對等的網(wǎng)絡(luò)媒體,這些新媒體經(jīng)過不斷地發(fā)展,擁有大量的用戶基礎(chǔ),它們也成為了社會輿論非常重要的陣地之一,典型的代表有網(wǎng)絡(luò)視頻網(wǎng)站、微博、微信等。這些網(wǎng)絡(luò)輿論陣地,表達的是群眾的意志,是無數(shù)網(wǎng)民自由表達觀點想法的平臺。通過這些平臺,網(wǎng)民隨時隨地發(fā)表身邊的新鮮事,或者發(fā)表對熱門微博話題的看法和觀點,而這些微博上的輿論信息能夠很好的反映人們真實的想法,能夠從中挖掘出許多有價值的信息。因此對這些平臺上的內(nèi)容進行研究,有著許多重要的意義,比如輿情分析、新媒體營銷、品牌維護等。微博是基于關(guān)注關(guān)系形成的社交網(wǎng)絡(luò),用戶可以發(fā)表少于140個字的文本,對別人的微博進行點贊、評論、轉(zhuǎn)發(fā)。隨著近幾年的發(fā)展,用戶數(shù)快速增長,每天都會生成海量的數(shù)據(jù)。隨著數(shù)據(jù)量的爆炸式增長,用戶越來越感覺到,從這些數(shù)據(jù)中獲取自己關(guān)心的有價值的信息越來越難。第一,微博內(nèi)容五花八門,良莠不齊,充斥著許多垃圾信息;第二,對于特定事件,每個人看問題的角度或者目的不同,摻雜的情感也不同,所以都會有一些不同的看法;第三,隨著事件討論熱度變化,或者一些新的情況出現(xiàn),事件的輿論發(fā)生改變,如何準確獲取這些演變,也是一個值得研究的問題。對微博的分析研究,有助于我們發(fā)現(xiàn)其中蘊含的-輿論觀點,感情傾向,為決策和預(yù)測提供可靠而寶貴的信息支撐。本文從文本挖掘的基本概念開始,討論了相關(guān)的算法和基本技術(shù),文本的表示方法,文本挖掘的相關(guān)理論。接著詳述了LDA (Latent Dirichlet Allocation,潛在狄利克雷分布)主題模型,包括模型的數(shù)學基礎(chǔ)、評估、推斷。本文的主要研究工作有:1.通過新詞發(fā)現(xiàn)、詞頻TF和逆文檔頻率IDF進行詞級特征選擇,能夠很好的挑選出良好的特征,剔除不良特征;2.使用LDA主題模型對數(shù)據(jù)建模,然后進行主題聚類,分析主題的變化,提出了主題詞及其權(quán)重作為二元組的元素結(jié)合動態(tài)閾值進行新主題發(fā)現(xiàn)的方法;3.提出了“一篇短文本有且僅有一個主要主題”假設(shè);谶@個假設(shè),使用文本主題分布中的主要主題作為分類決定因素,對文本進行分類,提出了一種先主題聚類再文本分類的方法。實驗中,面向有關(guān)巴黎恐怖襲擊微博數(shù)據(jù)和百度知道數(shù)據(jù),采用本文提出的算法,對實驗結(jié)果進行分析,以驗證本文提出的方法。實驗結(jié)果分析表明,本文的特征選擇方法改進了LDA主題模型的建模效果;基于主題詞及其權(quán)重的新主題發(fā)現(xiàn)算法能夠很好的發(fā)現(xiàn)新主題,這些新主題對應(yīng)著話題下的一些熱門子話題;基于主題聚類的文本分類方法,相比較傳統(tǒng)的K均值方法效果上有所提升。
【關(guān)鍵詞】:文本挖掘 微博 LDA主題模型 主題演變
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要3-5
  • Abstract5-9
  • 第一章 緒論9-14
  • 1.1 研究背景9-11
  • 1.1.1 微博的發(fā)展9-10
  • 1.1.2 研究目的和意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-13
  • 1.2.1 社交網(wǎng)絡(luò)研究11
  • 1.2.2 微博情感分析11-12
  • 1.2.3 微博內(nèi)容研究12-13
  • 1.3 論文主要工作13-14
  • 第二章 文本挖掘概述14-27
  • 2.1 文本表示14-18
  • 2.1.1 中文分詞和停用詞14-16
  • 2.1.2 詞頻和逆文檔頻率16-17
  • 2.1.3 向量空間模型17-18
  • 2.2 文本分類18-22
  • 2.2.1 分類的相關(guān)問題18-19
  • 2.2.2 常見分類算法19-22
  • 2.3 文本聚類22-26
  • 2.3.1 聚類的相關(guān)問題22-23
  • 2.3.2 扁平聚類算法23-24
  • 2.3.3 層次聚類24-26
  • 2.4 本章小結(jié)26-27
  • 第三章 LDA主題模型27-41
  • 3.1 隱性語義索引29-33
  • 3.1.1 隱性語義索引29-30
  • 3.1.2 概率隱性語義索引30-32
  • 3.1.3 一元混合模型32-33
  • 3.2 LDA主題模型33-40
  • 3.2.1 LDA主題模型簡介33-34
  • 3.2.2 LDA數(shù)學基礎(chǔ)34-36
  • 3.2.3 LDA主題模型36-40
  • 3.3 本章小結(jié)40-41
  • 第四章 微博主題分析和基于主題聚類的短文本分類41-63
  • 4.1 主題聚類41-42
  • 4.2 微博短文本分類42-45
  • 4.3 算法設(shè)計與實驗分析45-62
  • 4.3.1 實驗數(shù)據(jù)集和實驗環(huán)境45-47
  • 4.3.2 詞級特征選擇:新詞發(fā)現(xiàn)、分詞、特征詞選擇47-55
  • 4.3.3 主題演化和新主題發(fā)現(xiàn)55-59
  • 4.3.4 短文本分類實驗59-62
  • 4.4 本章小結(jié)62-63
  • 第五章 總結(jié)與展望63-65
  • 5.1 全文工作總結(jié)63
  • 5.2 未來工作展望63-65
  • 參考文獻65-69
  • 致謝69

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 呂超鎮(zhèn);姬東鴻;吳飛飛;;基于LDA特征擴展的短文本分類[J];計算機工程與應(yīng)用;2015年04期

2 吳信東;李毅;李磊;;在線社交網(wǎng)絡(luò)影響力分析[J];計算機學報;2014年04期

3 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學;2013年12期

4 唐曉波;房小可;;基于文本聚類與LDA相融合的微博主題檢索模型研究[J];情報理論與實踐;2013年08期

5 薛素芝;魯燃;任圓圓;;基于速度增長的微博熱點話題發(fā)現(xiàn)[J];計算機應(yīng)用研究;2013年09期

6 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機應(yīng)用與軟件;2013年03期

7 程亮;邱云飛;孫魯;;微博謠言檢測方法研究[J];計算機應(yīng)用與軟件;2013年02期

8 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期

9 奉國和;吳敬學;;KNN分類算法改進研究進展[J];圖書情報工作;2012年21期

10 孫艷;周學廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學學報(自然科學版);2013年01期

中國博士學位論文全文數(shù)據(jù)庫 前2條

1 陳曉美;網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D];吉林大學;2014年

2 陳t熀,

本文編號:577323


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/577323.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6116***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com