面向短文本流的主題演化分析研究
發(fā)布時間:2021-03-27 00:17
隨著互聯(lián)網的快速發(fā)展,微博、電子商務、論壇、微信等網絡平臺已經得到了廣泛的應用,這些網絡平臺所產生的短文本信息都以數(shù)據(jù)流的形式動態(tài)產生和實時更新?焖傺莼亩涛谋緮(shù)據(jù)流使得我們迫切需要一種行之有效的分析工具來實時監(jiān)測短文本數(shù)據(jù)流中產生的主題及其演化過程,這對輿情疏導、社會網絡分析、熱點事件挖掘、新興話題追蹤等意義重大。面向短文本數(shù)據(jù)流的主題演化分析是抽取短文本數(shù)據(jù)流主題及其演化過程的重要手段。這種方法可以實時分析社交媒體上的熱點事件,從而協(xié)助監(jiān)測部門及時做出響應措施。但是,由于短文本流的文本長度較短、用語不規(guī)范等特點,使得傳統(tǒng)主題演化分析方法面臨以下四個問題:(1)難以對高冗余、高噪音的海量短文本流進行有效管理,存儲和挖掘時空開銷較大;(2)現(xiàn)有短文本主題建模聚合方法通常需要外部輔助信息,泛化能力較差;(3)由于短文本的長度有限,上下文特征非常稀疏,使得面向短文本的主題抽取效果不佳。(4)現(xiàn)有的主題演化分析方法主要針對新聞、網頁這樣的長文本,僅采用文本特征度量主題間的關聯(lián)性。而短文本長度短,且文本特征不足,僅依靠文本特征很難準確度量主題間的關聯(lián)關系。針對上述問題,本文構建了一個面向短文...
【文章來源】:武漢大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:139 頁
【學位級別】:博士
【部分圖文】:
基于LLT框架的短文本數(shù)據(jù)流存儲示例
短文本流統(tǒng)計分析信息
多樣性參數(shù)對高質量短文本采樣的影響
本文編號:3102507
【文章來源】:武漢大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:139 頁
【學位級別】:博士
【部分圖文】:
基于LLT框架的短文本數(shù)據(jù)流存儲示例
短文本流統(tǒng)計分析信息
多樣性參數(shù)對高質量短文本采樣的影響
本文編號:3102507
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3102507.html
最近更新
教材專著