基于MB-HDP模型的微博主題挖掘
本文關(guān)鍵詞:基于MB-HDP模型的微博主題挖掘
更多相關(guān)文章: 主題挖掘 微博 分層Dirichlet過程 MB-HDP
【摘要】:主題模型是挖掘微博潛在主題的重要工具.然而,現(xiàn)有的主題模型多由Latent Dirichlet Allocation(LDA)派生,它需要用戶預(yù)先指定主題數(shù)目.為了自動挖掘微博主題,作者提出了一個基于分層Dirichlet過程(Hierarchical Dirichlet Process,HDP)的非參數(shù)貝葉斯模型MB-HDP.首先,針對微博應(yīng)用場景,假設(shè)消息是不可交換的;接著,利用微博的時間信息、用戶興趣以及話題標(biāo)簽,聚合主題相關(guān)的消息以解決微博短文本的數(shù)據(jù)稀疏問題;然后,擴(kuò)展Chinese Restaurant Franchise(CRF)對微博數(shù)據(jù)進(jìn)行主題建模;最后,設(shè)計一個相應(yīng)的Markov Chain Monte Carlo(MCMC)采樣方法,推導(dǎo)MB-HDP模型的分布參數(shù).實驗表明,在生成主題質(zhì)量、內(nèi)容困惑度和模型復(fù)雜度等指標(biāo)上,MB-HDP模型明顯優(yōu)于LDA和HDP兩種模型.
【作者單位】: 中山大學(xué)信息科學(xué)與技術(shù)學(xué)院計算機(jī)科學(xué)系;
【關(guān)鍵詞】: 主題挖掘 微博 分層Dirichlet過程 MB-HDP
【基金】:國家自然科學(xué)基金(61033010,61272065,61472453,U1401256) 廣東省自然科學(xué)基金(S2011020001182,S2012010009311) 廣東省科技計劃項目(2011B040200007,2011B031700004,2012A010701013)資助~~
【分類號】:TP393.092;TP391.1
【正文快照】: 東省自然科學(xué)基金(S2011020001182,S2012010009311)、廣東省科技計劃項目(2011B040200007,2011B031700004,2012A010701013)資1引言Twitter是全球最流行的微博服務(wù),它允許用戶通過網(wǎng)頁、WAP頁面、外部程序和手機(jī)短信等發(fā)布140字符以內(nèi)的消息,實現(xiàn)信息分享.截止到2012年,Twitter
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機(jī)學(xué)報;2011年08期
2 周建英;王飛躍;曾大軍;;分層Dirichlet過程及其應(yīng)用綜述[J];自動化學(xué)報;2011年04期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱然;李德華;;新聞聚合系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)初探[J];電腦知識與技術(shù);2013年01期
2 葛昊;葉艷;包西林;吳敏;;基于主題模型的英語寫作批閱系統(tǒng)個性化推薦模塊設(shè)計與實現(xiàn)[J];科技和產(chǎn)業(yè);2013年06期
3 劉江鳴;徐金安;張玉潔;;基于隱主題馬爾科夫模型的多特征自動文摘[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期
4 鄭誠;熊大康;劉倩倩;;基于卡方特征選擇和LDA主題模型的中文短文本分類[J];電腦知識與技術(shù);2014年13期
5 鄒曉輝;孫靜;;LDA主題模型[J];智能計算機(jī)與應(yīng)用;2014年05期
6 章登義;歐陽黜霏;吳文李;;針對時間序列多步預(yù)測的聚類隱馬爾科夫模型[J];電子學(xué)報;2014年12期
7 張學(xué)峰;陳渤;王鵬輝;劉宏偉;;一種基于Dirichelt過程隱變量支撐向量機(jī)模型的目標(biāo)識別方法[J];電子與信息學(xué)報;2015年01期
8 陽小蘭;錢程;;基于主題提取和記憶模型的新聞推薦系統(tǒng)設(shè)計[J];計算機(jī)與數(shù)字工程;2012年06期
9 張素蘭;郭平;張繼福;胡立華;;圖像語義自動標(biāo)注及其粒度分析方法[J];自動化學(xué)報;2012年05期
10 梁鵬;黎紹發(fā);覃姜維;羅劍高;;基于半監(jiān)督學(xué)習(xí)的增量圖像分類方法[J];模式識別與人工智能;2012年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學(xué)術(shù)會議論文集(第五分冊)[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張磊;基于機(jī)器學(xué)習(xí)的圖像檢索若干問題研究[D];山東大學(xué);2011年
2 黃雙萍;通用視覺目標(biāo)識別的關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
3 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
4 蔡偉宏;基于非參數(shù)貝葉斯方法的資產(chǎn)配置[D];華中科技大學(xué);2012年
5 張冬梅;文本情感分類及觀點摘要關(guān)鍵問題研究[D];山東大學(xué);2012年
6 賈冬梅;基于數(shù)據(jù)挖掘方法的聶莉芳教授治療慢性腎小球腎炎經(jīng)驗研究[D];中國中醫(yī)科學(xué)院;2012年
7 朱浩;一類動態(tài)貝葉斯網(wǎng)絡(luò)模型及其應(yīng)用研究[D];重慶大學(xué);2012年
8 孟憲勇;圖模型基礎(chǔ)理論研究[D];東北師范大學(xué);2012年
9 解曉萌;復(fù)雜背景下運動目標(biāo)檢測和識別關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2012年
10 王志軍;面向標(biāo)識商品的RFID網(wǎng)絡(luò)情境信息管理研究[D];東華大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉紅艷;基于hLDA層次主題模型的多文檔摘要技術(shù)研究[D];北京郵電大學(xué);2012年
2 孫昌年;基于主題模型的文本相似度計算研究與實現(xiàn)[D];安徽大學(xué);2012年
3 劉兵強(qiáng);流形學(xué)習(xí)方法預(yù)測MicroRNA[D];燕山大學(xué);2012年
4 高永強(qiáng);非類別限定的物體識別學(xué)習(xí)模型構(gòu)建[D];南華大學(xué);2012年
5 孔寧;文獻(xiàn)學(xué)科特征挖掘及分類研究[D];東北林業(yè)大學(xué);2012年
6 何明哲;語音片段檢索算法的研究與應(yīng)用[D];華南理工大學(xué);2012年
7 李丕績;WEB圖像排序與互摘要[D];山東大學(xué);2012年
8 崇信毅;基于視頻監(jiān)控數(shù)據(jù)的人群行為分析[D];北京交通大學(xué);2012年
9 鄒鴻程;微博話題檢測與追蹤技術(shù)研究[D];解放軍信息工程大學(xué);2012年
10 韓永峰;網(wǎng)絡(luò)新聞突發(fā)事件信息抽取技術(shù)研究[D];解放軍信息工程大學(xué);2012年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機(jī)學(xué)報;2008年04期
2 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J];計算機(jī)學(xué)報;2008年10期
3 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機(jī)學(xué)報;2008年10期
4 徐謙;周俊生;陳家駿;;Dirichlet過程及其在自然語言處理中的應(yīng)用[J];中文信息學(xué)報;2009年05期
,本文編號:904298
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/904298.html