基于潛在語義分析的微博主題挖掘模型研究
本文關(guān)鍵詞: 微博 短文本 主題挖掘 LDA模型 增量聚類 出處:《圖書情報(bào)工作》2012年24期 論文類型:期刊論文
【摘要】:為了彌補(bǔ)目前微博平臺主題挖掘方法的不足,兼顧到微博信息的稀疏性、多維性、海量性等特點(diǎn),提出根據(jù)微博信息特點(diǎn)進(jìn)行有針對性的預(yù)處理后,使用基于先驗(yàn)概率的潛在語義分析模型LDA(Latent Dirichlet Alloca-tion)進(jìn)行微博主題挖掘,并在LDA建模的基礎(chǔ)上,設(shè)計(jì)文本增量聚類算法,進(jìn)一步實(shí)現(xiàn)主題結(jié)構(gòu)的識別,從而使用戶更好地理解主題及其結(jié)構(gòu)。通過在真實(shí)微博數(shù)據(jù)集上的實(shí)驗(yàn),證明該模型能有效進(jìn)行主題挖掘和主題結(jié)構(gòu)的識別。
[Abstract]:In order to make up for the deficiency of the current method of topic mining of Weibo platform, and to take into account the characteristics of the sparsity, multi-dimension and magnanimity of Weibo information, it is proposed that after the targeted preprocessing is carried out according to the characteristics of Weibo information, Based on the priori probabilistic latent semantic analysis model LDA(Latent Dirichlet Alloca-tion, Weibo topic mining is carried out, and on the basis of LDA modeling, a text incremental clustering algorithm is designed to further realize the recognition of topic structure. Through experiments on real Weibo data set, it is proved that the model can be used effectively for topic mining and topic structure recognition.
【作者單位】: 武漢大學(xué)信息資源研究中心;
【基金】:國家自然科學(xué)基金資助項(xiàng)目“社會化媒體集成檢索與語義分析方法研究”(項(xiàng)目編號:71273194) 教育部人文社會科學(xué)重點(diǎn)研究基地重大項(xiàng)目“面向決策的企業(yè)信息資源集成研究”(項(xiàng)目編號:2009JJD870002)研究成果之一
【分類號】:H030;G206
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計(jì)算機(jī)科學(xué);2012年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 程亮;邱云飛;孫魯;;微博謠言檢測方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2013年02期
2 趙文清;侯小可;;基于詞共現(xiàn)圖的中文微博新聞話題識別[J];智能系統(tǒng)學(xué)報(bào);2012年05期
相關(guān)碩士學(xué)位論文 前1條
1 麥藝華;面向中文微博的社會網(wǎng)絡(luò)分析及應(yīng)用[D];華南理工大學(xué);2012年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報(bào);2007年06期
2 曹鵬;李靜遠(yuǎn);滿彤;劉悅;程學(xué)旗;;Twitter中近似重復(fù)消息的判定方法研究[J];中文信息學(xué)報(bào);2011年01期
3 崔爭艷;;基于語義的微博短信息分類[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年08期
4 蔡曉婷;;突發(fā)性事件中的微博客傳播[J];新聞愛好者;2010年11期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 崔秀美;;微博在語言教學(xué)中的應(yīng)用探究[J];中國教育技術(shù)裝備;2010年36期
2 姜珍婷;周凱;;從微博看現(xiàn)代漢語新變化[J];江西科技師范學(xué)院學(xué)報(bào);2010年04期
3 李高新;;微博在語言教學(xué)中的應(yīng)用[J];考試周刊;2010年53期
4 張曼;;微博新詞新語探析[J];學(xué)理論;2011年23期
5 辛亞寧;;說“微博”[J];現(xiàn)代語文(語言研究版);2010年09期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)碩士學(xué)位論文 前5條
1 李新娟;微博熱門話題意義生成的符號學(xué)分析[D];西北師范大學(xué);2012年
2 鄔智慧;中文微博的語體特征研究[D];華中師范大學(xué);2012年
3 張昕;微博中的漢英語碼轉(zhuǎn)換分析[D];重慶師范大學(xué);2011年
4 向昭;微博言語交際特征研究[D];吉林大學(xué);2012年
5 陳萌;“微時(shí)代”背景下的社會流行用語研究[D];上海外國語大學(xué);2013年
,本文編號:1511373
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/1511373.html