結(jié)合互信息和主題模型的微博話題發(fā)現(xiàn)方法
本文選題:詞共現(xiàn)矩陣 + 對(duì)稱(chēng)非負(fù)矩陣分解 ; 參考:《計(jì)算機(jī)工程與應(yīng)用》2016年06期
【摘要】:為了解決短文本信息流的特征稀疏性對(duì)熱點(diǎn)話題發(fā)現(xiàn)帶來(lái)的挑戰(zhàn),提出了結(jié)合詞語(yǔ)互信息和概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法。通過(guò)建立詞共現(xiàn)矩陣并應(yīng)用對(duì)稱(chēng)非負(fù)矩陣分解算法獲取詞項(xiàng)-主題矩陣,再利用概率潛在語(yǔ)義分析模型進(jìn)行主題發(fā)現(xiàn),最終通過(guò)定義微博熱度分析和排序,有效地支持微博熱點(diǎn)話題發(fā)現(xiàn)。實(shí)驗(yàn)表明,此方法能有效地進(jìn)行話題聚類(lèi)并檢測(cè)出熱點(diǎn)話題。
[Abstract]:In order to solve the challenge of feature sparsity of short text information flow to hot topic discovery, a method of Weibo hot topic discovery based on word mutual information and probabilistic topic model is proposed.By establishing word co-occurrence matrix and applying symmetric non-negative matrix decomposition algorithm to obtain word item-topic matrix, and then using probabilistic latent semantic analysis model to discover topic, finally, by defining Weibo heat degree analysis and ranking.Effectively support Weibo hot topic discovery.Experiments show that this method can effectively cluster and detect hot topics.
【作者單位】: 西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(No.61163039,No.61363058) 甘肅省教育廳項(xiàng)目(No.2013A-016)
【分類(lèi)號(hào)】:TP391.1;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類(lèi)方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年12期
10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹(shù)比較的Web頁(yè)面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
相關(guān)會(huì)議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 解琰;主題優(yōu)化過(guò)濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁(yè)的搜索結(jié)果聚類(lèi)方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲(chóng)及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)[D];哈爾濱工業(yè)大學(xué);2013年
,本文編號(hào):1767698
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1767698.html