基于主題樹的微博突發(fā)話題檢測
本文關(guān)鍵詞:基于主題樹的微博突發(fā)話題檢測
更多相關(guān)文章: 潛在狄利克雷分配 主題樹 語義相似度 空間向量模型 話題檢測
【摘要】:針對傳統(tǒng)話題檢測方法不能很好處理微博中用語不規(guī)范、隨意性強(qiáng)、指代不明確以及存在大量網(wǎng)絡(luò)用語的問題,提出了一種基于潛在狄利克雷分配(LDA)模型的主題樹檢測方法。首先,運(yùn)用自然語言處理(NLP)中增大信息熵的方法將相關(guān)微博整理成一棵主題樹,配合狄利克雷先驗α與經(jīng)驗值β隨主題數(shù)目動態(tài)變化的設(shè)計思想,結(jié)合該模型獨(dú)特的雙重概率統(tǒng)計模式,實現(xiàn)了對文本中每個詞"貢獻(xiàn)度"的統(tǒng)計,提前處理掉干擾信息,排除垃圾數(shù)據(jù)對話題檢測的影響;然后,利用該"貢獻(xiàn)度"作為空間向量模型(VSM)改進(jìn)后的參數(shù)值計算文檔間相似度來提取突發(fā)話題,達(dá)到提高突發(fā)話題檢測精準(zhǔn)度的目的。提出的基于LDA模型的主題樹檢測方法從F值比對與人工檢測兩個角度進(jìn)行了相關(guān)實驗,實驗數(shù)據(jù)顯示該算法不僅可以檢測到突發(fā)話題,而且獲得的結(jié)果與知網(wǎng)模型和TF-IDF算法相比分別高出3%、7%,且更符合人的判斷邏輯。
【作者單位】: 遼寧工程技術(shù)大學(xué)軟件學(xué)院;遼寧工程技術(shù)大學(xué)系統(tǒng)工程研究所;
【關(guān)鍵詞】: 潛在狄利克雷分配 主題樹 語義相似度 空間向量模型 話題檢測
【基金】:國家自然科學(xué)基金資助項目(70971059) 遼寧省創(chuàng)新團(tuán)隊項目(2009T045) 遼寧省高等學(xué)校杰出青年學(xué)者成長計劃項目(LJQ2012027)
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言微博,即微博客的簡稱,其在博客的基礎(chǔ)上加以改進(jìn),使得微博更加大眾化、隨意化和簡短化[1],但隨之也帶來了許多問題:首先,微博的普遍化導(dǎo)致當(dāng)今微博的草根化(短文本中出現(xiàn)了較多的文法問題);其次,微博改進(jìn)后的簡短形式導(dǎo)致短文本中指代省略,引起指代不明確(短文本回帖多數(shù)
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計算技術(shù)與自動化;2007年03期
2 李興鵬;秦昌友;;垃圾郵件綜合過濾系統(tǒng)的研究與設(shè)計[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年19期
3 熊桂喜;王開鋒;;基于語義的查詢擴(kuò)展研究[J];微計算機(jī)信息;2008年30期
4 黃立勤;語義集成在信息自動獲取系統(tǒng)中的實現(xiàn)[J];福州大學(xué)學(xué)報(自然科學(xué)版);2002年06期
5 時念云;楊晨;;基于領(lǐng)域本體的語義標(biāo)注方法研究[J];計算機(jī)工程與設(shè)計;2007年24期
6 蔡瑋;黃陳蓉;林忠;韓磊;;一種基于向量空間模型的主觀題批改算法[J];計算機(jī)與現(xiàn)代化;2008年12期
7 劉楊;陳暉;陳遠(yuǎn)江;;中文文本信息過濾技術(shù)研究[J];船電技術(shù);2010年07期
8 趙德平;蔡麗靜;李鵬;;基于Newshingling的相似文本檢測算法[J];沈陽建筑大學(xué)學(xué)報(自然科學(xué)版);2011年04期
9 張昌年;;一種基于VSM的檢測相似重復(fù)記錄的方法[J];微電子學(xué)與計算機(jī);2008年08期
10 林鴻飛,王劍峰;雙語交叉分類模型的設(shè)計與實現(xiàn)[J];中文信息學(xué)報;2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 閻紅燦;面向Web的XML文檔數(shù)據(jù)管理及分類檢索技術(shù)研究[D];天津大學(xué);2009年
2 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
3 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
4 豆增發(fā);生物命名實體識別及生物文本分類[D];西安電子科技大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 疏興旺;基于地理本體的皖江岸線空間規(guī)劃決策研究[D];安徽農(nóng)業(yè)大學(xué);2012年
2 賈丙靜;聚類分析在Web文本挖掘中的應(yīng)用研究[D];遼寧工程技術(shù)大學(xué);2007年
3 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年
4 張艷;Web挖掘在搜索引擎?zhèn)性化中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2008年
5 黃歡;達(dá)夢數(shù)據(jù)庫全文檢索關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2007年
6 劉玉新;Web2.0互聯(lián)網(wǎng)在線話題發(fā)現(xiàn)和熱度評估[D];華南理工大學(xué);2013年
7 顏小林;基于本體的Web頁面聚類挖掘[D];太原理工大學(xué);2007年
8 丁瓊;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[D];同濟(jì)大學(xué);2007年
9 王海寶;基于Web的在線考試系統(tǒng)的設(shè)計與實現(xiàn)[D];青島大學(xué);2007年
10 張瑜;基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)研究[D];中國農(nóng)業(yè)科學(xué)院;2009年
,本文編號:735900
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/735900.html