基于主題樹(shù)的微博突發(fā)話題檢測(cè)
本文關(guān)鍵詞:基于主題樹(shù)的微博突發(fā)話題檢測(cè)
更多相關(guān)文章: 潛在狄利克雷分配 主題樹(shù) 語(yǔ)義相似度 空間向量模型 話題檢測(cè)
【摘要】:針對(duì)傳統(tǒng)話題檢測(cè)方法不能很好處理微博中用語(yǔ)不規(guī)范、隨意性強(qiáng)、指代不明確以及存在大量網(wǎng)絡(luò)用語(yǔ)的問(wèn)題,提出了一種基于潛在狄利克雷分配(LDA)模型的主題樹(shù)檢測(cè)方法。首先,運(yùn)用自然語(yǔ)言處理(NLP)中增大信息熵的方法將相關(guān)微博整理成一棵主題樹(shù),配合狄利克雷先驗(yàn)α與經(jīng)驗(yàn)值β隨主題數(shù)目動(dòng)態(tài)變化的設(shè)計(jì)思想,結(jié)合該模型獨(dú)特的雙重概率統(tǒng)計(jì)模式,實(shí)現(xiàn)了對(duì)文本中每個(gè)詞"貢獻(xiàn)度"的統(tǒng)計(jì),提前處理掉干擾信息,排除垃圾數(shù)據(jù)對(duì)話題檢測(cè)的影響;然后,利用該"貢獻(xiàn)度"作為空間向量模型(VSM)改進(jìn)后的參數(shù)值計(jì)算文檔間相似度來(lái)提取突發(fā)話題,達(dá)到提高突發(fā)話題檢測(cè)精準(zhǔn)度的目的。提出的基于LDA模型的主題樹(shù)檢測(cè)方法從F值比對(duì)與人工檢測(cè)兩個(gè)角度進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)顯示該算法不僅可以檢測(cè)到突發(fā)話題,而且獲得的結(jié)果與知網(wǎng)模型和TF-IDF算法相比分別高出3%、7%,且更符合人的判斷邏輯。
【作者單位】: 遼寧工程技術(shù)大學(xué)軟件學(xué)院;遼寧工程技術(shù)大學(xué)系統(tǒng)工程研究所;
【關(guān)鍵詞】: 潛在狄利克雷分配 主題樹(shù) 語(yǔ)義相似度 空間向量模型 話題檢測(cè)
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(70971059) 遼寧省創(chuàng)新團(tuán)隊(duì)項(xiàng)目(2009T045) 遼寧省高等學(xué)校杰出青年學(xué)者成長(zhǎng)計(jì)劃項(xiàng)目(LJQ2012027)
【分類(lèi)號(hào)】:TP393.092;TP391.1
【正文快照】: 0引言微博,即微博客的簡(jiǎn)稱(chēng),其在博客的基礎(chǔ)上加以改進(jìn),使得微博更加大眾化、隨意化和簡(jiǎn)短化[1],但隨之也帶來(lái)了許多問(wèn)題:首先,微博的普遍化導(dǎo)致當(dāng)今微博的草根化(短文本中出現(xiàn)了較多的文法問(wèn)題);其次,微博改進(jìn)后的簡(jiǎn)短形式導(dǎo)致短文本中指代省略,引起指代不明確(短文本回帖多數(shù)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李建鋒;陳佳良;張美華;;一種基于聚類(lèi)-遺傳算法的文摘提取方法研究[J];計(jì)算技術(shù)與自動(dòng)化;2007年03期
2 李興鵬;秦昌友;;垃圾郵件綜合過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年19期
3 熊桂喜;王開(kāi)鋒;;基于語(yǔ)義的查詢擴(kuò)展研究[J];微計(jì)算機(jī)信息;2008年30期
4 黃立勤;語(yǔ)義集成在信息自動(dòng)獲取系統(tǒng)中的實(shí)現(xiàn)[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年06期
5 時(shí)念云;楊晨;;基于領(lǐng)域本體的語(yǔ)義標(biāo)注方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年24期
6 蔡瑋;黃陳蓉;林忠;韓磊;;一種基于向量空間模型的主觀題批改算法[J];計(jì)算機(jī)與現(xiàn)代化;2008年12期
7 劉楊;陳暉;陳遠(yuǎn)江;;中文文本信息過(guò)濾技術(shù)研究[J];船電技術(shù);2010年07期
8 趙德平;蔡麗靜;李鵬;;基于Newshingling的相似文本檢測(cè)算法[J];沈陽(yáng)建筑大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
9 張昌年;;一種基于VSM的檢測(cè)相似重復(fù)記錄的方法[J];微電子學(xué)與計(jì)算機(jī);2008年08期
10 林鴻飛,王劍峰;雙語(yǔ)交叉分類(lèi)模型的設(shè)計(jì)與實(shí)現(xiàn)[J];中文信息學(xué)報(bào);2001年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 唐國(guó)瑜;夏云慶;張民;鄭方;;基于跨語(yǔ)言廣義向量空間模型的跨語(yǔ)言文檔聚類(lèi)方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 閻紅燦;面向Web的XML文檔數(shù)據(jù)管理及分類(lèi)檢索技術(shù)研究[D];天津大學(xué);2009年
2 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
3 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
4 豆增發(fā);生物命名實(shí)體識(shí)別及生物文本分類(lèi)[D];西安電子科技大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 疏興旺;基于地理本體的皖江岸線空間規(guī)劃決策研究[D];安徽農(nóng)業(yè)大學(xué);2012年
2 賈丙靜;聚類(lèi)分析在Web文本挖掘中的應(yīng)用研究[D];遼寧工程技術(shù)大學(xué);2007年
3 潘啟蒙;文本聚類(lèi)算法的研究與實(shí)現(xiàn)[D];吉林大學(xué);2008年
4 張艷;Web挖掘在搜索引擎?zhèn)性化中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2008年
5 黃歡;達(dá)夢(mèng)數(shù)據(jù)庫(kù)全文檢索關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2007年
6 劉玉新;Web2.0互聯(lián)網(wǎng)在線話題發(fā)現(xiàn)和熱度評(píng)估[D];華南理工大學(xué);2013年
7 顏小林;基于本體的Web頁(yè)面聚類(lèi)挖掘[D];太原理工大學(xué);2007年
8 丁瓊;基于向量空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn)[D];同濟(jì)大學(xué);2007年
9 王海寶;基于Web的在線考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];青島大學(xué);2007年
10 張瑜;基于本體的農(nóng)業(yè)科技信息用戶建模系統(tǒng)研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2009年
,本文編號(hào):735900
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/735900.html