一種PST_LDA中文文本相似度計(jì)算方法
本文關(guān)鍵詞:一種PST_LDA中文文本相似度計(jì)算方法
更多相關(guān)文章: 詞性標(biāo)注 LDA模型 PST_LDA模型 文本相似度計(jì)算
【摘要】:為了降低中文文本相似度計(jì)算方法的時(shí)間消耗、提高文本聚類的準(zhǔn)確率,提出了一種PST_LDA(詞性標(biāo)注潛在狄利克雷模型)中文文本相似度計(jì)算方法。首先,對(duì)文本中的名詞、動(dòng)詞和其他詞進(jìn)行詞性標(biāo)注;然后,分別對(duì)名詞、動(dòng)詞和其他詞建立相應(yīng)的LDA主題模型;最后,按照一定的權(quán)重比例綜合這三個(gè)主題模型,計(jì)算文本之間的相似度。由于考慮了不同詞性的詞集對(duì)文本相似度計(jì)算的貢獻(xiàn)差異,利用文本的語(yǔ)義信息提高了文本聚類準(zhǔn)確率。將分離后的三個(gè)詞集的LDA建模過(guò)程并行化,減少建模的時(shí)間消耗,提高文本聚類速度。在TanCorp-12數(shù)據(jù)集分別用LDA和PST_LDA方法進(jìn)行中文文本相似度計(jì)算模擬實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,PST_LDA方法不僅減少了建模時(shí)間消耗,同時(shí)在聚類準(zhǔn)確率上有一定的提高。
【作者單位】: 華中師范大學(xué)計(jì)算機(jī)學(xué)院;漢口學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 詞性標(biāo)注 LDA模型 PST_LDA模型 文本相似度計(jì)算
【分類號(hào)】:TP391.1
【正文快照】: 在中文信息處理中,文本相似度的計(jì)算廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)、文本挖掘等領(lǐng)域,它是一個(gè)基礎(chǔ)而關(guān)鍵的問(wèn)題,長(zhǎng)期以來(lái)一直是人們研究的熱點(diǎn)。李艷梅[1]將文本建模為詞頻向量,用余弦相似度量等方法計(jì)算文本相似度。該方法由于沒(méi)有考慮文本中詞項(xiàng)的語(yǔ)義信息,計(jì)
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學(xué)報(bào);2012年11期
2 李瓊;陳利;王維虎;;基于SVM的手寫體數(shù)字快速識(shí)別方法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年02期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 江雨燕;李平;王清;;基于共享背景主題的Labeled LDA模型[J];電子學(xué)報(bào);2013年09期
2 丁宇新;燕澤權(quán);馮威;薛成龍;周迪;;基于有監(jiān)督主題模型的排序?qū)W習(xí)算法[J];電子學(xué)報(bào);2015年02期
3 歐陽(yáng)繼紅;劉燕輝;李熙銘;周曉堂;;基于LDA的多粒度主題情感混合模型[J];電子學(xué)報(bào);2015年09期
4 楊明;舒明雷;顧衛(wèi)東;郭強(qiáng);周書旺;;基于超算平臺(tái)的公共Wi-Fi無(wú)線網(wǎng)絡(luò)無(wú)痕信息獲取與輿情分析系統(tǒng)研究[J];計(jì)算機(jī)科學(xué);2013年03期
5 王春龍;張敬旭;;基于LDA的改進(jìn)K-means算法在文本聚類中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2014年01期
6 張鵬;謝曉堯;;基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法研究[J];貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
7 崔君君;于林森;李鵬;;協(xié)同視覺信息與標(biāo)注信息圖像聚類[J];哈爾濱理工大學(xué)學(xué)報(bào);2014年02期
8 邱云飛;郭彌綸;邵良杉;;基于主題樹的微博突發(fā)話題檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2014年08期
9 張萬(wàn)山;肖瑤;梁俊杰;余敦輝;;基于主題的Web文本聚類方法[J];計(jì)算機(jī)應(yīng)用;2014年11期
10 仵博;馮延蓬;孟憲軍;江建舉;何國(guó)坤;;安防大數(shù)據(jù)下的分布式云計(jì)算模型[J];深圳職業(yè)技術(shù)學(xué)院學(xué)報(bào);2014年01期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 徐軍;面向金融信息檢索的體裁分類與情感分析技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
2 郭鴻志;多源語(yǔ)義知識(shí)庫(kù)融合方法研究[D];哈爾濱工業(yè)大學(xué);2011年
3 陳曉美;網(wǎng)絡(luò)評(píng)論觀點(diǎn)知識(shí)發(fā)現(xiàn)研究[D];吉林大學(xué);2014年
4 馬力;基于聚類分析的網(wǎng)絡(luò)用戶興趣挖掘方法研究[D];西安電子科技大學(xué);2012年
5 肖智博;排序主題模型及其應(yīng)用研究[D];大連海事大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 徐德;關(guān)于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2011年
2 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年
3 李超;基于Web的實(shí)例知識(shí)條目自動(dòng)構(gòu)建方法[D];哈爾濱工業(yè)大學(xué);2010年
4 唐俊;復(fù)雜網(wǎng)絡(luò)在網(wǎng)絡(luò)新聞信息處理中的應(yīng)用研究[D];西南交通大學(xué);2012年
5 楊琳;基于社交網(wǎng)絡(luò)的用戶行為分析及預(yù)測(cè)[D];西安郵電大學(xué);2013年
6 陳磊磊;面向智慧油田應(yīng)用的數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
7 李靖;IPTV平臺(tái)下新媒體用戶行為挖掘分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];云南大學(xué);2015年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 董振東,董強(qiáng);知網(wǎng)和漢語(yǔ)研究[J];當(dāng)代語(yǔ)言學(xué);2001年01期
2 劉銘;王曉龍;劉遠(yuǎn)超;;基于語(yǔ)義的高維數(shù)據(jù)聚類技術(shù)[J];電子學(xué)報(bào);2009年05期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
4 劉挺,王開鑄;基于篇章多級(jí)依存結(jié)構(gòu)的自動(dòng)文摘研究[J];計(jì)算機(jī)研究與發(fā)展;1999年04期
5 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁(yè)正文提取算法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期
6 奉國(guó)和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計(jì)算機(jī)工程與應(yīng)用;2011年03期
7 陳圣兵;王曉峰;;基于樣本差異度的SVM訓(xùn)練樣本縮減算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年07期
8 劉端陽(yáng);邱衛(wèi)杰;;基于SVM期望間隔的多標(biāo)簽分類的主動(dòng)學(xué)習(xí)[J];計(jì)算機(jī)科學(xué);2011年04期
9 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J];計(jì)算機(jī)學(xué)報(bào);2008年10期
10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 姜維;統(tǒng)計(jì)中文詞法分析及其強(qiáng)化學(xué)習(xí)機(jī)制的研究[D];哈爾濱工業(yè)大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王t熺,
本文編號(hào):613526
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/613526.html