一種基于復雜網(wǎng)絡的短文本語義相似度計算
本文關鍵詞:一種基于復雜網(wǎng)絡的短文本語義相似度計算
更多相關文章: 復雜網(wǎng)絡 綜合特征值 短文本 語義相似度
【摘要】:將傳統(tǒng)的文本相似度量方法直接移植到短文本時,由于短文本內容簡短的特性會導致數(shù)據(jù)稀疏而造成計算結果出現(xiàn)偏差。該文通過使用復雜網(wǎng)絡表征短文本,提出了一種新的短文本相似度量方法。該方法首先對短文本進行預處理,然后對短文本建立復雜網(wǎng)絡模型,計算短文本詞語的復雜網(wǎng)絡特征值,再借助外部工具計算短文本詞語之間的語義相似度,然后結合短文本語義相似度定義計算短文本之間的相似度。最后在基準數(shù)據(jù)集上進行聚類實驗,驗證本文提出的短文本相似度計算方法在基于F-度量值標準上,優(yōu)于傳統(tǒng)的TF-IDF方法和另一種基于詞項語義相似度的計算方法。
【作者單位】: 中國人民大學信息學院;
【關鍵詞】: 復雜網(wǎng)絡 綜合特征值 短文本 語義相似度
【基金】:國家自然科學基金(70871115)
【分類號】:TP391.1;O157.5
【正文快照】: 1引言文本聚類(Document clustering,or Text clus-tering)是指自動地將大規(guī)模數(shù)據(jù)集分組為多個類別,并使同一個類別中的文本信息之間具有較高的相似度,而不同類別之間的相似度較低[1]。作為文本挖掘的基礎研究課題,文本聚類算法近年來得到系統(tǒng)研究及開發(fā),并取得了一些良好的
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周粉;夏幼明;;一種改進的基于知網(wǎng)的語義相似度計算方法[J];云南大學學報(自然科學版);2008年S2期
2 張?zhí)m芳;;一種基于本體的自然語言語義相似度算法[J];桂林理工大學學報;2012年02期
3 李燕妮;李海生;蔡強;;基于語義相似度的領域知識推薦研究[J];復雜系統(tǒng)與復雜性科學;2013年03期
4 趙捧未;袁穎;;基于領域本體的語義相似度計算方法研究[J];科技情報開發(fā)與經(jīng)濟;2010年08期
5 張會影;;語義網(wǎng)中本體語義相似度算法研究[J];蚌埠學院學報;2012年04期
6 唐一之;;基于知網(wǎng)的領域概念抽取與關系分析研究[J];湘潭大學自然科學學報;2009年01期
7 黃承慧;印鑒;陸寄遠;;一種改進的Lucene語義相似度檢索算法[J];中山大學學報(自然科學版);2011年02期
8 張怡文;程家興;林京;岳麗華;王云;;社交網(wǎng)絡中分類推薦用戶的設計與實現(xiàn)[J];貴州師范大學學報(自然科學版);2013年01期
9 張陽;李緒成;;基于消息語義相似度二分匹配的Web服務發(fā)現(xiàn)方法[J];遼寧師范大學學報(自然科學版);2009年01期
10 謝雄程;劉之家;元昌安;;基于Wup的語義相似度計算的全局本體語義分析方法[J];井岡山大學學報(自然科學版);2011年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 關毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術與應用學術論壇論文集(一)[C];2008年
3 馮新元;魏建國;路文煥;黨建武;;引入領域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機語音通訊學術會議(NCMMSC'2013)論文集[C];2013年
4 章成志;;詞語的語義相似度計算及其應用研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
5 劉寒磊;關毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關技術研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
7 陳明;鹿e,
本文編號:642335
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/642335.html