一種基于復雜網(wǎng)絡的短文本語義相似度計算

發(fā)布時間：2017-08-08 22:23

本文關鍵詞：一種基于復雜網(wǎng)絡的短文本語義相似度計算

【摘要】：將傳統(tǒng)的文本相似度量方法直接移植到短文本時,由于短文本內容簡短的特性會導致數(shù)據(jù)稀疏而造成計算結果出現(xiàn)偏差。該文通過使用復雜網(wǎng)絡表征短文本,提出了一種新的短文本相似度量方法。該方法首先對短文本進行預處理,然后對短文本建立復雜網(wǎng)絡模型,計算短文本詞語的復雜網(wǎng)絡特征值,再借助外部工具計算短文本詞語之間的語義相似度,然后結合短文本語義相似度定義計算短文本之間的相似度。最后在基準數(shù)據(jù)集上進行聚類實驗,驗證本文提出的短文本相似度計算方法在基于F-度量值標準上,優(yōu)于傳統(tǒng)的TF-IDF方法和另一種基于詞項語義相似度的計算方法。
【作者單位】：中國人民大學信息學院;
【關鍵詞】： 復雜網(wǎng)絡 綜合特征值 短文本 語義相似度
【基金】：國家自然科學基金(70871115)
【分類號】：TP391.1;O157.5
【正文快照】： 1引言文本聚類(Document clustering,or Text clus-tering)是指自動地將大規(guī)模數(shù)據(jù)集分組為多個類別,并使同一個類別中的文本信息之間具有較高的相似度,而不同類別之間的相似度較低[1]。作為文本挖掘的基礎研究課題,文本聚類算法近年來得到系統(tǒng)研究及開發(fā),并取得了一些良好的

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 周粉;夏幼明;;一種改進的基于知網(wǎng)的語義相似度計算方法[J];云南大學學報(自然科學版);2008年S2期

2 張?zhí)m芳;;一種基于本體的自然語言語義相似度算法[J];桂林理工大學學報;2012年02期

3 李燕妮;李海生;蔡強;;基于語義相似度的領域知識推薦研究[J];復雜系統(tǒng)與復雜性科學;2013年03期

4 趙捧未;袁穎;;基于領域本體的語義相似度計算方法研究[J];科技情報開發(fā)與經(jīng)濟;2010年08期

5 張會影;;語義網(wǎng)中本體語義相似度算法研究[J];蚌埠學院學報;2012年04期

6 唐一之;;基于知網(wǎng)的領域概念抽取與關系分析研究[J];湘潭大學自然科學學報;2009年01期

7 黃承慧;印鑒;陸寄遠;;一種改進的Lucene語義相似度檢索算法[J];中山大學學報(自然科學版);2011年02期

8 張怡文;程家興;林京;岳麗華;王云;;社交網(wǎng)絡中分類推薦用戶的設計與實現(xiàn)[J];貴州師范大學學報(自然科學版);2013年01期

9 張陽;李緒成;;基于消息語義相似度二分匹配的Web服務發(fā)現(xiàn)方法[J];遼寧師范大學學報(自然科學版);2009年01期

10 謝雄程;劉之家;元昌安;;基于Wup的語義相似度計算的全局本體語義分析方法[J];井岡山大學學報(自然科學版);2011年01期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 關毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計算方法[A];2008'中國信息技術與應用學術論壇論文集（一）[C];2008年

3 馮新元;魏建國;路文煥;黨建武;;引入領域知識的基于《知網(wǎng)》詞語語義相似度計算[A];第十二屆全國人機語音通訊學術會議（NCMMSC'2013）論文集[C];2013年

4 章成志;;詞語的語義相似度計算及其應用研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

5 劉寒磊;關毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關技術研究[A];全國第八屆計算語言學聯(lián)合學術會議（JSCL-2005）論文集[C];2005年

6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

7 陳明;鹿e，

本文編號：642335

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/642335.html

上一篇：智慧校園中基于位置服務的教育資源推薦系統(tǒng)研究
下一篇：基于數(shù)據(jù)挖掘的一種聚類分析方法在PDM系統(tǒng)中的應用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于復雜網(wǎng)絡的短文本語義相似度計算