一種基于復(fù)雜網(wǎng)絡(luò)的短文本語(yǔ)義相似度計(jì)算
本文關(guān)鍵詞:一種基于復(fù)雜網(wǎng)絡(luò)的短文本語(yǔ)義相似度計(jì)算
更多相關(guān)文章: 復(fù)雜網(wǎng)絡(luò) 綜合特征值 短文本 語(yǔ)義相似度
【摘要】:將傳統(tǒng)的文本相似度量方法直接移植到短文本時(shí),由于短文本內(nèi)容簡(jiǎn)短的特性會(huì)導(dǎo)致數(shù)據(jù)稀疏而造成計(jì)算結(jié)果出現(xiàn)偏差。該文通過(guò)使用復(fù)雜網(wǎng)絡(luò)表征短文本,提出了一種新的短文本相似度量方法。該方法首先對(duì)短文本進(jìn)行預(yù)處理,然后對(duì)短文本建立復(fù)雜網(wǎng)絡(luò)模型,計(jì)算短文本詞語(yǔ)的復(fù)雜網(wǎng)絡(luò)特征值,再借助外部工具計(jì)算短文本詞語(yǔ)之間的語(yǔ)義相似度,然后結(jié)合短文本語(yǔ)義相似度定義計(jì)算短文本之間的相似度。最后在基準(zhǔn)數(shù)據(jù)集上進(jìn)行聚類實(shí)驗(yàn),驗(yàn)證本文提出的短文本相似度計(jì)算方法在基于F-度量值標(biāo)準(zhǔn)上,優(yōu)于傳統(tǒng)的TF-IDF方法和另一種基于詞項(xiàng)語(yǔ)義相似度的計(jì)算方法。
【作者單位】: 中國(guó)人民大學(xué)信息學(xué)院;
【關(guān)鍵詞】: 復(fù)雜網(wǎng)絡(luò) 綜合特征值 短文本 語(yǔ)義相似度
【基金】:國(guó)家自然科學(xué)基金(70871115)
【分類號(hào)】:TP391.1;O157.5
【正文快照】: 1引言文本聚類(Document clustering,or Text clus-tering)是指自動(dòng)地將大規(guī)模數(shù)據(jù)集分組為多個(gè)類別,并使同一個(gè)類別中的文本信息之間具有較高的相似度,而不同類別之間的相似度較低[1]。作為文本挖掘的基礎(chǔ)研究課題,文本聚類算法近年來(lái)得到系統(tǒng)研究及開(kāi)發(fā),并取得了一些良好的
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 周粉;夏幼明;;一種改進(jìn)的基于知網(wǎng)的語(yǔ)義相似度計(jì)算方法[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年S2期
2 張?zhí)m芳;;一種基于本體的自然語(yǔ)言語(yǔ)義相似度算法[J];桂林理工大學(xué)學(xué)報(bào);2012年02期
3 李燕妮;李海生;蔡強(qiáng);;基于語(yǔ)義相似度的領(lǐng)域知識(shí)推薦研究[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2013年03期
4 趙捧未;袁穎;;基于領(lǐng)域本體的語(yǔ)義相似度計(jì)算方法研究[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2010年08期
5 張會(huì)影;;語(yǔ)義網(wǎng)中本體語(yǔ)義相似度算法研究[J];蚌埠學(xué)院學(xué)報(bào);2012年04期
6 唐一之;;基于知網(wǎng)的領(lǐng)域概念抽取與關(guān)系分析研究[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2009年01期
7 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進(jìn)的Lucene語(yǔ)義相似度檢索算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
8 張怡文;程家興;林京;岳麗華;王云;;社交網(wǎng)絡(luò)中分類推薦用戶的設(shè)計(jì)與實(shí)現(xiàn)[J];貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
9 張陽(yáng);李緒成;;基于消息語(yǔ)義相似度二分匹配的Web服務(wù)發(fā)現(xiàn)方法[J];遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
10 謝雄程;劉之家;元昌安;;基于Wup的語(yǔ)義相似度計(jì)算的全局本體語(yǔ)義分析方法[J];井岡山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語(yǔ)語(yǔ)句語(yǔ)義相似度的計(jì)算方法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 馮新元;魏建國(guó);路文煥;黨建武;;引入領(lǐng)域知識(shí)的基于《知網(wǎng)》詞語(yǔ)語(yǔ)義相似度計(jì)算[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
4 章成志;;詞語(yǔ)的語(yǔ)義相似度計(jì)算及其應(yīng)用研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語(yǔ)義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 陳明;鹿e,
本文編號(hào):642335
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/642335.html