基于低維語義向量模型的語義相似度度量
本文關(guān)鍵詞:基于低維語義向量模型的語義相似度度量
更多相關(guān)文章: 語義向量 特征融合 分布式詞嵌套 語義相似度
【摘要】:語義相似性度量能夠提高信息檢索的準(zhǔn)確性和效率,已成為文本處理中的一個(gè)核心任務(wù).為解決一詞多義等詞匯歧義問題,提出一種基于低維向量組合的語義向量模型.該模型引入了知識(shí)庫與語料庫的多語義特征的融合,主要的語義融合對(duì)象包括連續(xù)的分布式詞向量和從WordNet結(jié)構(gòu)中的語義特征信息.首先利用深度學(xué)習(xí)技術(shù)中的神經(jīng)網(wǎng)絡(luò)語言模型,預(yù)先從文本語料中學(xué)習(xí)得到連續(xù)的低維詞向量;然后從知識(shí)庫WordNet中抽取多種語義信息和關(guān)系信息;再將多語義信息融入詞向量進(jìn)行知識(shí)擴(kuò)展和強(qiáng)化,生成語義向量,從而實(shí)現(xiàn)基于向量空間的語義相似性度量方法.在基準(zhǔn)測試集上的實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于基于單一信息源(知識(shí)庫WordNet或文本語料)的語義相似性度量方法,其皮爾森相關(guān)系數(shù)比基于原始詞嵌套向量的方法提高了7.5%,說明在向量特征層面上的多語義信息的融合有助于度量詞匯間的語義相似性.
【作者單位】: 北京交通大學(xué)軟件學(xué)院;
【關(guān)鍵詞】: 語義向量 特征融合 分布式詞嵌套 語義相似度
【基金】:國家自然科學(xué)基金(61272353) 國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室開放基金(201606)資助
【分類號(hào)】:TP391.1
【正文快照】: CAI Yuanyuan,LU Wei(School of Software Engineering,Beijing Jiaotong University,Beijing100044,China)sense vectors.The experimental results on benchmark indicate that this measure outperforms state-of-the-art measures based on either WordNet or corpora.Com
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡艷波;崔新春;路青;;2002~2011年國內(nèi)語義相似度研究計(jì)量分析[J];情報(bào)科學(xué);2013年07期
2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計(jì)算機(jī)工程;2007年11期
3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識(shí)與技術(shù);2008年14期
4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計(jì)算機(jī)信息;2008年30期
5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計(jì)算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2009年01期
6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計(jì)算的應(yīng)用研究[J];微計(jì)算機(jī)信息;2010年03期
7 孫海霞;錢慶;成穎;;基于本體的語義相似度計(jì)算方法研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2010年01期
8 魏椺;向陽;陳千;;計(jì)算術(shù)語間語義相似度的混合方法[J];計(jì)算機(jī)應(yīng)用;2010年06期
9 馬續(xù)補(bǔ);郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實(shí)主題診斷研究[J];情報(bào)雜志;2010年05期
10 魏凱斌;冉延平;余牛;;語義相似度的計(jì)算方法研究與分析[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年07期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前9條
1 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語詞匯間語義相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計(jì)算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識(shí)的基于《知網(wǎng)》詞語語義相似度計(jì)算[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
4 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
6 黃佳來;王立波;袁道敏;;基于語義相似度的查詢擴(kuò)展研究[A];浙江省電子學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文集[C];2008年
7 劉立;余正濤;王蒙;毛存禮;郭劍毅;;結(jié)合詞相關(guān)特征與流行學(xué)習(xí)的中文問句分類[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
8 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動(dòng)識(shí)別[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
9 左萬利;王英;高金;趙靜宇;邵慧勇;;基于本體的語義查詢優(yōu)化[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 楊潔;SOA架構(gòu)下基于語義的人件服務(wù)管理與調(diào)用研究[D];南京大學(xué);2014年
2 劉宏哲;文本語義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年
3 王俊華;基于不確定性理論的單詞語義相似度度量[D];吉林大學(xué);2014年
4 宋玲;語義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 施凱倫;知識(shí)庫與語料庫相結(jié)合的語義相似度的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
2 趙永金;移動(dòng)Agent及語義相似度計(jì)算在智能決策中的研究與應(yīng)用[D];南京航空航天大學(xué);2010年
3 胡艷波;基于區(qū)間直覺模糊集的語義相似度研究[D];曲阜師范大學(xué);2012年
4 李昊迪;語義相似度的混合計(jì)算方法[D];哈爾濱工業(yè)大學(xué);2013年
5 李清;一體化醫(yī)學(xué)語言系統(tǒng)的語義相似度及推理研究[D];哈爾濱工業(yè)大學(xué);2012年
6 吳柏華;基因間語義相似度計(jì)算方法研究及應(yīng)用[D];重慶大學(xué);2014年
7 楊春龍;基于概念語義相似度計(jì)算模型的信息檢索研究與實(shí)現(xiàn)[D];華東理工大學(xué);2013年
8 姚儉平;基于語義相似度的本體實(shí)例與概念匹配研究[D];杭州電子科技大學(xué);2013年
9 趙揚(yáng);基于信息量的語義相似度計(jì)算方法研究[D];東北師范大學(xué);2015年
10 金曉;旅游數(shù)據(jù)關(guān)聯(lián)化及語義相似度計(jì)算并行化研究與實(shí)現(xiàn)[D];鄭州大學(xué);2015年
,本文編號(hào):898635
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/898635.html