融合詞向量的多特征句子相似度計(jì)算方法研究

發(fā)布時(shí)間：2018-06-14 09:07

本文選題：詞向量 + 句子相似度��；參考：《計(jì)算機(jī)科學(xué)與探索》2017年04期

【摘要】：在歸納常見的句子相似度計(jì)算方法后,基于《人民日報(bào)》3.4萬余份文本訓(xùn)練了用于語義相似度計(jì)算的詞向量模型,并設(shè)計(jì)了一種融合詞向量的多特征句子相似度計(jì)算方法。該方法在詞方面,考慮了句子中重疊的詞數(shù)和詞的連續(xù)性,并運(yùn)用詞向量模型測量了非重疊詞間的相似性;在結(jié)構(gòu)方面,考慮了句子中重疊詞的語序和兩個(gè)句子的長度一致性。實(shí)驗(yàn)部分設(shè)計(jì)實(shí)現(xiàn)了4種句子相似度計(jì)算方法,并開發(fā)了相應(yīng)的實(shí)驗(yàn)系統(tǒng)。結(jié)果表明:提出的算法能夠取得相對較好的實(shí)驗(yàn)結(jié)果,對句子中詞的語義特征和句子結(jié)構(gòu)特征進(jìn)行組合處理和優(yōu)化,能夠提升句子相似度計(jì)算的準(zhǔn)確性。
[Abstract]:After summarizing common sentence similarity calculation methods, a word vector model for semantic similarity calculation is trained based on < People's Daily > 34000 texts, and a multi-feature sentence similarity calculation method combining word vectors is designed. In terms of words, the number of overlapping words and the continuity of words in a sentence are considered, and the similarity between non-overlapping words is measured by using word vector model. In the aspect of structure, the word order and the length consistency of two sentences are considered. In the experiment part, four kinds of sentence similarity calculation methods are designed and implemented, and the corresponding experimental system is developed. The results show that the proposed algorithm can obtain relatively good experimental results and can improve the accuracy of sentence similarity calculation by combining and optimizing the semantic features and sentence structure features of sentences.
【作者單位】：中國人民解放軍后勤科學(xué)研究所;北京航空航天大學(xué)計(jì)算機(jī)學(xué)院;昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院;
【基金】：國家自然科學(xué)基金No.61370126 國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)No.2015AA016004 國家社會科學(xué)基金No.15GJ003-154 軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室探索性自主研究課題基金No.SKLSDE-2015ZX-16~~
【分類號】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 蔡東風(fēng);白宇;于水;葉娜;任曉娜;;一種基于語境的詞語相似度計(jì)算方法[J];中文信息學(xué)報(bào);2010年03期

2 丁政建;張路;;一種改進(jìn)的本體相似度計(jì)算方法[J];計(jì)算機(jī)工程;2010年24期

3 朱珍元;鄭誠;;一種改進(jìn)的本體相似度計(jì)算方法[J];微型機(jī)與應(yīng)用;2011年01期

4 崔韜世;麥范金;;詞語相似度計(jì)算方法分析[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年05期

5 王國春;鄭山紅;趙輝;董亞則;;基于階段遞進(jìn)的綜合本體相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年02期

6 張忠平;田淑霞;劉洪強(qiáng);;一種新的本體相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2008年10期

7 趙歡;李仁發(fā);王家琴;張?jiān)诿?;綜合多層信息的本體概念相似度計(jì)算方法的研究[J];通信學(xué)報(bào);2009年06期

8 李改;李章鳳;李磊;;一種新的社會化相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2013年09期

9 曾輝;徐海洲;鐘茂生;;基于主題和焦點(diǎn)的問句相似度計(jì)算方法[J];科學(xué)技術(shù)與工程;2014年06期

10 張忠平;田淑霞;劉洪強(qiáng);;一種綜合的本體相似度計(jì)算方法[J];計(jì)算機(jī)科學(xué);2008年12期

相關(guān)會議論文前8條

1 白宇;于水;葉娜;蔡東風(fēng);任曉娜;;一種基于語境的詞語相似度計(jì)算方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 喬林;黃維通;孟威;;一種改進(jìn)的知網(wǎng)系統(tǒng)詞語相似度計(jì)算方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

3 菅小艷;鄭家恒;;一種改進(jìn)的句子相似度計(jì)算方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議（NCIRCS-2005）論文集[C];2005年

4 盧延科;尹寶生;張桂平;苗雪雷;白宇;;基于偽LCS的中文專利句子相似度計(jì)算方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

5 章志凌;虞立群;羅海飛;邵曉敏;;基于改進(jìn)Corpus庫的詞語相似度計(jì)算方法[A];第二十四屆中國控制會議論文集（下冊）[C];2005年

6 章成志;李斌;;基于混合策略的查詢串相似度計(jì)算方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

7 陳希友;馮少榮;張東站;薛永生;;基于反饋的用戶訪問預(yù)測模型[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（一）[C];2008年

8 李天寧;肖桐;朱靖波;;科技論文的IPC自動(dòng)標(biāo)注[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

相關(guān)博士學(xué)位論文前2條

1 蔡圓媛;基于知識整合的詞匯語義相似度計(jì)算方法研究[D];北京交通大學(xué);2016年

2 吳小坤;輕量級服務(wù)推薦算法研究[D];北京郵電大學(xué);2015年

相關(guān)碩士學(xué)位論文前10條

1 唐積益;推薦系統(tǒng)中相似度計(jì)算方法的研究[D];江蘇科技大學(xué);2015年

2 張廣源;微博檢索系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

3 尹路修;XML文檔的聚類研究[D];湖南師范大學(xué);2015年

4 鄒能清;一種基于語義網(wǎng)絡(luò)的中文文本相似度計(jì)算方法[D];湘潭大學(xué);2015年

5 鄔明強(qiáng);基于分段融合的藏文文本相似度計(jì)算方法研究[D];西北民族大學(xué);2016年

6 呂亞偉;食品安全網(wǎng)絡(luò)輿情監(jiān)測方法研究[D];北京化工大學(xué);2016年

7 王璐;一種綜合多層次信息的句子相似度計(jì)算方法研究[D];重慶大學(xué);2016年

8 高鵬楊;基于多標(biāo)簽學(xué)習(xí)框架的微博文本分類研究[D];東南大學(xué);2016年

9 萬青云;并行LDA、聚類算法的研究及應(yīng)用[D];南昌大學(xué);2016年

10 陳欣;一種基于多屬性本體的概念相似度計(jì)算方法的研究[D];東北師范大學(xué);2010年

，

本文編號：2016847

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2016847.html

上一篇：基于標(biāo)簽傳播概率的重疊社區(qū)發(fā)現(xiàn)算法
下一篇：結(jié)合局部鄰域特性和C-BEMD的圖像融合方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合詞向量的多特征句子相似度計(jì)算方法研究