基于概念基元的詞語相似度計算研究
本文選題:詞語相似度 + 語義距離 ; 參考:《電子與信息學報》2017年01期
【摘要】:詞語相似度的計算在機器翻譯、信息檢索等多個領域有重要作用。該文以概念層次網(wǎng)絡理論的概念基元符號系統(tǒng)為語義資源,在共性與差異性對比思想下,提出一個涵蓋層次性、網(wǎng)絡性、對比對偶特性、掛靠特性及五元組信息的多維度詞語相似度計算方法;在節(jié)點深度和節(jié)點距離度量上,引入權重以增加不同層次間的區(qū)分程度。在人工打分的測試集上進行實驗,結果表明該方法計算的相似度與人工判斷的符合程度較好,兼容度、相關系數(shù)和序對符合度分別達到0.812,0.786和0.775;同時,相關性檢驗的結果也顯示該方法的計算值與人工打分顯著相關。
[Abstract]:Word similarity calculation plays an important role in machine translation, information retrieval and other fields. This paper takes the conceptual primitive symbol system of the conceptual hierarchy network theory as the semantic resource, under the thought of comparing the commonness and the difference, puts forward a kind of characteristic that covers hierarchy, network and contrast duality. The method of calculating the similarity of multi-dimension words based on link characteristics and five-tuple information, and introducing the weight in the measurement of node depth and node distance to increase the degree of distinction between different levels. Experiments were carried out on the test set of manual scoring. The results show that the similarity calculated by this method is in good agreement with manual judgment, and the degree of compatibility, correlation coefficient and sequence pair coincidence are 0.812 / 0. 786 and 0. 775, respectively. The results of correlation test also show that the calculated value of this method is significantly correlated with manual scoring.
【作者單位】: 中國科學院大學;中國科學院聲學研究所;
【基金】:國家863計劃“十二五”項目(2012AA011102) 國家語委“十二五”科研項目(YB125-53)~~
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前8條
1 李國佳;;基于知網(wǎng)的中文詞語相似度計算[J];智能計算機與應用;2015年03期
2 李慧;;詞語相似度算法研究綜述[J];現(xiàn)代情報;2015年04期
3 孫晶;張東站;;基于逆概念頻率的詞語相似度計算[J];廈門大學學報(自然科學版);2015年02期
4 張滬寅;劉道波;溫春艷;;基于《知網(wǎng)》的詞語語義相似度改進算法研究[J];計算機工程;2015年02期
5 WANG Junhua;ZUO Wanli;PENG Tao;;Hyponymy Graph Model for Word Semantic Similarity Measurement[J];Chinese Journal of Electronics;2015年01期
6 吳佐衍;王宇;;基于HNC理論的詞語相似度計算[J];中文信息學報;2014年02期
7 王桐;王磊;吳吉義;徐賀;;WordNet中的綜合概念語義相似度計算方法[J];北京郵電大學學報;2013年02期
8 王石;曹存根;裴亞軍;夏飛;;一種基于搭配的中文詞匯語義相似度計算方法[J];中文信息學報;2013年01期
相關碩士學位論文 前1條
1 史燕;基于HNC的漢語句子相似度算法的研究[D];江蘇大學;2009年
【共引文獻】
相關期刊論文 前10條
1 池哲潔;張全;;基于概念基元的詞語相似度計算研究[J];電子與信息學報;2017年01期
2 鄭志蘊;阮春陽;李倫;李鈍;;本體語義相似度自適應綜合加權算法研究[J];計算機科學;2016年10期
3 索俊鋒;劉勇;;基于農(nóng)業(yè)本體的語義相似度算法及其在農(nóng)作物本體中的應用[J];農(nóng)業(yè)工程學報;2016年16期
4 蘇依拉;竇保媛;吉亞圖;;基于本體的蒙古語災害信息檢索模型[J];北京工業(yè)大學學報;2016年07期
5 盛艷梅;周子力;馬淑麗;;基于CP加權的概念語義相似度算法[J];電子技術;2016年04期
6 王宇;伍力慧;;基于HNC理論的中文文本詞匯鏈構造方法[J];情報雜志;2016年02期
7 劉健;張琨;陳旋;;基于標簽和協(xié)同過濾的個性化推薦算法[J];計算機與現(xiàn)代化;2016年02期
8 劉一松;朱丹;;基于聚類與二分圖匹配的語義Web服務發(fā)現(xiàn)[J];計算機工程;2016年02期
9 魏勇;胡丹露;郝晨光;歐小平;;基于分類關鍵詞詞頻模型的地緣政治主題爬蟲設計[J];計算機工程;2016年02期
10 韓興邦;毛峽;;一種改進的詞義相似度算法[J];中國科技論文;2016年02期
相關碩士學位論文 前7條
1 王莎;基于標簽的模糊匹配微博人脈挖掘算法[D];湖南師范大學;2013年
2 柏雪;主觀題自動閱卷系統(tǒng)的研究與設計[D];西南交通大學;2013年
3 林培金;基于領域本體的語義合成研究及應用[D];南京郵電大學;2013年
4 趙小謙;短文本指紋的研究[D];南京郵電大學;2012年
5 徐瑛;一種綜合加權的詞語語義相似度計算研究[D];青島理工大學;2011年
6 李錦;仿射傳播算法在中文詞語聚類中的應用研究[D];昆明理工大學;2011年
7 江磊;領域詞典的構建及其在語法分析中的應用[D];南京郵電大學;2011年
【二級參考文獻】
相關期刊論文 前10條
1 王小林;楊林;王東;;基于知網(wǎng)的新詞語相似度算法研究[J];情報科學;2015年02期
2 范弘屹;張仰森;;一種基于HowNet的詞語語義相似度計算方法[J];北京信息科技大學學報(自然科學版);2014年04期
3 朱征宇;孫俊華;;改進的基于《知網(wǎng)》的詞匯語義相似度計算[J];計算機應用;2013年08期
4 張敏;王振輝;王艷麗;;一種基于《知網(wǎng)》知識描述語言結構的詞語相似度計算方法[J];計算機應用與軟件;2013年07期
5 ;Call for Papers: Journal of Electronics (China)[J];Journal of Electronics(China);2013年03期
6 詹志建;梁麗娜;楊小平;;基于百度百科的詞語相似度計算[J];計算機科學;2013年06期
7 游彬;嚴岳松;孫英閣;劉靖;;基于HowNet的信息量計算語義相似度算法[J];計算機系統(tǒng)應用;2013年01期
8 呂立輝;梁維薇;冉蜀陽;;基于詞林的詞語相似度的度量[J];現(xiàn)代計算機(專業(yè)版);2013年01期
9 劉萍;陳燁;;詞匯相似度研究進展綜述[J];現(xiàn)代圖書情報技術;2012年Z1期
10 徐健;肖卓;;基于領域限定網(wǎng)絡檢索的術語相似度計算[J];情報理論與實踐;2012年06期
相關碩士學位論文 前6條
1 南鉉國;基于語句相似度計算的主觀題自動評分技術研究[D];延邊大學;2007年
2 張玉娟;基于《知網(wǎng)》的句子相似度計算的研究[D];中國地質大學(北京);2006年
3 肖雪蓮;基于HNC理論的主觀題自動批改算法設計與系統(tǒng)實現(xiàn)[D];華東師范大學;2006年
4 周舫;漢語句子相似度計算方法及其應用的研究[D];河南大學;2005年
5 朱毅華;智能搜索引擎中的同義詞識別算法研究[D];南京農(nóng)業(yè)大學;2001年
6 查貴庭;經(jīng)濟新聞自動標引系統(tǒng)的研究[D];南京農(nóng)業(yè)大學;2000年
【相似文獻】
相關期刊論文 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計算軟件在煙用香精香料色譜分析中的引入應用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計算[J];小型微型計算機系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國;;制造資源本體的相似度計算模型[J];計算機集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計算的改進[J];石家莊鐵道大學學報(自然科學版);2011年04期
5 秦學勇;張潤梅;;兩級相似度計算在主觀題機器閱卷中的應用[J];計算機工程;2012年11期
6 田衛(wèi)東;強繼朋;;基于問句類型的問句相似度計算[J];計算機應用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計算模型研究[J];武漢理工大學學報(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計算方面的應用[J];信息技術與信息化;2005年01期
9 廉站俊;呂學強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現(xiàn)代圖書情報技術;2007年06期
10 李偉;;中文語句相似度計算的方法初探[J];蘭州工業(yè)高等�?茖W校學報;2009年04期
相關會議論文 前10條
1 劉磊;張桂平;蔡東風;季鐸;;基于語義預測的雙語術語相似度計算[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
2 郭麗;蔡東風;季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農(nóng)業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農(nóng)村電氣化分會科技與教育專委會2010年學術年會論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年
6 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
7 郭文宏;范學峰;;基于語義詞典和本體知識的概念相似度計算[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡東風;;基于N-gram的句子相似度計算技術[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
9 關毅;王曉龍;王強;;論系統(tǒng)相似的度量[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結構描述的漢字字形相似度計算[A];第三屆學生計算語言學研討會論文集[C];2006年
相關重要報紙文章 前1條
1 海量智能計算技術研究中心 霍剛;新興技術為互聯(lián)網(wǎng)加速[N];計算機世界;2007年
相關博士學位論文 前4條
1 馮曉文;基于GPU的相似度計算關鍵技術研究[D];華中科技大學;2014年
2 王秀紅;文本相似度計算核函數(shù)的構造及其在分布式信息檢索中的應用研究[D];江蘇大學;2012年
3 劉磊;概念內涵屬性計算研究[D];上海交通大學;2011年
4 任磊;推薦系統(tǒng)關鍵技術研究[D];華東師范大學;2012年
相關碩士學位論文 前10條
1 梁韜;中文微博新詞與熱點話題發(fā)現(xiàn)技術研究[D];湖南工業(yè)大學;2015年
2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學;2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學;2015年
4 舒佳根;中文實體鏈接研究[D];蘇州大學;2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學;2015年
6 孫潤志;基于語義理解的文本相似度計算研究與實現(xiàn)[D];中國科學院研究生院(沈陽計算技術研究所);2015年
7 劉敏;基于詞向量的句子相似度計算及其在基于實例的機器翻譯中的應用[D];北京理工大學;2015年
8 康毅;面向客服的自動問答系統(tǒng)關鍵技術研究[D];東北大學;2014年
9 吳宇浩;南海檔案數(shù)字化半自動校勘中的底本推薦探討[D];南京大學;2015年
10 吐爾遜阿依·阿不來提;小學維吾爾語文教材中的單句相似度研究[D];新疆師范大學;2015年
,本文編號:1881891
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1881891.html