基于概念基元的詞語相似度計(jì)算研究
本文選題:詞語相似度 + 語義距離; 參考:《電子與信息學(xué)報(bào)》2017年01期
【摘要】:詞語相似度的計(jì)算在機(jī)器翻譯、信息檢索等多個(gè)領(lǐng)域有重要作用。該文以概念層次網(wǎng)絡(luò)理論的概念基元符號(hào)系統(tǒng)為語義資源,在共性與差異性對(duì)比思想下,提出一個(gè)涵蓋層次性、網(wǎng)絡(luò)性、對(duì)比對(duì)偶特性、掛靠特性及五元組信息的多維度詞語相似度計(jì)算方法;在節(jié)點(diǎn)深度和節(jié)點(diǎn)距離度量上,引入權(quán)重以增加不同層次間的區(qū)分程度。在人工打分的測(cè)試集上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法計(jì)算的相似度與人工判斷的符合程度較好,兼容度、相關(guān)系數(shù)和序?qū)Ψ隙确謩e達(dá)到0.812,0.786和0.775;同時(shí),相關(guān)性檢驗(yàn)的結(jié)果也顯示該方法的計(jì)算值與人工打分顯著相關(guān)。
[Abstract]:Word similarity calculation plays an important role in machine translation, information retrieval and other fields. This paper takes the conceptual primitive symbol system of the conceptual hierarchy network theory as the semantic resource, under the thought of comparing the commonness and the difference, puts forward a kind of characteristic that covers hierarchy, network and contrast duality. The method of calculating the similarity of multi-dimension words based on link characteristics and five-tuple information, and introducing the weight in the measurement of node depth and node distance to increase the degree of distinction between different levels. Experiments were carried out on the test set of manual scoring. The results show that the similarity calculated by this method is in good agreement with manual judgment, and the degree of compatibility, correlation coefficient and sequence pair coincidence are 0.812 / 0. 786 and 0. 775, respectively. The results of correlation test also show that the calculated value of this method is significantly correlated with manual scoring.
【作者單位】: 中國科學(xué)院大學(xué);中國科學(xué)院聲學(xué)研究所;
【基金】:國家863計(jì)劃“十二五”項(xiàng)目(2012AA011102) 國家語委“十二五”科研項(xiàng)目(YB125-53)~~
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 李國佳;;基于知網(wǎng)的中文詞語相似度計(jì)算[J];智能計(jì)算機(jī)與應(yīng)用;2015年03期
2 李慧;;詞語相似度算法研究綜述[J];現(xiàn)代情報(bào);2015年04期
3 孫晶;張東站;;基于逆概念頻率的詞語相似度計(jì)算[J];廈門大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年02期
4 張滬寅;劉道波;溫春艷;;基于《知網(wǎng)》的詞語語義相似度改進(jìn)算法研究[J];計(jì)算機(jī)工程;2015年02期
5 WANG Junhua;ZUO Wanli;PENG Tao;;Hyponymy Graph Model for Word Semantic Similarity Measurement[J];Chinese Journal of Electronics;2015年01期
6 吳佐衍;王宇;;基于HNC理論的詞語相似度計(jì)算[J];中文信息學(xué)報(bào);2014年02期
7 王桐;王磊;吳吉義;徐賀;;WordNet中的綜合概念語義相似度計(jì)算方法[J];北京郵電大學(xué)學(xué)報(bào);2013年02期
8 王石;曹存根;裴亞軍;夏飛;;一種基于搭配的中文詞匯語義相似度計(jì)算方法[J];中文信息學(xué)報(bào);2013年01期
相關(guān)碩士學(xué)位論文 前1條
1 史燕;基于HNC的漢語句子相似度算法的研究[D];江蘇大學(xué);2009年
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 池哲潔;張全;;基于概念基元的詞語相似度計(jì)算研究[J];電子與信息學(xué)報(bào);2017年01期
2 鄭志蘊(yùn);阮春陽;李倫;李鈍;;本體語義相似度自適應(yīng)綜合加權(quán)算法研究[J];計(jì)算機(jī)科學(xué);2016年10期
3 索俊鋒;劉勇;;基于農(nóng)業(yè)本體的語義相似度算法及其在農(nóng)作物本體中的應(yīng)用[J];農(nóng)業(yè)工程學(xué)報(bào);2016年16期
4 蘇依拉;竇保媛;吉亞圖;;基于本體的蒙古語災(zāi)害信息檢索模型[J];北京工業(yè)大學(xué)學(xué)報(bào);2016年07期
5 盛艷梅;周子力;馬淑麗;;基于CP加權(quán)的概念語義相似度算法[J];電子技術(shù);2016年04期
6 王宇;伍力慧;;基于HNC理論的中文文本詞匯鏈構(gòu)造方法[J];情報(bào)雜志;2016年02期
7 劉健;張琨;陳旋;;基于標(biāo)簽和協(xié)同過濾的個(gè)性化推薦算法[J];計(jì)算機(jī)與現(xiàn)代化;2016年02期
8 劉一松;朱丹;;基于聚類與二分圖匹配的語義Web服務(wù)發(fā)現(xiàn)[J];計(jì)算機(jī)工程;2016年02期
9 魏勇;胡丹露;郝晨光;歐小平;;基于分類關(guān)鍵詞詞頻模型的地緣政治主題爬蟲設(shè)計(jì)[J];計(jì)算機(jī)工程;2016年02期
10 韓興邦;毛峽;;一種改進(jìn)的詞義相似度算法[J];中國科技論文;2016年02期
相關(guān)碩士學(xué)位論文 前7條
1 王莎;基于標(biāo)簽的模糊匹配微博人脈挖掘算法[D];湖南師范大學(xué);2013年
2 柏雪;主觀題自動(dòng)閱卷系統(tǒng)的研究與設(shè)計(jì)[D];西南交通大學(xué);2013年
3 林培金;基于領(lǐng)域本體的語義合成研究及應(yīng)用[D];南京郵電大學(xué);2013年
4 趙小謙;短文本指紋的研究[D];南京郵電大學(xué);2012年
5 徐瑛;一種綜合加權(quán)的詞語語義相似度計(jì)算研究[D];青島理工大學(xué);2011年
6 李錦;仿射傳播算法在中文詞語聚類中的應(yīng)用研究[D];昆明理工大學(xué);2011年
7 江磊;領(lǐng)域詞典的構(gòu)建及其在語法分析中的應(yīng)用[D];南京郵電大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王小林;楊林;王東;;基于知網(wǎng)的新詞語相似度算法研究[J];情報(bào)科學(xué);2015年02期
2 范弘屹;張仰森;;一種基于HowNet的詞語語義相似度計(jì)算方法[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年04期
3 朱征宇;孫俊華;;改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用;2013年08期
4 張敏;王振輝;王艷麗;;一種基于《知網(wǎng)》知識(shí)描述語言結(jié)構(gòu)的詞語相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 ;Call for Papers: Journal of Electronics (China)[J];Journal of Electronics(China);2013年03期
6 詹志建;梁麗娜;楊小平;;基于百度百科的詞語相似度計(jì)算[J];計(jì)算機(jī)科學(xué);2013年06期
7 游彬;嚴(yán)岳松;孫英閣;劉靖;;基于HowNet的信息量計(jì)算語義相似度算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年01期
8 呂立輝;梁維薇;冉蜀陽;;基于詞林的詞語相似度的度量[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2013年01期
9 劉萍;陳燁;;詞匯相似度研究進(jìn)展綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2012年Z1期
10 徐健;肖卓;;基于領(lǐng)域限定網(wǎng)絡(luò)檢索的術(shù)語相似度計(jì)算[J];情報(bào)理論與實(shí)踐;2012年06期
相關(guān)碩士學(xué)位論文 前6條
1 南鉉國;基于語句相似度計(jì)算的主觀題自動(dòng)評(píng)分技術(shù)研究[D];延邊大學(xué);2007年
2 張玉娟;基于《知網(wǎng)》的句子相似度計(jì)算的研究[D];中國地質(zhì)大學(xué)(北京);2006年
3 肖雪蓮;基于HNC理論的主觀題自動(dòng)批改算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[D];華東師范大學(xué);2006年
4 周舫;漢語句子相似度計(jì)算方法及其應(yīng)用的研究[D];河南大學(xué);2005年
5 朱毅華;智能搜索引擎中的同義詞識(shí)別算法研究[D];南京農(nóng)業(yè)大學(xué);2001年
6 查貴庭;經(jīng)濟(jì)新聞自動(dòng)標(biāo)引系統(tǒng)的研究[D];南京農(nóng)業(yè)大學(xué);2000年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國;;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤(rùn)梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期
6 田衛(wèi)東;強(qiáng)繼朋;;基于問句類型的問句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計(jì)算模型研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計(jì)算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期
9 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書情報(bào)技術(shù);2007年06期
10 李偉;;中文語句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報(bào);2009年04期
相關(guān)會(huì)議論文 前10條
1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語義預(yù)測(cè)的雙語術(shù)語相似度計(jì)算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語義相融合的詞語相似度計(jì)算[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
6 車萬翔;劉挺;秦兵;李生;;面向雙語句對(duì)檢索的漢語句子相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
9 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 海量智能計(jì)算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年
相關(guān)博士學(xué)位論文 前4條
1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤(rùn)志;基于語義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國科學(xué)院研究生院(沈陽計(jì)算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動(dòng)問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動(dòng)?敝械牡妆就扑]探討[D];南京大學(xué);2015年
10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
,本文編號(hào):1881891
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1881891.html