天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于特征的本體詞語相似度算法研究

發(fā)布時(shí)間:2018-11-11 12:21
【摘要】:詞語相似度計(jì)算不僅是自然語言處理中的一個(gè)重要基礎(chǔ)性研究課題,它也被廣泛應(yīng)用于知識(shí)管理、信息檢索、生物醫(yī)學(xué)、認(rèn)知科學(xué)和心理學(xué)等領(lǐng)域。隨著信息時(shí)代的到來,人們更迫切需要解決詞語相似度計(jì)算的問題。鑒于本體中豐富的語義關(guān)系和便于計(jì)算的結(jié)構(gòu),越來越多研究學(xué)者開始對(duì)基于本體的詞語相似度算法進(jìn)行研究,因此本文針對(duì)本體,提出了一種概念特征與分類學(xué)參數(shù)的映射模型,并在以往基于特征的計(jì)算詞語相似度的基本算法模型的基礎(chǔ)上提出了本文基于特征計(jì)算詞語相似度的基本算法公式。以該映射模型和本文基于特征計(jì)算詞語相似度的基本算法公式為基礎(chǔ),針對(duì)《知網(wǎng)》和WordNet兩個(gè)知識(shí)本體分別提出了幾種基于特征的詞語相似度算法模型去解決以往算法中出現(xiàn)的一些尚未解決的問題并提高其算法精度。對(duì)《知網(wǎng)》提出了一種基于特征的快速計(jì)算詞語相似度的算法模型。為使《知網(wǎng)》可以直接利用上下位關(guān)系計(jì)算詞語相似度,省去計(jì)算義項(xiàng)相似度前需要計(jì)算義原相似度的過程,進(jìn)而簡化計(jì)算詞語相似度的過程,本文根據(jù)《知網(wǎng)》義項(xiàng)語義表達(dá)式(DEF)中各義原的關(guān)系,在以往義原樹的基礎(chǔ)上構(gòu)建了一棵義項(xiàng)樹。首先,將《知網(wǎng)》義項(xiàng)DEF中帶有關(guān)系約束的第一獨(dú)立義原定義成抽象概念,從而將義項(xiàng)語義表達(dá)式轉(zhuǎn)換成一個(gè)多層次的抽象概念組。然后根據(jù)義項(xiàng)定義中的抽象概念將義項(xiàng)掛到《知網(wǎng)》現(xiàn)有的義原樹中,形成一棵包含義原、抽象概念與義項(xiàng)的義項(xiàng)樹。通過本文提出的概念特征與分類學(xué)參數(shù)的映射模型將概念特征映射為義項(xiàng)樹中概念間的深度和路徑,并以本文基于特征計(jì)算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上對(duì)公式進(jìn)行改進(jìn),并利用兩個(gè)概念對(duì)應(yīng)義項(xiàng)DEF中的義原對(duì)概念特征進(jìn)行補(bǔ)償,通過參數(shù)調(diào)節(jié)義項(xiàng)定義中各義原對(duì)特征的貢獻(xiàn)大小。另外考慮到深度和路徑對(duì)計(jì)算詞語相似度的貢獻(xiàn)并不相同,通過映射模型將概念特征映射為義項(xiàng)樹中概念間的深度和路徑,并采用本文基于特征計(jì)算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上將公式變換成公共特征和不相同特征均帶參數(shù)的公式,提出了一種基于加權(quán)特征的詞語相似度計(jì)算模型。實(shí)驗(yàn)證明,針對(duì)《知網(wǎng)》提出的兩種計(jì)算模型,MC30詞對(duì)計(jì)算的相似度值與人工判定值相比,分別取得了 0.85和0.86的皮爾森相關(guān)系數(shù),該結(jié)果達(dá)到了目前優(yōu)秀詞語相似度算法的水平。另外本文測試了以往相關(guān)論文中使用的測試詞對(duì),實(shí)驗(yàn)結(jié)果表明,本文的兩個(gè)算法模型計(jì)算效果都較之前的要好。對(duì)WordNet提出了一種基于特征的多源信息的融合模型計(jì)算詞語相似度。通過本文提出的概念特征與分類學(xué)參數(shù)的映射模型將概念特征映射為概念間路徑和深度以及信息內(nèi)容這些分類學(xué)參數(shù),以概念間最近公共上位的深度為概念間共有特征,概念間最短路徑為概念間不相同特征,并以本文基于特征計(jì)算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上對(duì)公式進(jìn)行改進(jìn),并利用密度補(bǔ)償概念間特征差異,改善了前人優(yōu)秀算法計(jì)算的相似度呈現(xiàn)的非線性偏高問題,并引入編碼差異性克服了信息源單一造成的計(jì)算結(jié)果區(qū)分度不高的缺陷并微調(diào)概念間特征差異問題。最后,通過引入正弦計(jì)算的邊權(quán)重和調(diào)節(jié)參數(shù)合理的考慮了路徑、深度和獨(dú)立編碼對(duì)計(jì)算詞語相似度的貢獻(xiàn)程度。實(shí)驗(yàn)證明,對(duì)于RG65、MC30、SimLex999中的666對(duì)名詞、SimLex999中的222對(duì)動(dòng)詞、YP130詞對(duì),采用相同參數(shù)本文計(jì)算的相似度值與人工判定值計(jì)算可以分別取得0.88、0.88、0.61、0.52、0.80的皮爾森相關(guān)系數(shù),不使用相同參數(shù)最好可以分別取得0.88、0.89、0.61、0.55、0.81的皮爾森相關(guān)系數(shù),該結(jié)果均達(dá)到了目前優(yōu)秀詞語相似度算法的水平。為證明算法通用性,本文將該算法移植到和WordNet結(jié)構(gòu)極為相似的SNOMED CT醫(yī)學(xué)本體中利用國際通用的醫(yī)學(xué)測試集Pedersen30數(shù)據(jù)集進(jìn)行測試。實(shí)驗(yàn)證明,本文的算法模型應(yīng)用到SNOMED CT中與Pedersen30數(shù)據(jù)集的人工判定值計(jì)算最好可以取得0.86的皮爾森相關(guān)系數(shù),該結(jié)果也達(dá)到了目前優(yōu)秀詞語相似度算法的水平。
[Abstract]:......
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 朱新華;馬潤聰;孫柳;陳宏朝;;基于知網(wǎng)與詞林的詞語語義相似度計(jì)算[J];中文信息學(xué)報(bào);2016年04期

2 朱征宇;孫俊華;;改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用;2013年08期

3 張瑞霞;楊國增;吳慧欣;;基于《知網(wǎng)》的漢語未登錄詞語義相似度計(jì)算[J];中文信息學(xué)報(bào);2012年01期

4 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期

5 張亮;尹存燕;陳家駿;;基于語義樹的中文詞語相似度計(jì)算與分析[J];中文信息學(xué)報(bào);2010年06期

6 劉青磊;顧小豐;;基于《知網(wǎng)》的詞語相似度算法研究[J];中文信息學(xué)報(bào);2010年06期

7 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網(wǎng)的詞匯語義相似度改進(jìn)計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

8 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計(jì)算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2009年01期

9 周粉;夏幼明;;一種改進(jìn)的基于知網(wǎng)的語義相似度計(jì)算方法[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年S2期

10 江敏;肖詩斌;王弘蔚;施水才;;一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計(jì)算[J];中文信息學(xué)報(bào);2008年05期

相關(guān)博士學(xué)位論文 前1條

1 劉宏哲;文本語義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年

,

本文編號(hào):2324818

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2324818.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶05850***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com