74基于本體技術(shù)的語義檢索及其語義相似度研究

發(fā)布時(shí)間：2016-12-27 09:52

本文關(guān)鍵詞：基于本體技術(shù)的語義檢索及其語義相似度研究，由筆耕文化傳播整理發(fā)布。

（３）檢索結(jié)果的顯示：從模型中檢索出來的滿足條件；５．６實(shí)驗(yàn)系統(tǒng)測試；實(shí)驗(yàn)系統(tǒng)選取了５０部手機(jī)作為樣本，如表５—１是其；功能需求“收音機(jī)”；功能；關(guān)鍵詞檢索結(jié)果；語義檢索結(jié)果９部１６部“ＵＳＢ數(shù)據(jù)接口”功能１３；表５一ｌ；５；本體的良好的概念層次結(jié)構(gòu)和對邏輯推理的支持，使得；第六章基于本體技術(shù)的語義相似度研究；６．１概念相似度理論；概念相似性計(jì)算是自然語言處

（３）檢索結(jié)果的顯示：從模型中檢索出來的滿足條件的信息數(shù)據(jù)需要通過一定的機(jī)制展示給用戶。本實(shí)驗(yàn)系統(tǒng)采用ＪＳＰ＋ＪａｖａＢｅａｎ技術(shù)，ＪａｖａＢｅａｎ負(fù)責(zé)對最終結(jié)果的處理和反饋。

５．６實(shí)驗(yàn)系統(tǒng)測試

實(shí)驗(yàn)系統(tǒng)選取了５０部手機(jī)作為樣本，如表５—１是其中的３個(gè)檢索實(shí)例，結(jié)果表明基于本體的語義檢索比傳統(tǒng)的關(guān)鍵詞檢索具有更好的查全率，更加符合用戶的真實(shí)語義需求。

功能需求“收音機(jī)”

功能

關(guān)鍵詞檢索結(jié)果

語義檢索結(jié)果９部１６部“ＵＳＢ數(shù)據(jù)接口”功能１３部３８部操作系統(tǒng)“ＷｉｎｄｏｗｓＭｏｂｉｌｅ”２部５部

表５一ｌ

５。７手機(jī)兩品語義檢索系統(tǒng)實(shí)驗(yàn)用例結(jié)果本章小結(jié)

本體的良好的概念層次結(jié)構(gòu)和對邏輯推理的支持，使得基于本體的信息檢索提供了語義上的智能知識檢索，能夠更加符合用戶的語義要求，有效地提高了檢索性能。本章在前面章節(jié)的關(guān)鍵技術(shù)理論和系統(tǒng)技術(shù)設(shè)計(jì)的基礎(chǔ)上，實(shí)現(xiàn)了基于本體的手機(jī)商品語義檢索系統(tǒng)，使得系統(tǒng)可以更好地理解用戶提交的檢索需求，更加準(zhǔn)確和全面地查詢到用戶需要的手機(jī)商品信息。本章介紹了實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)、相應(yīng)的開發(fā)平臺和工具、系統(tǒng)算法和推理實(shí)現(xiàn)，以及系統(tǒng)實(shí)現(xiàn)界面等，并對系統(tǒng)進(jìn)行了實(shí)驗(yàn)用例測試，表明基于本體的語義檢索更加符合用戶的真實(shí)語義需求。

第六章基于本體技術(shù)的語義相似度研究

６．１概念相似度理論

概念相似性計(jì)算是自然語言處理研究的重要組成部分，也是人工智能應(yīng)用中亟待解決的問題。概念相似度計(jì)算的基礎(chǔ)理論主要來源于離散數(shù)學(xué)中的圖和樹的匹配技術(shù)、數(shù)據(jù)庫中模式的類似處理技術(shù)和一階謂詞中類似的處理技術(shù)（如用機(jī)器學(xué)習(xí)來解決相似性的問題）。其中一些方法來自于自然語言處理ＮＬＰ領(lǐng)域，如信息檢索，采用傳統(tǒng)的文檔相似計(jì)算方法，選取一些單個(gè)詞語作為文檔特征詞，但是沒有考慮詞語之間的關(guān)系。

概念相似度在不同的應(yīng)用領(lǐng)域中可能會有不同的含義。例如，在信息整合領(lǐng)域中，相似度一般指的是文本與文本能夠匹配的程度；而在信息檢索領(lǐng)域中，相似度則反映與用戶查詢在語義上的匹配程度，相似度越高，表明該文本與用戶的請求越相近。本文的研究即是信息檢索領(lǐng)域。同時(shí)，同一個(gè)詞語在不同的上下文中可能會有不同的語義，即語義多元化。本文是在已經(jīng)對詞語排除歧義的基礎(chǔ)上，對概念的語義進(jìn)行比較。

６．１．１概念的相關(guān)性和相似性

概念的相關(guān)性和相似性是兩個(gè)聯(lián)系緊密、容易混淆的概念。劉群等姍辨析了詞匯語義的相關(guān)性和相似性之間的關(guān)系，認(rèn)為：概念相似性反映了概念之間的聚合特點(diǎn)，而概念相關(guān)性反映了概念之間的組合特點(diǎn)。相關(guān)性和相似性之間存在著密切的聯(lián)系。如果兩個(gè)概念之間非常相似，那么這兩個(gè)概念之間的相關(guān)性程度會比較高。同時(shí)相似的概念之間一般都是相關(guān)的，但是相關(guān)卻不一定相似。例如“蘋果＂和“維生素＂兩個(gè)概念，“蘋果＂含有很多“維生素＂，其相關(guān)性非常高，但是這兩個(gè)概念之間的相似性卻非常低。而“蘋果＂和“葡萄＂作為水果則有相當(dāng)?shù)南嗨菩��？梢哉J(rèn)為，相似是因?yàn)橛兄囝愃频奶卣�，從不同角度看，可能有不同的類似點(diǎn)，從而產(chǎn)生不同的聚合。因此，相似性在很大程度上受到人的主觀因素的影響。而相關(guān)性則是因?yàn)樽匀唤缰械钠毡橐?guī)律而存在，它往往部受人的主觀因素影響，指示受到入的認(rèn)識水平的影響。

本文將相關(guān)性定義為概念之間相互關(guān)聯(lián)的關(guān)系，它體現(xiàn)出來的是一種概念之間的依賴關(guān)系。而將相似性看作是相關(guān)性的一種特例。概念之間的相關(guān)度是相關(guān)的程度，取值在［Ｏ，１］之間的實(shí)數(shù)。如果在一個(gè)確定的概念化體系中，兩個(gè)概念之間存在連通的路徑，那么這兩個(gè)概念就是相關(guān)的，而且可以計(jì)算相關(guān)度，相等

的概念之間的相關(guān)度為１；如果兩個(gè)概念之間不存在連通的路徑，那么這兩個(gè)概念之間的相關(guān)度為Ｏ。

６．１．２詞語相似度與詞語距離

在語言學(xué)研究中，詞匯之間的距離是詞匯之間的一種重要關(guān)系：一般而言，詞語距離是一個(gè)在［０，∞）之間的實(shí)數(shù)。一個(gè)詞語與其本身的距離為０。詞語距離與詞語相似度之間的關(guān)系密切。兩個(gè)詞語的距離越大，其相似度越低；反之，兩個(gè)詞語的距離越小，其相似度越大。二者之間可以建立一種簡單的對應(yīng)關(guān)系。這種對應(yīng)關(guān)系需要滿足以下幾個(gè)條件：

兩個(gè)詞語距離為Ｏ時(shí)，其相似度為１；

兩個(gè)詞語距離為無窮大時(shí)，其相似度為０；

兩個(gè)詞語的距離越大，其相似度越�。▎握{(diào)下降）。

在很多情況下，直接計(jì)算詞語的相似度比較困難，通�？梢韵扔�(jì)算詞語的距離，然后再轉(zhuǎn)換成詞語的相似度。

對于兩個(gè)詞語Ｗ１和ｗ２，記其相似度為Ｓｉｍ（ｗ１，Ｗ２），其詞語距離為Ｄｉｓ（ｗｌ，Ｗ２），可以定義一個(gè)滿足以上條件的簡單的轉(zhuǎn)換關(guān)系：

砌ｚｆ形１，形２）＝———二二—一Ｄ括（形１．礦２）＋口、７

其中口是一個(gè)可調(diào)節(jié)的參數(shù)�？诘暮x是：當(dāng)相似度為Ｏ．５時(shí)的詞語距離值。這種轉(zhuǎn)換關(guān)系并不是唯一的，這里只是給出其中的一種可能。

６．１．３相似度定義

計(jì)算概念的相似度，在著名的韋氏字典給出的相似度的定義為：具有共同的嚴(yán)格可比的特征。我們使用其給出的相似度的形式化定義啪３：定義概念ｘ和ｙ之間的相似度函數(shù)既掰【毛川，則有：

●

●ｓｆ聊（石，ｙ）∈［０，１】ｓ‘歷【石，ｙＪ２ｌ專ｘｕ２夕表示兩個(gè)實(shí)體是相同的Ｊ２聊【ｚ，ｙ）２表示兩個(gè)實(shí)體互不相交，互不相關(guān)表示相似度的對稱性ｓ２瓏【ｘ，ｙ）２ｓ‘掰【ｙ，ｘ）

６．２概念相似度的計(jì)算方法

一般來講，國內(nèi)外對概念間語義相似度的研究大致可以分為兩類：（１）利用語料庫統(tǒng)計(jì)的方法伽，根據(jù)兩個(gè)概念在上下文出現(xiàn)的頻率，計(jì)算概念間語義相似度；（２）利用語義詞典如ＷｏｒＮｅｔ、ＨｏＷＮｅｔ等的同義詞或義原組成的樹狀層次體系結(jié)構(gòu)口７’刪，通過計(jì)算兩個(gè)概念之間的信息嫡或語義距離，計(jì)算概念間的語義距離。５５

６．２．１應(yīng)用語料庫統(tǒng)計(jì)的計(jì)算方法

詞語相似度的計(jì)算方法可以利用大規(guī)模的語料庫來統(tǒng)計(jì)。例如，利用詞語的相關(guān)性來計(jì)算詞語的相似度。事先選擇一組特征詞，然后計(jì)算這一組特征詞與每個(gè)詞的相關(guān)性，通常用這組詞在實(shí)際的大規(guī)模語料庫中該組詞的上下文中出現(xiàn)的頻率來度量，于是對于每個(gè)詞都可以得到一個(gè)相關(guān)性的特征詞向量，然后利用這些向量之間的相似度（通常用向量的夾角余弦來計(jì)算）作為這兩個(gè)詞的相似度。這種方法的假設(shè)是，凡是語義相近的詞，他們的上下文也應(yīng)該相似。

６．２．２應(yīng)用詞典的計(jì)算方法

根據(jù)詞典來計(jì)算詞語語義距離的方法，一般是利用一部同義詞詞典（Ｔｈｅｓａｕｒｕｓ），同義詞詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中。當(dāng)一個(gè)詞匯級語義關(guān)系需要研究時(shí)，有許多潛在的關(guān)系可以考慮進(jìn)去：層次關(guān)系（ｓｕｂＣｌａｓｓＯｆ／ｐａｒｔｏｆ）、因果關(guān)系、等同關(guān)系等等。在這些關(guān)系中層次關(guān)系是最主要和最重要的。層次關(guān)系在人類的認(rèn)知分類關(guān)系中得到廣泛的研究和應(yīng)用。特別地，ｓｕｂＣｌａｓｓｏｆ關(guān)系是層次關(guān)系中的典型代表。

詞匯分類系統(tǒng)中，分類法通常表現(xiàn)為一個(gè)層次性的結(jié)構(gòu)，它可以看作為一個(gè)特別的網(wǎng)絡(luò)結(jié)構(gòu)，在網(wǎng)絡(luò)中評估節(jié)點(diǎn)間的語義相似性可以利用網(wǎng)絡(luò)中蘊(yùn)含的結(jié)構(gòu)信息。在層次語義網(wǎng)絡(luò)中有多種方法測定兩個(gè)詞匯之間的概念相似性�？傮w上可以分為基于節(jié)點(diǎn)和基于邊的方法，分別對應(yīng)于信息內(nèi)容方法和概念距離方法。

６．２．２．１基于信息內(nèi)容的相似度計(jì)算方法

基于節(jié)點(diǎn)的計(jì)算概念相似性的方法稱為信息內(nèi)容方法，給出了一個(gè)多維空間，其中的一個(gè)節(jié)點(diǎn)代表包含一定數(shù)量信息的唯一概念，邊代表兩個(gè)概念之間的直接聯(lián)系，兩個(gè)概念之間的相似度是他們所共有信息的程度�？紤]到在這樣的層次性概念／類空間中，共享信息的載體可以看做是層次結(jié)構(gòu)中同時(shí)包含這兩個(gè)信息的特定的概念節(jié)點(diǎn)。超類必須是層次結(jié)構(gòu)中向上搜索到的同時(shí)包含這兩個(gè)類的第一個(gè)超類。相似性的值定義為這個(gè)特定的上位類的信息含量。一個(gè)類的信息含量的值通過估計(jì)這個(gè)類在大量文本語料庫中出現(xiàn)的頻率來獲取。

依照信息理論中的符號，一個(gè)概念／類ｃ的信息含量（ＩｎｆｏｒｍａｔｉｏｎＣｏｎｔｅｎｔ，ＩＣ）量化為

』Ｃ（ｃ）＝三昭ｑＰ（ｃ）

其中Ｐ（ｃ）為概念ｃ的實(shí)例出現(xiàn)的概率。

一、＿７概念ｃ在語料庫中出現(xiàn)的次數(shù)ｎ，＾、，，Ｉ，？－＝————————————————●—————一語料厙的總敢

在這樣的層次結(jié)構(gòu)中，一個(gè)概念包含結(jié)構(gòu)中低位的概念，這意味著在層次結(jié)構(gòu)中往上移動(dòng)ｐ（ｃ）單調(diào)上升。當(dāng)節(jié)點(diǎn)的概率上升時(shí)，它的信息含量遞減。如果層次結(jié)構(gòu)中有一個(gè)唯一的頂層節(jié)點(diǎn)，，那么它的概率為１，因此它的信息含量為０．５６

這樣，依照上面概念信息的量化公式，可以得到層次網(wǎng)絡(luò)中任意兩個(gè)概念之間的語義相似度計(jì)算模型

ｓ咖（ｃｌ，ｃ２）：蘭：塑型！趔、‘’托？（ｃ１）＋圮（ｃ２）

其中Ａｎｃ（ｃｌ，ｃ２）表示概念節(jié)點(diǎn)ｃ１和ｃ２在層次網(wǎng)絡(luò)中的最近共同祖先節(jié)點(diǎn)。６．２．２．２基于概念距離的相似度計(jì)算

基于邊的方法在分類系統(tǒng)中是一種更自然和更直接的估算語義相似度的方法。它估算了對應(yīng)于要比較的概念／類的節(jié)點(diǎn)之間的距離（如邊的長度）。給定多維的概念系統(tǒng)，概念的距離可以方便地通過度量與概念相對應(yīng)的節(jié)點(diǎn)距離來求得。顯然，從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的距離越短，它們的相似度越高。

在層次型的分類中，距離應(yīng)滿足度量衡量標(biāo)準(zhǔn)的性質(zhì)，即零屬性、對稱屬性、正屬性和三角不等性。此外，在ＩＳ—Ａ語義網(wǎng)絡(luò)中，最簡單的度量兩個(gè)概念節(jié)點(diǎn)的形式是連接這兩個(gè)節(jié)點(diǎn)的最短路徑的長度。

我們知道，在一棵樹形圖中，任何兩個(gè)結(jié)點(diǎn)之間有且只有一條路徑。于是，這條路徑的長度就可以作為這兩個(gè)概念的語義距離的一種度量對于用邊來計(jì)算距離來度量概念距離，一個(gè)最主要最直接的爭論是關(guān)于其前提假設(shè)：概念之間邊或連接表示了相同的距離。在大部分分類學(xué)的本體中，處于層次結(jié)構(gòu)中高位的概念比低位的概念更抽象、更普遍一些。在抽象的概念中一個(gè)邊的距離表示的語義距離比具體概念中的要大一些。因此，僅僅計(jì)算節(jié)點(diǎn)之間的邊的數(shù)量是遠(yuǎn)遠(yuǎn)不夠的。除了結(jié)點(diǎn)間的路徑長度外，還考慮到了其他一些因素。例如：

概念層次樹的深度：路徑長度相同的兩個(gè)結(jié)點(diǎn)，如果位于概念層次的越底層，其語義距離較小；比如說：“動(dòng)物”和“植物＂、“哺乳動(dòng)物”和“爬行動(dòng)物”，這兩對概念間的路徑長度都是２，但前一對詞處于語義樹的較高層，因此認(rèn)為其語義距離較大，后一對詞處于語義樹的較低層，其語義距離更��；

概念層次樹的區(qū)域密度：路徑長度相同的兩個(gè)結(jié)點(diǎn)，如果位于概念層次樹中高密度區(qū)域，其語義距離應(yīng)大于位于低密度區(qū)域。由于ｗｏｒｄｎｅｔ中概念描述的粗細(xì)程度不均，例如動(dòng)植物分類的描述及其詳盡，而有些區(qū)域的概念描述又比較粗疏，所以加入了概念層次樹區(qū)域密度對語義距離的影響。

這兩種方法各有特點(diǎn)�；谡Z料庫的方法比較客觀，綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是，這種方法比較依賴于訓(xùn)練所用的語料庫，計(jì)算量大，計(jì)算方法復(fù)雜，另外，受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大，有時(shí)會出現(xiàn)明顯的錯(cuò)誤�；谠~典的方法簡單有效，也比較直觀、易于理解，但這種方法得到的結(jié)果受人的主觀意識影響較大，有時(shí)并不能準(zhǔn)確反映客觀事實(shí)。另外，這種方法比較準(zhǔn)確地反映了詞語之間語義方面的相似性和差異，而對于詞語之間５７

下載地址：74基于本體技術(shù)的語義檢索及其語義相似度研究_圖文.Doc

　　【】

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

74基于本體技術(shù)的語義檢索及其語義相似度研究