74基于本體技術(shù)的語義檢索及其語義相似度研究
本文關(guān)鍵詞:基于本體技術(shù)的語義檢索及其語義相似度研究,由筆耕文化傳播整理發(fā)布。
(3)檢索結(jié)果的顯示:從模型中檢索出來的滿足條件;5.6實(shí)驗(yàn)系統(tǒng)測試;實(shí)驗(yàn)系統(tǒng)選取了50部手機(jī)作為樣本,如表5—1是其;功能需求“收音機(jī)”;功能;關(guān)鍵詞檢索結(jié)果;語義檢索結(jié)果9部16部“USB數(shù)據(jù)接口”功能13;表5一l;5;本體的良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,使得;第六章基于本體技術(shù)的語義相似度研究;6.1概念相似度理論;概念相似性計(jì)算是自然語言處
(3)檢索結(jié)果的顯示:從模型中檢索出來的滿足條件的信息數(shù)據(jù)需要通過一定的機(jī)制展示給用戶。本實(shí)驗(yàn)系統(tǒng)采用JSP+JavaBean技術(shù),JavaBean負(fù)責(zé)對最終結(jié)果的處理和反饋。
5.6實(shí)驗(yàn)系統(tǒng)測試
實(shí)驗(yàn)系統(tǒng)選取了50部手機(jī)作為樣本,如表5—1是其中的3個(gè)檢索實(shí)例,結(jié)果表明基于本體的語義檢索比傳統(tǒng)的關(guān)鍵詞檢索具有更好的查全率,更加符合用戶的真實(shí)語義需求。
功能需求“收音機(jī)”
功能
關(guān)鍵詞檢索結(jié)果
語義檢索結(jié)果9部16部“USB數(shù)據(jù)接口”功能13部38部操作系統(tǒng)“WindowsMobile”2部5部
表5一l
5。7手機(jī)兩品語義檢索系統(tǒng)實(shí)驗(yàn)用例結(jié)果本章小結(jié)
本體的良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,使得基于本體的信息檢索提供了語義上的智能知識檢索,能夠更加符合用戶的語義要求,有效地提高了檢索性能。本章在前面章節(jié)的關(guān)鍵技術(shù)理論和系統(tǒng)技術(shù)設(shè)計(jì)的基礎(chǔ)上,實(shí)現(xiàn)了基于本體的手機(jī)商品語義檢索系統(tǒng),使得系統(tǒng)可以更好地理解用戶提交的檢索需求,更加準(zhǔn)確和全面地查詢到用戶需要的手機(jī)商品信息。本章介紹了實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)、相應(yīng)的開發(fā)平臺和工具、系統(tǒng)算法和推理實(shí)現(xiàn),以及系統(tǒng)實(shí)現(xiàn)界面等,并對系統(tǒng)進(jìn)行了實(shí)驗(yàn)用例測試,表明基于本體的語義檢索更加符合用戶的真實(shí)語義需求。
第六章基于本體技術(shù)的語義相似度研究
6.1概念相似度理論
概念相似性計(jì)算是自然語言處理研究的重要組成部分,也是人工智能應(yīng)用中亟待解決的問題。概念相似度計(jì)算的基礎(chǔ)理論主要來源于離散數(shù)學(xué)中的圖和樹的匹配技術(shù)、數(shù)據(jù)庫中模式的類似處理技術(shù)和一階謂詞中類似的處理技術(shù)(如用機(jī)器學(xué)習(xí)來解決相似性的問題)。其中一些方法來自于自然語言處理NLP領(lǐng)域,如信息檢索,采用傳統(tǒng)的文檔相似計(jì)算方法,選取一些單個(gè)詞語作為文檔特征詞,但是沒有考慮詞語之間的關(guān)系。
概念相似度在不同的應(yīng)用領(lǐng)域中可能會有不同的含義。例如,在信息整合領(lǐng)域中,相似度一般指的是文本與文本能夠匹配的程度;而在信息檢索領(lǐng)域中,相似度則反映與用戶查詢在語義上的匹配程度,相似度越高,表明該文本與用戶的請求越相近。本文的研究即是信息檢索領(lǐng)域。同時(shí),同一個(gè)詞語在不同的上下文中可能會有不同的語義,即語義多元化。本文是在已經(jīng)對詞語排除歧義的基礎(chǔ)上,對概念的語義進(jìn)行比較。
6.1.1概念的相關(guān)性和相似性
概念的相關(guān)性和相似性是兩個(gè)聯(lián)系緊密、容易混淆的概念。劉群等姍辨析了詞匯語義的相關(guān)性和相似性之間的關(guān)系,認(rèn)為:概念相似性反映了概念之間的聚合特點(diǎn),而概念相關(guān)性反映了概念之間的組合特點(diǎn)。相關(guān)性和相似性之間存在著密切的聯(lián)系。如果兩個(gè)概念之間非常相似,那么這兩個(gè)概念之間的相關(guān)性程度會比較高。同時(shí)相似的概念之間一般都是相關(guān)的,但是相關(guān)卻不一定相似。例如“蘋果"和“維生素"兩個(gè)概念,“蘋果"含有很多“維生素",其相關(guān)性非常高,但是這兩個(gè)概念之間的相似性卻非常低。而“蘋果"和“葡萄"作為水果則有相當(dāng)?shù)南嗨菩?梢哉J(rèn)為,相似是因?yàn)橛兄囝愃频奶卣,從不同角度看,可能有不同的類似點(diǎn),從而產(chǎn)生不同的聚合。因此,相似性在很大程度上受到人的主觀因素的影響。而相關(guān)性則是因?yàn)樽匀唤缰械钠毡橐?guī)律而存在,它往往部受人的主觀因素影響,指示受到入的認(rèn)識水平的影響。
本文將相關(guān)性定義為概念之間相互關(guān)聯(lián)的關(guān)系,它體現(xiàn)出來的是一種概念之間的依賴關(guān)系。而將相似性看作是相關(guān)性的一種特例。概念之間的相關(guān)度是相關(guān)的程度,取值在[O,1]之間的實(shí)數(shù)。如果在一個(gè)確定的概念化體系中,兩個(gè)概念之間存在連通的路徑,那么這兩個(gè)概念就是相關(guān)的,而且可以計(jì)算相關(guān)度,相等
的概念之間的相關(guān)度為1;如果兩個(gè)概念之間不存在連通的路徑,那么這兩個(gè)概念之間的相關(guān)度為O。
6.1.2詞語相似度與詞語距離
在語言學(xué)研究中,詞匯之間的距離是詞匯之間的一種重要關(guān)系:一般而言,詞語距離是一個(gè)在[0,∞)之間的實(shí)數(shù)。一個(gè)詞語與其本身的距離為0。詞語距離與詞語相似度之間的關(guān)系密切。兩個(gè)詞語的距離越大,其相似度越低;反之,兩個(gè)詞語的距離越小,其相似度越大。二者之間可以建立一種簡單的對應(yīng)關(guān)系。這種對應(yīng)關(guān)系需要滿足以下幾個(gè)條件:
兩個(gè)詞語距離為O時(shí),其相似度為1;
兩個(gè)詞語距離為無窮大時(shí),其相似度為0;
兩個(gè)詞語的距離越大,其相似度越。▎握{(diào)下降)。
在很多情況下,直接計(jì)算詞語的相似度比較困難,通?梢韵扔(jì)算詞語的距離,然后再轉(zhuǎn)換成詞語的相似度。
對于兩個(gè)詞語W1和w2,記其相似度為Sim(w1,W2),其詞語距離為Dis(wl,W2),可以定義一個(gè)滿足以上條件的簡單的轉(zhuǎn)換關(guān)系:
砌zf形1,形2)=———二二—一D括(形1.礦2)+口、7
其中口是一個(gè)可調(diào)節(jié)的參數(shù)?诘暮x是:當(dāng)相似度為O.5時(shí)的詞語距離值。這種轉(zhuǎn)換關(guān)系并不是唯一的,這里只是給出其中的一種可能。
6.1.3相似度定義
計(jì)算概念的相似度,在著名的韋氏字典給出的相似度的定義為:具有共同的嚴(yán)格可比的特征。我們使用其給出的相似度的形式化定義啪3:定義概念x和y之間的相似度函數(shù)既掰【毛川,則有:
?
●
?
●sf聊(石,y)∈[0,1】s‘歷【石,yJ2l專xu2夕表示兩個(gè)實(shí)體是相同的J2聊【z,y)2表示兩個(gè)實(shí)體互不相交,互不相關(guān)表示相似度的對稱性s2瓏【x,y)2s‘掰【y,x)
6.2概念相似度的計(jì)算方法
一般來講,國內(nèi)外對概念間語義相似度的研究大致可以分為兩類:(1)利用語料庫統(tǒng)計(jì)的方法伽,根據(jù)兩個(gè)概念在上下文出現(xiàn)的頻率,計(jì)算概念間語義相似度;(2)利用語義詞典如WorNet、HoWNet等的同義詞或義原組成的樹狀層次體系結(jié)構(gòu)口7’刪,通過計(jì)算兩個(gè)概念之間的信息嫡或語義距離,計(jì)算概念間的語義距離。55
6.2.1應(yīng)用語料庫統(tǒng)計(jì)的計(jì)算方法
詞語相似度的計(jì)算方法可以利用大規(guī)模的語料庫來統(tǒng)計(jì)。例如,利用詞語的相關(guān)性來計(jì)算詞語的相似度。事先選擇一組特征詞,然后計(jì)算這一組特征詞與每個(gè)詞的相關(guān)性,通常用這組詞在實(shí)際的大規(guī)模語料庫中該組詞的上下文中出現(xiàn)的頻率來度量,于是對于每個(gè)詞都可以得到一個(gè)相關(guān)性的特征詞向量,然后利用這些向量之間的相似度(通常用向量的夾角余弦來計(jì)算)作為這兩個(gè)詞的相似度。這種方法的假設(shè)是,凡是語義相近的詞,他們的上下文也應(yīng)該相似。
6.2.2應(yīng)用詞典的計(jì)算方法
根據(jù)詞典來計(jì)算詞語語義距離的方法,一般是利用一部同義詞詞典(Thesaurus),同義詞詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中。當(dāng)一個(gè)詞匯級語義關(guān)系需要研究時(shí),有許多潛在的關(guān)系可以考慮進(jìn)去:層次關(guān)系(subClassOf/partof)、因果關(guān)系、等同關(guān)系等等。在這些關(guān)系中層次關(guān)系是最主要和最重要的。層次關(guān)系在人類的認(rèn)知分類關(guān)系中得到廣泛的研究和應(yīng)用。特別地,subClassof關(guān)系是層次關(guān)系中的典型代表。
詞匯分類系統(tǒng)中,分類法通常表現(xiàn)為一個(gè)層次性的結(jié)構(gòu),它可以看作為一個(gè)特別的網(wǎng)絡(luò)結(jié)構(gòu),在網(wǎng)絡(luò)中評估節(jié)點(diǎn)間的語義相似性可以利用網(wǎng)絡(luò)中蘊(yùn)含的結(jié)構(gòu)信息。在層次語義網(wǎng)絡(luò)中有多種方法測定兩個(gè)詞匯之間的概念相似性?傮w上可以分為基于節(jié)點(diǎn)和基于邊的方法,分別對應(yīng)于信息內(nèi)容方法和概念距離方法。
6.2.2.1基于信息內(nèi)容的相似度計(jì)算方法
基于節(jié)點(diǎn)的計(jì)算概念相似性的方法稱為信息內(nèi)容方法,給出了一個(gè)多維空間,其中的一個(gè)節(jié)點(diǎn)代表包含一定數(shù)量信息的唯一概念,邊代表兩個(gè)概念之間的直接聯(lián)系,兩個(gè)概念之間的相似度是他們所共有信息的程度?紤]到在這樣的層次性概念/類空間中,共享信息的載體可以看做是層次結(jié)構(gòu)中同時(shí)包含這兩個(gè)信息的特定的概念節(jié)點(diǎn)。超類必須是層次結(jié)構(gòu)中向上搜索到的同時(shí)包含這兩個(gè)類的第一個(gè)超類。相似性的值定義為這個(gè)特定的上位類的信息含量。一個(gè)類的信息含量的值通過估計(jì)這個(gè)類在大量文本語料庫中出現(xiàn)的頻率來獲取。
依照信息理論中的符號,一個(gè)概念/類c的信息含量(InformationContent,IC)量化為
』C(c)=三昭qP(c)
其中P(c)為概念c的實(shí)例出現(xiàn)的概率。
一、_7概念c在語料庫中出現(xiàn)的次數(shù)n,^、,,I,?-=————————————————●—————一語料厙的總敢
在這樣的層次結(jié)構(gòu)中,一個(gè)概念包含結(jié)構(gòu)中低位的概念,這意味著在層次結(jié)構(gòu)中往上移動(dòng)p(c)單調(diào)上升。當(dāng)節(jié)點(diǎn)的概率上升時(shí),它的信息含量遞減。如果層次結(jié)構(gòu)中有一個(gè)唯一的頂層節(jié)點(diǎn),,那么它的概率為1,因此它的信息含量為0.56
這樣,依照上面概念信息的量化公式,可以得到層次網(wǎng)絡(luò)中任意兩個(gè)概念之間的語義相似度計(jì)算模型
s咖(cl,c2):蘭:塑型!趔、‘’托?(c1)+圮(c2)
其中Anc(cl,c2)表示概念節(jié)點(diǎn)c1和c2在層次網(wǎng)絡(luò)中的最近共同祖先節(jié)點(diǎn)。6.2.2.2基于概念距離的相似度計(jì)算
基于邊的方法在分類系統(tǒng)中是一種更自然和更直接的估算語義相似度的方法。它估算了對應(yīng)于要比較的概念/類的節(jié)點(diǎn)之間的距離(如邊的長度)。給定多維的概念系統(tǒng),概念的距離可以方便地通過度量與概念相對應(yīng)的節(jié)點(diǎn)距離來求得。顯然,從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的距離越短,它們的相似度越高。
在層次型的分類中,距離應(yīng)滿足度量衡量標(biāo)準(zhǔn)的性質(zhì),即零屬性、對稱屬性、正屬性和三角不等性。此外,在IS—A語義網(wǎng)絡(luò)中,最簡單的度量兩個(gè)概念節(jié)點(diǎn)的形式是連接這兩個(gè)節(jié)點(diǎn)的最短路徑的長度。
我們知道,在一棵樹形圖中,任何兩個(gè)結(jié)點(diǎn)之間有且只有一條路徑。于是,這條路徑的長度就可以作為這兩個(gè)概念的語義距離的一種度量對于用邊來計(jì)算距離來度量概念距離,一個(gè)最主要最直接的爭論是關(guān)于其前提假設(shè):概念之間邊或連接表示了相同的距離。在大部分分類學(xué)的本體中,處于層次結(jié)構(gòu)中高位的概念比低位的概念更抽象、更普遍一些。在抽象的概念中一個(gè)邊的距離表示的語義距離比具體概念中的要大一些。因此,僅僅計(jì)算節(jié)點(diǎn)之間的邊的數(shù)量是遠(yuǎn)遠(yuǎn)不夠的。除了結(jié)點(diǎn)間的路徑長度外,還考慮到了其他一些因素。例如:
概念層次樹的深度:路徑長度相同的兩個(gè)結(jié)點(diǎn),如果位于概念層次的越底層,其語義距離較小;比如說:“動(dòng)物”和“植物"、“哺乳動(dòng)物”和“爬行動(dòng)物”,這兩對概念間的路徑長度都是2,但前一對詞處于語義樹的較高層,因此認(rèn)為其語義距離較大,后一對詞處于語義樹的較低層,其語義距離更;
概念層次樹的區(qū)域密度:路徑長度相同的兩個(gè)結(jié)點(diǎn),如果位于概念層次樹中高密度區(qū)域,其語義距離應(yīng)大于位于低密度區(qū)域。由于wordnet中概念描述的粗細(xì)程度不均,例如動(dòng)植物分類的描述及其詳盡,而有些區(qū)域的概念描述又比較粗疏,所以加入了概念層次樹區(qū)域密度對語義距離的影響。
這兩種方法各有特點(diǎn);谡Z料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語料庫,計(jì)算量大,計(jì)算方法復(fù)雜,另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時(shí)會出現(xiàn)明顯的錯(cuò)誤;谠~典的方法簡單有效,也比較直觀、易于理解,但這種方法得到的結(jié)果受人的主觀意識影響較大,有時(shí)并不能準(zhǔn)確反映客觀事實(shí)。另外,這種方法比較準(zhǔn)確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間57
下載地址:74基于本體技術(shù)的語義檢索及其語義相似度研究_圖文.Doc
【】最新搜索
基于本體技術(shù)的語義檢索及其語義相似度研究_圖文
32民主評議黨員個(gè)人黨性分析報(bào)告
工程資料專員
精神病專項(xiàng)協(xié)議書
172016屆高考《政治生活》知識框架與核心知識歸納_圖文
酒店點(diǎn)菜系統(tǒng)— 詳細(xì)設(shè)計(jì)說明書
培優(yōu)第一課:初一名詞單復(fù)數(shù)_講義
華圖判斷推理誰講的好
建構(gòu)主義學(xué)習(xí)理論的主要觀點(diǎn)和代表人物
開發(fā)部報(bào)批報(bào)建管理制度v1.073
本文關(guān)鍵詞:基于本體技術(shù)的語義檢索及其語義相似度研究,由筆耕文化傳播整理發(fā)布。
本文編號:228036
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/228036.html