基于外部語義知識補全的自然語言查詢
發(fā)布時間:2021-03-21 07:48
語義網(wǎng)是依托互聯(lián)網(wǎng)技術而產(chǎn)生的一類非常重要的資源。目前,語義網(wǎng)中的用戶查詢僅支持形式化的查詢方式,因此需要嚴格地遵循某種特定的語法規(guī)范,從而導致只有熟悉語義網(wǎng)系統(tǒng)和形式語言的專業(yè)人士才能正確進行查詢操作。為了彌補這一缺陷,提出了一個無指導的自然語言查詢系統(tǒng),它能自動地將自然語言的句子轉(zhuǎn)換成語義網(wǎng)查詢支持的形式語言語句,從而方便非專業(yè)用戶(即普通用戶)使用。該系統(tǒng)首先根據(jù)語義網(wǎng)自動抽取給定句子中的所有實體和屬性,然后將這些實體和屬性關聯(lián)起來形成一個語義關聯(lián)圖,最后通過啟發(fā)式的方式從圖中搜索出一條最優(yōu)路徑,并將這條路徑轉(zhuǎn)換成SPARQL語句。該系統(tǒng)最關鍵的部分在于語義網(wǎng)中的實體和屬性覆蓋度,它能直接決定語義關聯(lián)圖的好壞,從而影響系統(tǒng)的最終性能。為了提升系統(tǒng)的實用性,進一步利用外部語義網(wǎng)的知識來補全和豐富自然語言句子中所蘊含的信息,優(yōu)化中間生成的語義關聯(lián)度,得到更準確的SPARQL語句。最后采用美國地理問題集進行實驗以驗證該系統(tǒng)以及提出的改進方法,該數(shù)據(jù)集共包含了880個問句的人工SPARQL語句,是自然語言查詢相關工作中一個被廣泛認可的數(shù)據(jù)集。最終實驗結果表明:提出的基準系統(tǒng)能夠正確回答7...
【文章來源】:計算機科學. 2019,46(08)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1實體與屬性抽取的實例Fig.1Exampleofentityandattributeextraction
都可以直接相連。對于前面的例子,通過建圖,可以得到如圖2所示的〈實體-屬性〉關聯(lián)圖,其中〈實體-屬性〉之間的路徑連接參見虛線線條,start和end是兩個人工構造的節(jié)點,以方便后續(xù)的路徑搜索。圖2〈實體-屬性〉關聯(lián)圖Fig.2〈entity-attribute〉relationshipdiagram當〈實體-屬性〉關聯(lián)圖建立完成之后,搜索一條從start節(jié)點到end節(jié)點的最優(yōu)路徑。其中每條路徑的得分直接根據(jù)路徑中每個節(jié)點的得分之和產(chǎn)生,而每個節(jié)點的得分又與該節(jié)點新產(chǎn)生的實體數(shù)目Ne和新產(chǎn)生的屬性數(shù)目Na有關,其計算分數(shù)也非常簡單,如下所示:score(·)=Ne+1Na+1直覺上,如果一條路徑上的實體數(shù)目越多,且屬性數(shù)目越少,則該路徑越可能被選擇。換句話說,如果一個新增加的實體節(jié)點能盡量不增加屬性數(shù)目,則該節(jié)點更有可能被添加到最終的路徑中。根據(jù)上面的路徑分數(shù)計算方法可知,在圖2所示的例子中,〈start〉→〈population,hasPopulation〉→〈new-york,city〉→〈city,city〉→〈end〉的總得分為1+1+2=4;而〈start〉→〈population,hasPopulation〉→〈newyork,state〉→〈city,city〉→〈end〉的總得分為1+1+1=3。圖2最后得到的最優(yōu)路徑實際上為〈start〉→〈population,h
圖3句法和語義分析結果Fig.3Analysisresultsofsyntacticandsemantic圖4實體屬性詞的抽。疲椋纾矗牛簦颍幔悖簦椋铮睿铮妫澹睿簦椋簦幔簦簦颍椋猓酰簦澹鳎铮颍鋵⑷M全部被抽取出來之后進行簡單的頻率過濾,保留一些可信度比較高的三元組,并將這些三元組逐個加入到現(xiàn)有的語義網(wǎng)中。具體的構建方式也非常簡單,即首先查找實體,如果現(xiàn)有語義網(wǎng)中沒有這些實體,則將其作為一個頂點加入其中,然后再查找關系以及邊,將這些頂點相連,并指定邊上的關系,這些邊上關系對應于一個實體和屬性。5實驗本實驗采用的語義網(wǎng)數(shù)據(jù)是通過對美國地理數(shù)據(jù)庫進行轉(zhuǎn)換而產(chǎn)生的。該數(shù)據(jù)庫的原始數(shù)據(jù)是使用Prolog語言進行描述的,這里首先將Prolog描述的數(shù)據(jù)轉(zhuǎn)換成關系數(shù)據(jù)庫,然后通過開源工具將得到的關系數(shù)據(jù)庫轉(zhuǎn)化成RDF格式的本體數(shù)據(jù)。本實驗使用的自然語言的問題集來自于德克薩斯州立大學自然語言處理團隊開發(fā)的針對美國地理數(shù)據(jù)庫的問題集,它一共包含880個自然語言問句。這一問題集已被廣泛用于語義分析、問答以及自然語言查詢等相關任務中。本文進一步對這些問句進行了人工標注,使得每一個自然語言的問句都對應一個SPARQL查詢。在實驗評價時,由于很難直接采用SPARQL語句來進行評價,因此使用系統(tǒng)生成的SPARQL語句和正確SPARQL語句在語義網(wǎng)數(shù)據(jù)中的結果來進行評價,如果兩者一致,則認為查詢結果正確,否則認為查詢結果錯誤。最終的評價指標為準確率,即對880句自然語言問句進行自動
【參考文獻】:
期刊論文
[1]面向知識庫的中文自然語言問句的語義理解[J]. 許坤,馮巖松,趙東巖,陳立偉,鄒磊. 北京大學學報(自然科學版). 2014(01)
[2]基于自然語言理解的SPARQL本體查詢[J]. 張宗仁,楊天奇. 計算機應用. 2010(12)
[3]基于Ontology的數(shù)據(jù)庫自然語言查詢接口的研究[J]. 李虎,田金文,王緩緩,石勇. 計算機科學. 2010(06)
本文編號:3092497
【文章來源】:計算機科學. 2019,46(08)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1實體與屬性抽取的實例Fig.1Exampleofentityandattributeextraction
都可以直接相連。對于前面的例子,通過建圖,可以得到如圖2所示的〈實體-屬性〉關聯(lián)圖,其中〈實體-屬性〉之間的路徑連接參見虛線線條,start和end是兩個人工構造的節(jié)點,以方便后續(xù)的路徑搜索。圖2〈實體-屬性〉關聯(lián)圖Fig.2〈entity-attribute〉relationshipdiagram當〈實體-屬性〉關聯(lián)圖建立完成之后,搜索一條從start節(jié)點到end節(jié)點的最優(yōu)路徑。其中每條路徑的得分直接根據(jù)路徑中每個節(jié)點的得分之和產(chǎn)生,而每個節(jié)點的得分又與該節(jié)點新產(chǎn)生的實體數(shù)目Ne和新產(chǎn)生的屬性數(shù)目Na有關,其計算分數(shù)也非常簡單,如下所示:score(·)=Ne+1Na+1直覺上,如果一條路徑上的實體數(shù)目越多,且屬性數(shù)目越少,則該路徑越可能被選擇。換句話說,如果一個新增加的實體節(jié)點能盡量不增加屬性數(shù)目,則該節(jié)點更有可能被添加到最終的路徑中。根據(jù)上面的路徑分數(shù)計算方法可知,在圖2所示的例子中,〈start〉→〈population,hasPopulation〉→〈new-york,city〉→〈city,city〉→〈end〉的總得分為1+1+2=4;而〈start〉→〈population,hasPopulation〉→〈newyork,state〉→〈city,city〉→〈end〉的總得分為1+1+1=3。圖2最后得到的最優(yōu)路徑實際上為〈start〉→〈population,h
圖3句法和語義分析結果Fig.3Analysisresultsofsyntacticandsemantic圖4實體屬性詞的抽。疲椋纾矗牛簦颍幔悖簦椋铮睿铮妫澹睿簦椋簦幔簦簦颍椋猓酰簦澹鳎铮颍鋵⑷M全部被抽取出來之后進行簡單的頻率過濾,保留一些可信度比較高的三元組,并將這些三元組逐個加入到現(xiàn)有的語義網(wǎng)中。具體的構建方式也非常簡單,即首先查找實體,如果現(xiàn)有語義網(wǎng)中沒有這些實體,則將其作為一個頂點加入其中,然后再查找關系以及邊,將這些頂點相連,并指定邊上的關系,這些邊上關系對應于一個實體和屬性。5實驗本實驗采用的語義網(wǎng)數(shù)據(jù)是通過對美國地理數(shù)據(jù)庫進行轉(zhuǎn)換而產(chǎn)生的。該數(shù)據(jù)庫的原始數(shù)據(jù)是使用Prolog語言進行描述的,這里首先將Prolog描述的數(shù)據(jù)轉(zhuǎn)換成關系數(shù)據(jù)庫,然后通過開源工具將得到的關系數(shù)據(jù)庫轉(zhuǎn)化成RDF格式的本體數(shù)據(jù)。本實驗使用的自然語言的問題集來自于德克薩斯州立大學自然語言處理團隊開發(fā)的針對美國地理數(shù)據(jù)庫的問題集,它一共包含880個自然語言問句。這一問題集已被廣泛用于語義分析、問答以及自然語言查詢等相關任務中。本文進一步對這些問句進行了人工標注,使得每一個自然語言的問句都對應一個SPARQL查詢。在實驗評價時,由于很難直接采用SPARQL語句來進行評價,因此使用系統(tǒng)生成的SPARQL語句和正確SPARQL語句在語義網(wǎng)數(shù)據(jù)中的結果來進行評價,如果兩者一致,則認為查詢結果正確,否則認為查詢結果錯誤。最終的評價指標為準確率,即對880句自然語言問句進行自動
【參考文獻】:
期刊論文
[1]面向知識庫的中文自然語言問句的語義理解[J]. 許坤,馮巖松,趙東巖,陳立偉,鄒磊. 北京大學學報(自然科學版). 2014(01)
[2]基于自然語言理解的SPARQL本體查詢[J]. 張宗仁,楊天奇. 計算機應用. 2010(12)
[3]基于Ontology的數(shù)據(jù)庫自然語言查詢接口的研究[J]. 李虎,田金文,王緩緩,石勇. 計算機科學. 2010(06)
本文編號:3092497
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3092497.html
最近更新
教材專著