面向開放式信息抽取系統(tǒng)的知識推理驗證研究
發(fā)布時間:2021-06-26 13:53
開放式信息抽取系統(tǒng)是從web等非結(jié)構化文本中挖掘知識的主要途徑,但是其抽取結(jié)果往往存在大量噪聲,對知識發(fā)現(xiàn)以及知識庫構建產(chǎn)生較大影響。針對該問題,本文提出一種基于概率軟邏輯模型的知識推理驗證方法。該方法首先使用一階邏輯語言對知識抽取結(jié)果進行轉(zhuǎn)化和推理,并且在推理過程中引入規(guī)則進行語義約束。此外,為解決目前推理規(guī)則過于依賴于人工定制的問題,本文建立一種推理規(guī)則自動學習機制,解除傳統(tǒng)知識推理對于人工制定規(guī)則的依賴,實現(xiàn)對知識的全面自動推理和驗證。實驗結(jié)果表明本文提出的推理模型較對比模型具有更優(yōu)的算法性能,提高了知識推理效率,對驗證知識的語義規(guī)范性和正確性有積極作用。同時,我們設計了三種策略來評價學習得到的規(guī)則質(zhì)量:第一種策略是與專家系統(tǒng)得出的規(guī)則作對比;第二種策略是將得到的規(guī)則放入推理模型進行驗證;為了證明規(guī)則學習模型得到的規(guī)則具有普遍適用性,我們設計第三種策略將規(guī)則學習方法放在兩個不同的數(shù)據(jù)集上進行學習,并且將得到的規(guī)則引入到Trans系列模型中試圖以此方式來提高其在知識驗證方面的效果,并根據(jù)最后的推理效果作為評價規(guī)則的普遍適用性的重要依據(jù)。
【文章來源】:西南科技大學四川省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
TransE原理示意
西南科技大學碩士學位論文12Trans系列模型中TransE在知識表示學習中的特點就是簡單且高效,但是它存在很多缺陷,例如在處理Inverse關系、一對多、多對一、多對多關系時存在極大不足。為了彌補TransE模型在這些方面的不足,2014年Wangetal.提出了transH模型,其核心思想是對每一個關系定義一個超平面Wr和一個關系向量dr。h,t是h,t在Wr上的投影,同時三元組關系還需滿足hr+dr=tr。這樣可以令同一實體在不同的關系中的意義不同,不同的實體在同一關系中的意義可以相同。圖2-2TransH原理示意對于正確的三元組(h,r,t),它需要滿足的關系如圖2-2所示。對于一個實體h’’如果滿足(h’’,r,t),在TransE模型中需要的是必須要令h’’=h,而在TransH模型中則只需要兩個頭實體向量在含義向量平面Wr的投影相同即可。實現(xiàn)了不同的實體在同一關系中的意義可以相同。但是由于Trans模型的向量轉(zhuǎn)化比較依賴于知識庫中的已有知識,所以模型在知識的鏈接預測方面會有比較好的效果,但是假設知識庫中的知識錯誤過多而且無法引入外部規(guī)則的情況下,模型的驗證效果和鏈接預測效果會比較差。后續(xù)實驗也證實了以上觀點。2.3本章小結(jié)本章主要介紹了目前知識推理的幾個熱點研究方向的主要原理,知識嵌入的方法旨在將實體和關系映射為空間中的向量,通過空間中向量的運算來進行知識推理,該方法取得了較好的準確率,但是推理過程沒有規(guī)則的引入解釋性也不強;诂F(xiàn)有的概率推理模型,進一步研究如何更好地建模推理過程和提高推理效率將成為需要致力
后的兩條規(guī)則是兩個先驗,第一個是如果P1認識P2那么P2也一定認識P1這是一個很重要的先驗,并且它沒有權重,作為整個模型的一個最基本的規(guī)定。另外一條先驗知識表示的是數(shù)據(jù)中任意兩個人互相不認識的可能性是5。每一條規(guī)則的最后的平方是為了計算HingeLoss函數(shù)。給定了數(shù)據(jù)以及實體關系之間的規(guī)則接下來需要做的就是使用給定數(shù)據(jù)對模型進行學習,模型學習的整個過程可以理解為規(guī)則權重在訓練數(shù)據(jù)中的調(diào)整過程。在模型學習完成之后就是對模型進行評估,PSL的模型推理速度慢是一個比較大的問題,對此PSL會對數(shù)據(jù)進行分塊。圖3-7分塊后的數(shù)據(jù)如圖3-7所示,為了得到比較快速的學習和推理速度,PSL將數(shù)據(jù)劃分為觀察數(shù)據(jù)knows_obs即為實際數(shù)據(jù),其中包含的是實際存在的兩個人互相認識的情況也就是規(guī)則頭中的Knows(P1,P2)這樣的關系元組,在這部分數(shù)據(jù)中每個關系元組的權重都為1。knows_targets即為我們預測的人物之間是否相識的可能性。這也是最終模型的輸出,這部分數(shù)據(jù)的主要內(nèi)容是每一個關系元組Knows(P1,P2)的權值。這部分的關系元組是已有的人物和關系的全部的組合方式。knows_truth即為對于所有人物之間互相認識的實際情況,他們的權值非0即為1。是用來評估模型的性能的測試數(shù)據(jù)。PSL框架為模型提供了豐富的評價方法,包括Precision,F(xiàn)1,Recall以及AUC。3.3.3評測標準本文采用Recall、Precision、F1作為評價指標作為實驗的評測標準,評價指標如下
【參考文獻】:
期刊論文
[1]規(guī)則半自動學習的概率軟邏輯推理模型[J]. 張嘉,張暉,趙旭劍,楊春明,李波. 計算機應用. 2018(11)
[2]基于位置的知識圖譜鏈接預測[J]. 張寧豫,陳曦,陳矯彥,鄧淑敏,阮偉,吳春明,陳華鈞. 中文信息學報. 2018(04)
[3]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[4]基于本地封閉世界假設的事務模型[J]. 張建英,林敏泓,王秀坤. 計算機工程. 2010(11)
[5]維基百科,全世界的百科全書——Jimmy Wales[J]. Orrin. 程序員. 2007(08)
[6]統(tǒng)計關系學習模型Markov邏輯網(wǎng)綜述[J]. 孫舒楊,劉大有,孫成敏,黃冠利. 計算機應用研究. 2007(02)
本文編號:3251465
【文章來源】:西南科技大學四川省
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
TransE原理示意
西南科技大學碩士學位論文12Trans系列模型中TransE在知識表示學習中的特點就是簡單且高效,但是它存在很多缺陷,例如在處理Inverse關系、一對多、多對一、多對多關系時存在極大不足。為了彌補TransE模型在這些方面的不足,2014年Wangetal.提出了transH模型,其核心思想是對每一個關系定義一個超平面Wr和一個關系向量dr。h,t是h,t在Wr上的投影,同時三元組關系還需滿足hr+dr=tr。這樣可以令同一實體在不同的關系中的意義不同,不同的實體在同一關系中的意義可以相同。圖2-2TransH原理示意對于正確的三元組(h,r,t),它需要滿足的關系如圖2-2所示。對于一個實體h’’如果滿足(h’’,r,t),在TransE模型中需要的是必須要令h’’=h,而在TransH模型中則只需要兩個頭實體向量在含義向量平面Wr的投影相同即可。實現(xiàn)了不同的實體在同一關系中的意義可以相同。但是由于Trans模型的向量轉(zhuǎn)化比較依賴于知識庫中的已有知識,所以模型在知識的鏈接預測方面會有比較好的效果,但是假設知識庫中的知識錯誤過多而且無法引入外部規(guī)則的情況下,模型的驗證效果和鏈接預測效果會比較差。后續(xù)實驗也證實了以上觀點。2.3本章小結(jié)本章主要介紹了目前知識推理的幾個熱點研究方向的主要原理,知識嵌入的方法旨在將實體和關系映射為空間中的向量,通過空間中向量的運算來進行知識推理,該方法取得了較好的準確率,但是推理過程沒有規(guī)則的引入解釋性也不強;诂F(xiàn)有的概率推理模型,進一步研究如何更好地建模推理過程和提高推理效率將成為需要致力
后的兩條規(guī)則是兩個先驗,第一個是如果P1認識P2那么P2也一定認識P1這是一個很重要的先驗,并且它沒有權重,作為整個模型的一個最基本的規(guī)定。另外一條先驗知識表示的是數(shù)據(jù)中任意兩個人互相不認識的可能性是5。每一條規(guī)則的最后的平方是為了計算HingeLoss函數(shù)。給定了數(shù)據(jù)以及實體關系之間的規(guī)則接下來需要做的就是使用給定數(shù)據(jù)對模型進行學習,模型學習的整個過程可以理解為規(guī)則權重在訓練數(shù)據(jù)中的調(diào)整過程。在模型學習完成之后就是對模型進行評估,PSL的模型推理速度慢是一個比較大的問題,對此PSL會對數(shù)據(jù)進行分塊。圖3-7分塊后的數(shù)據(jù)如圖3-7所示,為了得到比較快速的學習和推理速度,PSL將數(shù)據(jù)劃分為觀察數(shù)據(jù)knows_obs即為實際數(shù)據(jù),其中包含的是實際存在的兩個人互相認識的情況也就是規(guī)則頭中的Knows(P1,P2)這樣的關系元組,在這部分數(shù)據(jù)中每個關系元組的權重都為1。knows_targets即為我們預測的人物之間是否相識的可能性。這也是最終模型的輸出,這部分數(shù)據(jù)的主要內(nèi)容是每一個關系元組Knows(P1,P2)的權值。這部分的關系元組是已有的人物和關系的全部的組合方式。knows_truth即為對于所有人物之間互相認識的實際情況,他們的權值非0即為1。是用來評估模型的性能的測試數(shù)據(jù)。PSL框架為模型提供了豐富的評價方法,包括Precision,F(xiàn)1,Recall以及AUC。3.3.3評測標準本文采用Recall、Precision、F1作為評價指標作為實驗的評測標準,評價指標如下
【參考文獻】:
期刊論文
[1]規(guī)則半自動學習的概率軟邏輯推理模型[J]. 張嘉,張暉,趙旭劍,楊春明,李波. 計算機應用. 2018(11)
[2]基于位置的知識圖譜鏈接預測[J]. 張寧豫,陳曦,陳矯彥,鄧淑敏,阮偉,吳春明,陳華鈞. 中文信息學報. 2018(04)
[3]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[4]基于本地封閉世界假設的事務模型[J]. 張建英,林敏泓,王秀坤. 計算機工程. 2010(11)
[5]維基百科,全世界的百科全書——Jimmy Wales[J]. Orrin. 程序員. 2007(08)
[6]統(tǒng)計關系學習模型Markov邏輯網(wǎng)綜述[J]. 孫舒楊,劉大有,孫成敏,黃冠利. 計算機應用研究. 2007(02)
本文編號:3251465
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3251465.html
最近更新
教材專著