基于知識庫的自然語言理解
發(fā)布時間:2021-10-23 04:33
自然語言是人類進(jìn)行信息交流和知識保存的重要工具,同時也是人機(jī)交互過程中最主要的形式。因此,讓機(jī)器實現(xiàn)對自然語言的理解,是現(xiàn)階段人工智能的重要發(fā)展方向,同時也是學(xué)術(shù)界的熱門研究課題。自然界中存在的不同事物,以及事物之間的聯(lián)系已是海量級別,隨著互聯(lián)網(wǎng)中以維基百科、IMDB等數(shù)據(jù)庫為首的結(jié)構(gòu)化信息的大量積累,用于組織和維護(hù)開放領(lǐng)域中海量知識的大規(guī)模結(jié)構(gòu)化知識庫應(yīng)運而生。它們以標(biāo)準(zhǔn)化的符號存儲了千萬以上的實體、以及十億以上實體之間具有的關(guān)系,成為了語義表達(dá)的有效載體,同時也引出了一系列基于知識庫的自然語言理解研究。因此,本文針對描述客觀事實的自然語言文本,利用知識庫實現(xiàn)多個維度的語義理解。根據(jù)語義所體現(xiàn)的不同層次,本文從實體、關(guān)系和句子這三個層面研究自然語言理解問題。實體是語義中不可再分的元素,多個實體由關(guān)系互相連接構(gòu)成基本事實,而句子往往包含著多個關(guān)系,具有更加復(fù)雜的整體語義。具體而言:實體層面的理解體現(xiàn)為直接匹配,將文本中代表實體的短語鏈接至知識庫中的特定實體;關(guān)系層面的理解體現(xiàn)為結(jié)構(gòu)匹配,將自然語言關(guān)系轉(zhuǎn)換為由知識庫關(guān)系(謂詞)所構(gòu)建的特定語義結(jié)構(gòu);句子層面的理解則對單一關(guān)系的結(jié)構(gòu)匹配進(jìn)...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級別】:博士
【部分圖文】:
–2維基百科中的實體與表格鏈接
上海交通大學(xué)博士學(xué)位論文第一章引言圖1–3搜索結(jié)果頁面的右側(cè)顯示了當(dāng)前實體的信息框。Figure1–3Theinfoboxattherightsideofsearchresultpages.匹配的方式進(jìn)行收集,以保證較高的召回率。之后的映射步驟則是實體鏈接模型的重點,為了實現(xiàn)消歧義,需要利用短語所在文本的上下文特征,以及多個短語所映射的實體之間的關(guān)聯(lián)程度,對于表格形式的文本輸入,行列間實體所具有的特性也不可忽略。根據(jù)以上觀察,以特征工程為核心的機(jī)器學(xué)習(xí)模型被運用于此,涵蓋的特征主要包括基于維基內(nèi)部超鏈接統(tǒng)計的先驗概率,基于TF-IDF模型[14]的短語和實體的上下文相似度,基于PMI[15]、WLN[16]等以維基共現(xiàn)頻率衡量的不同實體間的相關(guān)度,等等?紤]到特征設(shè)計耗費人力,且與特定任務(wù)高度相關(guān),更新的工作對基于深度學(xué)習(xí)的實體鏈接模型進(jìn)行了研究,模型依賴神經(jīng)網(wǎng)絡(luò)建立實體和短語上下文的特征表達(dá),并計算向量表達(dá)之間的相似度衡量短語和實體的匹配程度。以文獻(xiàn)[17]為代表,對于輸入文本中的短語和維基百科中的實體,模型可以關(guān)注不同粒度的上下文,利用卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模。同時模型可以學(xué)習(xí)維基百科或知識庫中,實體分類、類型等信息的向量表達(dá),以此豐富實體的語義特征,例如文獻(xiàn)[18-20]。此外,若文本和知識庫的語言不同,則為跨語言場景的實體鏈接。通過翻譯工具可以轉(zhuǎn)化為單語言的實體鏈接,但受制于翻譯步驟的準(zhǔn)確率,因此主要的模型使用了跨語言的詞向量技術(shù)[21],將不同語言下的單詞映射至同一連續(xù)語義空間。關(guān)系語義學(xué)習(xí)的研究,主要針對三元組級別,給定目標(biāo)關(guān)系或謂詞,根據(jù)它所已知的三元組信息,對其語義進(jìn)行建模。按照關(guān)系語義的表示方法進(jìn)行劃分,主要研究可以分為規(guī)則推導(dǎo)和知識庫向量學(xué)習(xí)兩類。基于規(guī)則推導(dǎo)的模型?
第一章引言上海交通大學(xué)博士學(xué)位論文圖1–4搜索引擎精確返回復(fù)雜問題的答案。Figure1–4Thesearchenginepreciselyreturnstheanswerofthecomplexquestion.!ê3ü33ú333ü333ò"ùaèùa×ù”éaùèaYaò3üúòüòùü3á÷!33ü333"ò3ú÷3áè!ê3ü3333"!3"3á÷!"3áèùàèYa”éaùèaYa1aèYèí”éaùèaYaü3üüü3÷üüúü圖1–5實體、關(guān)系、句子語義理解之間的級聯(lián)關(guān)系。Figure1–5Thecascadedrelationshipbetweenentity,relationandsentenceunderstanding.達(dá)式,單個表達(dá)式的語義具有確定性,同時人類可直接理解其語義表示,具有很高的可解釋性。早期研究以AMIE模型[22]為代表,挖掘具有高置信度的規(guī)則,后續(xù)的改進(jìn)研究著眼于挖掘多種可能的規(guī)則,并賦予不同權(quán)重或概率,豐富語義表達(dá)能力,例如基于MLN模型的文獻(xiàn)[23,24],以及生成負(fù)樣本,對大量路徑形式的規(guī)則進(jìn)行特征學(xué)習(xí)的PRA模型[25]和SFE模型[26]。另一個分支為知識庫向量模型,則依據(jù)已有的大量三元組信息,學(xué)習(xí)每一個實體和謂詞的連續(xù)向量(或矩陣)表示,并通過實體和謂詞表示之間—8—
本文編號:3452474
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:132 頁
【學(xué)位級別】:博士
【部分圖文】:
–2維基百科中的實體與表格鏈接
上海交通大學(xué)博士學(xué)位論文第一章引言圖1–3搜索結(jié)果頁面的右側(cè)顯示了當(dāng)前實體的信息框。Figure1–3Theinfoboxattherightsideofsearchresultpages.匹配的方式進(jìn)行收集,以保證較高的召回率。之后的映射步驟則是實體鏈接模型的重點,為了實現(xiàn)消歧義,需要利用短語所在文本的上下文特征,以及多個短語所映射的實體之間的關(guān)聯(lián)程度,對于表格形式的文本輸入,行列間實體所具有的特性也不可忽略。根據(jù)以上觀察,以特征工程為核心的機(jī)器學(xué)習(xí)模型被運用于此,涵蓋的特征主要包括基于維基內(nèi)部超鏈接統(tǒng)計的先驗概率,基于TF-IDF模型[14]的短語和實體的上下文相似度,基于PMI[15]、WLN[16]等以維基共現(xiàn)頻率衡量的不同實體間的相關(guān)度,等等?紤]到特征設(shè)計耗費人力,且與特定任務(wù)高度相關(guān),更新的工作對基于深度學(xué)習(xí)的實體鏈接模型進(jìn)行了研究,模型依賴神經(jīng)網(wǎng)絡(luò)建立實體和短語上下文的特征表達(dá),并計算向量表達(dá)之間的相似度衡量短語和實體的匹配程度。以文獻(xiàn)[17]為代表,對于輸入文本中的短語和維基百科中的實體,模型可以關(guān)注不同粒度的上下文,利用卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模。同時模型可以學(xué)習(xí)維基百科或知識庫中,實體分類、類型等信息的向量表達(dá),以此豐富實體的語義特征,例如文獻(xiàn)[18-20]。此外,若文本和知識庫的語言不同,則為跨語言場景的實體鏈接。通過翻譯工具可以轉(zhuǎn)化為單語言的實體鏈接,但受制于翻譯步驟的準(zhǔn)確率,因此主要的模型使用了跨語言的詞向量技術(shù)[21],將不同語言下的單詞映射至同一連續(xù)語義空間。關(guān)系語義學(xué)習(xí)的研究,主要針對三元組級別,給定目標(biāo)關(guān)系或謂詞,根據(jù)它所已知的三元組信息,對其語義進(jìn)行建模。按照關(guān)系語義的表示方法進(jìn)行劃分,主要研究可以分為規(guī)則推導(dǎo)和知識庫向量學(xué)習(xí)兩類。基于規(guī)則推導(dǎo)的模型?
第一章引言上海交通大學(xué)博士學(xué)位論文圖1–4搜索引擎精確返回復(fù)雜問題的答案。Figure1–4Thesearchenginepreciselyreturnstheanswerofthecomplexquestion.!ê3ü33ú333ü333ò"ùaèùa×ù”éaùèaYaò3üúòüòùü3á÷!33ü333"ò3ú÷3áè!ê3ü3333"!3"3á÷!"3áèùàèYa”éaùèaYa1aèYèí”éaùèaYaü3üüü3÷üüúü圖1–5實體、關(guān)系、句子語義理解之間的級聯(lián)關(guān)系。Figure1–5Thecascadedrelationshipbetweenentity,relationandsentenceunderstanding.達(dá)式,單個表達(dá)式的語義具有確定性,同時人類可直接理解其語義表示,具有很高的可解釋性。早期研究以AMIE模型[22]為代表,挖掘具有高置信度的規(guī)則,后續(xù)的改進(jìn)研究著眼于挖掘多種可能的規(guī)則,并賦予不同權(quán)重或概率,豐富語義表達(dá)能力,例如基于MLN模型的文獻(xiàn)[23,24],以及生成負(fù)樣本,對大量路徑形式的規(guī)則進(jìn)行特征學(xué)習(xí)的PRA模型[25]和SFE模型[26]。另一個分支為知識庫向量模型,則依據(jù)已有的大量三元組信息,學(xué)習(xí)每一個實體和謂詞的連續(xù)向量(或矩陣)表示,并通過實體和謂詞表示之間—8—
本文編號:3452474
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3452474.html
最近更新
教材專著