表示映射及其在關(guān)系抽取和知識庫問答的應(yīng)用
發(fā)布時間:2022-04-25 20:50
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種信息在網(wǎng)絡(luò)上交相輝映。在這個信息爆炸的時代,如何從大規(guī)模信息中高效準確的獲得用戶關(guān)心的內(nèi)容成為亟需解決的問題。關(guān)系抽取和知識庫問答作為自然語言處理的核心任務(wù),對于解決此類問題起著重要的作用。關(guān)系抽取可以從大量自然語言文本中抽取結(jié)構(gòu)化信息,目前廣泛使用的關(guān)系抽取訓練集存在一定的噪音,使用這些結(jié)構(gòu)化信息輔助監(jiān)督關(guān)系抽取可以有效地緩解噪音帶來的影響。本文將出現(xiàn)在知識庫但未在訓練集出現(xiàn)的實體稱作未登錄實體。在實際使用過程中,因為缺乏未登錄實體的表示,關(guān)系抽取的大多數(shù)方法不能很好地處理涉及這些實體的樣本。知識庫問答一般可以分為實體鏈接和關(guān)系檢測兩個步驟。相比于實體鏈接只需要問句和知識庫實體的詞匯級別匹配,關(guān)系檢測需要理解整句話的語義,因而更具有挑戰(zhàn)性。由于知識庫所覆蓋的關(guān)系種類眾多,對知識庫的所有關(guān)系標注足量的語料用以訓練關(guān)系檢測模型是不現(xiàn)實的。同樣地,本文將沒有標注訓練語料的關(guān)系稱作未登錄關(guān)系。實際使用中,知識庫問答系統(tǒng)不能很好地回答涉及未登錄關(guān)系的問題。在開放域的知識庫問答中,這種現(xiàn)象尤為嚴重。本文主要對未登錄實體和關(guān)系的表示進行研究,主要工作內(nèi)容如下:1.本文提出...
【文章頁數(shù)】:94 頁
【學位級別】:碩士
【部分圖文】:
圖1-2:智能問答的歷史??
圖2-2:利用詞嵌入技術(shù)表示知識庫子圖??2.4知識庫問答??相比于一般的問答系統(tǒng),知識庫問答依托于一個結(jié)構(gòu)化的知識庫。這些??知識庫以“<?實體,關(guān)系,實體?>”這樣的三元組組成圖結(jié)構(gòu)。知識庫問答??就是通過語義分析將問題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句,進而查詢知識庫,得到??答案。例如???“who?is?the?CEO?of?Apple?inc_?”,可以將這句話轉(zhuǎn)化成如F的??SPARQL?i吾句?“SELECT??name?WHERE?{?name?CEO_of?Apple.};”?,其中得到??實體“Apple.”和關(guān)系“CEO_of”是轉(zhuǎn)化為結(jié)構(gòu)化查詢語句的重要步驟。??知識庫問答的一般流程是:先進行實體鏈接,得到問題涉及的實體在知識??庫的id,然后進行關(guān)系檢測,識別這個問句所對應(yīng)的關(guān)系。實體鏈接中最重要??的就是實體的識別,識別過程中,一般采用序列化標注的方法,即標注一個問??句中哪些詞屬于實體。在關(guān)系檢測(Relation?Detection,?RD)①方面,傳統(tǒng)的基??于符號的語義分析方法由于受到符號間的語義鴻溝的影響,已經(jīng)不適合應(yīng)用在??。些
??不幸的是,在一個具有大量未登錄詞的場景下,初始化的方法會造成已登??錄詞和未登錄詞之間有明顯的界限。如圖3-1PI?所示,其中紅色代表罕見??詞,藍色代表常用詞,圖3-la是在WMT14翻譯任務(wù)上訓練的詞嵌入表示,??圖3-lb是在Google?News使用word2vec訓練得到的詞表不?梢钥闯鲇柧毜??到的詞表示有很明顯的分界線,罕見詞總是聚集在一起。同樣的,在知識庫問??答的場景下,當存在大量未登錄關(guān)系時,微調(diào)表示會導致只有已登錄關(guān)系的表??示會被調(diào)整到正確的位置,未登錄關(guān)系的表示由于沒有對應(yīng)的樣本作為訓練??集,所以很難被更新到正確的位置上。特別地,在多分類任務(wù)上,標簽是互斥??的,未登錄關(guān)系只能作為負樣本被隨機更新,還具有很高的不確定性。??;c.??,???
【參考文獻】:
期刊論文
[1]基于表示學習的知識庫問答研究進展與展望[J]. 劉康,張元哲,紀國良,來斯惟,趙軍. 自動化學報. 2016(06)
本文編號:3648319
【文章頁數(shù)】:94 頁
【學位級別】:碩士
【部分圖文】:
圖1-2:智能問答的歷史??
圖2-2:利用詞嵌入技術(shù)表示知識庫子圖??2.4知識庫問答??相比于一般的問答系統(tǒng),知識庫問答依托于一個結(jié)構(gòu)化的知識庫。這些??知識庫以“<?實體,關(guān)系,實體?>”這樣的三元組組成圖結(jié)構(gòu)。知識庫問答??就是通過語義分析將問題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語句,進而查詢知識庫,得到??答案。例如???“who?is?the?CEO?of?Apple?inc_?”,可以將這句話轉(zhuǎn)化成如F的??SPARQL?i吾句?“SELECT??name?WHERE?{?name?CEO_of?Apple.};”?,其中得到??實體“Apple.”和關(guān)系“CEO_of”是轉(zhuǎn)化為結(jié)構(gòu)化查詢語句的重要步驟。??知識庫問答的一般流程是:先進行實體鏈接,得到問題涉及的實體在知識??庫的id,然后進行關(guān)系檢測,識別這個問句所對應(yīng)的關(guān)系。實體鏈接中最重要??的就是實體的識別,識別過程中,一般采用序列化標注的方法,即標注一個問??句中哪些詞屬于實體。在關(guān)系檢測(Relation?Detection,?RD)①方面,傳統(tǒng)的基??于符號的語義分析方法由于受到符號間的語義鴻溝的影響,已經(jīng)不適合應(yīng)用在??。些
??不幸的是,在一個具有大量未登錄詞的場景下,初始化的方法會造成已登??錄詞和未登錄詞之間有明顯的界限。如圖3-1PI?所示,其中紅色代表罕見??詞,藍色代表常用詞,圖3-la是在WMT14翻譯任務(wù)上訓練的詞嵌入表示,??圖3-lb是在Google?News使用word2vec訓練得到的詞表不?梢钥闯鲇柧毜??到的詞表示有很明顯的分界線,罕見詞總是聚集在一起。同樣的,在知識庫問??答的場景下,當存在大量未登錄關(guān)系時,微調(diào)表示會導致只有已登錄關(guān)系的表??示會被調(diào)整到正確的位置,未登錄關(guān)系的表示由于沒有對應(yīng)的樣本作為訓練??集,所以很難被更新到正確的位置上。特別地,在多分類任務(wù)上,標簽是互斥??的,未登錄關(guān)系只能作為負樣本被隨機更新,還具有很高的不確定性。??;c.??,???
【參考文獻】:
期刊論文
[1]基于表示學習的知識庫問答研究進展與展望[J]. 劉康,張元哲,紀國良,來斯惟,趙軍. 自動化學報. 2016(06)
本文編號:3648319
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3648319.html
最近更新
教材專著