多層注意機(jī)制下閱讀理解問答模型研究與應(yīng)用
發(fā)布時(shí)間:2021-09-15 22:50
機(jī)器閱讀理解是使人類能夠通過自然語言與機(jī)器交互的關(guān)鍵技術(shù),也是人工智能的核心任務(wù)。機(jī)器閱讀理解任務(wù)通常以問答的形式呈現(xiàn),要求算法模型根據(jù)提出的問題,通過理解相關(guān)文章的內(nèi)容來給出正確答案。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀理解模型不斷推陳出新。廣泛地使用層次化交互注意力機(jī)制和基于大規(guī)模無監(jiān)督語料預(yù)訓(xùn)練(pre-training)的遷移學(xué)習(xí)模型似乎已經(jīng)成為機(jī)器閱讀理解算法的標(biāo)準(zhǔn)模式,并且在一些基準(zhǔn)任務(wù)的數(shù)據(jù)集上取得了超越人類的表現(xiàn)。然而進(jìn)一步的研究表明,這些基于多層注意機(jī)制的機(jī)器閱讀理解問答模型在面對推理問題和干擾文本攻擊時(shí)表現(xiàn)得十分脆弱。除此之外,深度模型在少樣本條件下訓(xùn)練時(shí)的不穩(wěn)定性,也阻礙了其在現(xiàn)實(shí)環(huán)境中的應(yīng)用。本文針對以上幾個(gè)關(guān)鍵問題進(jìn)行了研究,并在此基礎(chǔ)上提出了全新的解決方案。該課題的研究內(nèi)容和貢獻(xiàn)主要有以下幾個(gè)方面。第一,對問題—文章交互注意力機(jī)制的學(xué)習(xí)特點(diǎn)以及作用原理等問題,進(jìn)行細(xì)粒度研究,并對交互查詢式機(jī)器閱讀理解模型,訓(xùn)練前后編碼層的編碼特點(diǎn)進(jìn)行比較。方案使用了經(jīng)過結(jié)構(gòu)簡化的BiDAF模型,在語義推理關(guān)系清晰的Facebook The(20)QA bAbI tas...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
BiDAF模型結(jié)構(gòu)[15]
六個(gè)閾值梯度下的片段化數(shù)據(jù)集分割情況
電子科技大學(xué)碩士學(xué)位論文30降。相反在task3中,模型在以0.2為閾值的片段化測試數(shù)據(jù)上,取得了比完整文本數(shù)據(jù)上更高的答案預(yù)測準(zhǔn)確率。據(jù)此我們可以得出一個(gè)初步的結(jié)論,交互查詢注意力機(jī)制的作用原理如下:在模型訓(xùn)練過程中,編碼層學(xué)習(xí)了如何將文本正確地映射到高維語義編碼空間。在高維語義空間中,交互注意力機(jī)制所采用的運(yùn)算方式能夠?qū)φZ義相關(guān)性進(jìn)行良好的識別,從而通過注意權(quán)重抽取出問答問題所必須的語義特征。輸出層通過這些經(jīng)過篩選的,特征明確的信息,對答案進(jìn)行直接地預(yù)測。圖3-4Task1~3片段化數(shù)據(jù)集上模型訓(xùn)練后的答案預(yù)測準(zhǔn)確率變化在此之后,我們對在原始完整數(shù)據(jù)集上,訓(xùn)練后的模型預(yù)測錯(cuò)誤但在片段化精簡數(shù)據(jù)集上模型訓(xùn)練后能夠正確預(yù)測答案的樣本做了篩選,并對這些樣本進(jìn)行了人工分析。滿足這一條件的樣本,Task1中發(fā)現(xiàn)了0個(gè),在Task2中發(fā)現(xiàn)了59個(gè),Task3中發(fā)現(xiàn)了77個(gè),三個(gè)task數(shù)據(jù)中共有136個(gè)。通過對比我們發(fā)現(xiàn),在這些樣本中,通常問題的答案所依賴的多個(gè)事實(shí)陳述在原文本中相距較遠(yuǎn),中間夾雜了大量的無關(guān)文本,即使是人來閱讀文本對問題進(jìn)行回答也需要一句問題線
本文編號:3396965
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
BiDAF模型結(jié)構(gòu)[15]
六個(gè)閾值梯度下的片段化數(shù)據(jù)集分割情況
電子科技大學(xué)碩士學(xué)位論文30降。相反在task3中,模型在以0.2為閾值的片段化測試數(shù)據(jù)上,取得了比完整文本數(shù)據(jù)上更高的答案預(yù)測準(zhǔn)確率。據(jù)此我們可以得出一個(gè)初步的結(jié)論,交互查詢注意力機(jī)制的作用原理如下:在模型訓(xùn)練過程中,編碼層學(xué)習(xí)了如何將文本正確地映射到高維語義編碼空間。在高維語義空間中,交互注意力機(jī)制所采用的運(yùn)算方式能夠?qū)φZ義相關(guān)性進(jìn)行良好的識別,從而通過注意權(quán)重抽取出問答問題所必須的語義特征。輸出層通過這些經(jīng)過篩選的,特征明確的信息,對答案進(jìn)行直接地預(yù)測。圖3-4Task1~3片段化數(shù)據(jù)集上模型訓(xùn)練后的答案預(yù)測準(zhǔn)確率變化在此之后,我們對在原始完整數(shù)據(jù)集上,訓(xùn)練后的模型預(yù)測錯(cuò)誤但在片段化精簡數(shù)據(jù)集上模型訓(xùn)練后能夠正確預(yù)測答案的樣本做了篩選,并對這些樣本進(jìn)行了人工分析。滿足這一條件的樣本,Task1中發(fā)現(xiàn)了0個(gè),在Task2中發(fā)現(xiàn)了59個(gè),Task3中發(fā)現(xiàn)了77個(gè),三個(gè)task數(shù)據(jù)中共有136個(gè)。通過對比我們發(fā)現(xiàn),在這些樣本中,通常問題的答案所依賴的多個(gè)事實(shí)陳述在原文本中相距較遠(yuǎn),中間夾雜了大量的無關(guān)文本,即使是人來閱讀文本對問題進(jìn)行回答也需要一句問題線
本文編號:3396965
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3396965.html
最近更新
教材專著