基于雙向注意力和標簽軟化的抽取式閱讀理解研究
發(fā)布時間:2021-06-05 17:28
機器閱讀理解是人工智能和自然語言處理領域的一個重要研究課題,是自動問答模型的關鍵支撐技術,有著重要的研究意義和廣泛的應用價值。隨著互聯(lián)網(wǎng)的發(fā)展和技術的進步,研究者提出了各種閱讀理解模型,在部分數(shù)據(jù)集上可以達到超越人類的效果。然而,機器閱讀領域仍然有大量未解決的問題需要繼續(xù)探索,研究機器閱讀理解模型的進一步優(yōu)化對學術界和工業(yè)界都有重要意義。得益于技術的發(fā)展和運算速度的提升,大規(guī)模預訓練語言模型被提出并在許多自然語言理解任務上都有亮眼表現(xiàn)。然而,這些模型在抽取式閱讀理解任務中的應用方法仍然較為簡單,在模型結構和數(shù)據(jù)構成上都有可以優(yōu)化之處。本文主要從一種預訓練語言模型—ALBERT入手,從模型和數(shù)據(jù)兩方面分別基于雙向注意力和標簽軟化對該模型進行優(yōu)化,使其在抽取式閱讀理解任務中能有更好的表現(xiàn)。首先,本文對ALBERT在抽取式閱讀理解任務中的應用效果進行了驗證。分析了ALBERT的模型特點和主要優(yōu)勢,并在SQu AD 2.0、News QA、QUOREF三個數(shù)據(jù)集上進行了實驗驗證。實驗結果表明該模型在三個基準數(shù)據(jù)集上都有較好的表現(xiàn),在SQu AD和News QA上可以超越人類,在News QA和...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
Transformer模型結構[45]
哈爾濱工業(yè)大學工學碩士學位論文圖2-2Transformer中的多頭注意力結構[45]題。預訓練階段的目的是得到高質量、高適用性的編碼器,更好地捕捉輸入文本中的語義關系,并服務于下游應用。得到編碼器之后,對于不同的下游任務,再配以針對此任務的解碼器,就可以將預訓練語言模型應用到不同的任務上了。因此預訓練語言模型的主體往往是編碼器部分,并沒有通用的解碼部分,解碼器通常設計的比較簡單。當我們提起B(yǎng)ERT模型時,一般也指的是BERT的編碼器部分。BERT的編碼器部分非常簡單,就是之前說明的Transformer編碼器,網(wǎng)絡結構沒有任何改動,只是在一些細節(jié)上有一定區(qū)別,如加入了分段信息,位置向量的實現(xiàn)出現(xiàn)區(qū)別,使用GELU激活函數(shù)[49]替代ReLU等。而在關于如何預訓練BERT模型的問題上,不同于ELMo[3]等傳統(tǒng)語言模型給定句子上文預測下一個詞的任務,作者進行了富有啟發(fā)性的探索。BERT模型使用兩個任務進行預訓練,一是著重于句子內(nèi)部上下文關系的詞預測任務—MaskedLanguageModeling(MLM),二是著重于句對之間交互關系的二分類任務—NextSentencePrediction(NSP)。MLM任務形式類似于完形填空(Cloze)[50]。對于一個完整的單語句子,在預處理階段隨機去除句子中的某些單詞,并在這個位置留下空位。其中部分空位會被填充為隨機詞,要求模型根據(jù)輸入的句子恢復原來的句子。由于存在句子空位已經(jīng)被填充的情況,模型不能簡單地判斷出要預測的是哪一個單詞,這就要求模型對輸入文本中每一個詞都進行高質量的建模,保證了任務不會退化。在自然語言處理領域-11-
本文編號:3212596
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
Transformer模型結構[45]
哈爾濱工業(yè)大學工學碩士學位論文圖2-2Transformer中的多頭注意力結構[45]題。預訓練階段的目的是得到高質量、高適用性的編碼器,更好地捕捉輸入文本中的語義關系,并服務于下游應用。得到編碼器之后,對于不同的下游任務,再配以針對此任務的解碼器,就可以將預訓練語言模型應用到不同的任務上了。因此預訓練語言模型的主體往往是編碼器部分,并沒有通用的解碼部分,解碼器通常設計的比較簡單。當我們提起B(yǎng)ERT模型時,一般也指的是BERT的編碼器部分。BERT的編碼器部分非常簡單,就是之前說明的Transformer編碼器,網(wǎng)絡結構沒有任何改動,只是在一些細節(jié)上有一定區(qū)別,如加入了分段信息,位置向量的實現(xiàn)出現(xiàn)區(qū)別,使用GELU激活函數(shù)[49]替代ReLU等。而在關于如何預訓練BERT模型的問題上,不同于ELMo[3]等傳統(tǒng)語言模型給定句子上文預測下一個詞的任務,作者進行了富有啟發(fā)性的探索。BERT模型使用兩個任務進行預訓練,一是著重于句子內(nèi)部上下文關系的詞預測任務—MaskedLanguageModeling(MLM),二是著重于句對之間交互關系的二分類任務—NextSentencePrediction(NSP)。MLM任務形式類似于完形填空(Cloze)[50]。對于一個完整的單語句子,在預處理階段隨機去除句子中的某些單詞,并在這個位置留下空位。其中部分空位會被填充為隨機詞,要求模型根據(jù)輸入的句子恢復原來的句子。由于存在句子空位已經(jīng)被填充的情況,模型不能簡單地判斷出要預測的是哪一個單詞,這就要求模型對輸入文本中每一個詞都進行高質量的建模,保證了任務不會退化。在自然語言處理領域-11-
本文編號:3212596
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3212596.html
最近更新
教材專著