天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于神經(jīng)網(wǎng)絡(luò)和多頭自注意力機(jī)制的中文機(jī)器閱讀理解研究

發(fā)布時(shí)間:2021-08-03 09:55
  互聯(lián)網(wǎng)的發(fā)展促進(jìn)了文本數(shù)據(jù)的大量積累,對(duì)文本數(shù)據(jù)進(jìn)行理解并返回用戶需要的信息,已成為自然語言處理研究領(lǐng)域的熱點(diǎn)問題。然而,當(dāng)前搜索引擎僅僅根據(jù)網(wǎng)頁和問題的相關(guān)性返回搜索結(jié)果,并不能充分理解用戶意圖。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展創(chuàng)新,機(jī)器閱讀理解模型成為人們高效獲取有效信息的首選算法,能夠滿足用戶快速、高效的搜索需求,從而節(jié)約時(shí)間成本。機(jī)器閱讀理解是衡量文本理解的一項(xiàng)重要任務(wù),它的發(fā)展與深度學(xué)習(xí)技術(shù)密切相關(guān),并在一定程度上取得了很好的效果。但仍然存在以下問題:在模型上,目前機(jī)器閱讀理解模型大都面臨隨著網(wǎng)絡(luò)深度的加深,原始信息丟失的問題,從而降低模型對(duì)答案的預(yù)測(cè)能力;在數(shù)據(jù)集上,面對(duì)越來越多面向真實(shí)應(yīng)用場(chǎng)景的大規(guī)模閱讀理解數(shù)據(jù)集,目前很多機(jī)器閱讀理解技術(shù)已不能對(duì)這類數(shù)據(jù)集做出很好的回答。此外,盡管目前很多閱讀理解技術(shù)已在英文數(shù)據(jù)集上取得了很好的效果,但在中文場(chǎng)景下并未得到充分驗(yàn)證。基于上述問題,為了更好地完成機(jī)器閱讀理解任務(wù),本文在現(xiàn)有機(jī)器閱讀理解模型的研究基礎(chǔ)上,針對(duì)片段抽取型閱讀理解任務(wù),提出了基于深度學(xué)習(xí)的中文機(jī)器閱讀理解模型。本文主要工作和貢獻(xiàn)如下:(1)針對(duì)傳統(tǒng)堆疊的BiLSTM網(wǎng)... 

【文章來源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)和多頭自注意力機(jī)制的中文機(jī)器閱讀理解研究


CBOW的定義方式示例

示例,方式,單詞,局部信息


西南大學(xué)碩士學(xué)位論文10圖2.1Skip-gram的定義方式示例圖2.2CBOW的定義方式示例由于Word2Vec只考慮詞的局部信息,忽略了詞與窗口外信息的關(guān)聯(lián)。在此基礎(chǔ)上,GloVe[31]利用共現(xiàn)矩陣,同時(shí)將局部信息和整體信息納入考慮范圍。以“Bereftoflifeherestsinpeace”為例,采用一個(gè)窗口寬度為5(左右長度都為2)的統(tǒng)計(jì)窗口,可以得到如表2.5的內(nèi)容。表2.5GloVe詞向量表示實(shí)例窗口標(biāo)號(hào)特征值獨(dú)熱表示0BereftBereftoflife1ofBereftoflifehe2lifeBereftoflifeherests3heoflifeherestsinpeace4restslifeherestsinpeace5inherestsinpeace6peacerestsinpeaceGloVe中使用的代價(jià)函數(shù)如公式(2-1)所示。2,,,()(log())NTijijijijijL=fXvv+b+bX(2-1)其中,共現(xiàn)矩陣元素為Xi,j,Xi,j表示單詞i和單詞j共同出現(xiàn)在一個(gè)窗口中的次數(shù)。iv和jv是單詞i和單詞j的詞向量,ib和jb是兩個(gè)偏置項(xiàng),N是詞匯表的大小,f為控制詞對(duì)的出現(xiàn)頻率的權(quán)重系數(shù)。GloVe模型中使用的權(quán)重系數(shù)如公式(2-2)所示。max0.75maxmax1,()(/),xxfxxxxx=(2-2)

結(jié)構(gòu)圖,模型結(jié)構(gòu),單詞,上下文


第2章相關(guān)理論與技術(shù)11Word2Vec和GloVe存在一個(gè)問題:詞在不同語境下具有不同的含義。但在這兩個(gè)模型中視為相同,即每個(gè)單詞的詞向量訓(xùn)練完成后,單詞的詞嵌入不再變化。實(shí)際上,一個(gè)單詞在不同的上下文中具有不同的含義。ELMO[32]針對(duì)這點(diǎn)對(duì)模型進(jìn)行了改進(jìn),使得模型能夠?qū)W習(xí)到單詞更加復(fù)雜的特性和在不同上下文的變化。圖2.3是ELMO語言模型的結(jié)構(gòu)圖。圖2.3ELMO模型結(jié)構(gòu)圖ELMO(EmbeddingfromLanguageModels)根據(jù)單詞的上下文對(duì)詞嵌入進(jìn)行動(dòng)態(tài)調(diào)整,可以很好地解決一詞多義問題。ELMO中使用了雙向的LSTM語言模型,目標(biāo)函數(shù)取這兩個(gè)方向的最大似然函數(shù)。具體地說,在前向過程中,用1~k1的詞去預(yù)測(cè)第k個(gè)詞,后向過程用k+1~N的詞去預(yù)測(cè)第k個(gè)詞。計(jì)算方式如公式(2-3)和(2-4)所示。121211(,,...,)(|,,...,)NNkkkptttptttt==(2-3)12121(,,...,)(|,,...,)NNkkkNkptttptttt++==(2-4)ELMO中使用的最大似然函數(shù)如公式(2-5)所示。121121(log(|,,...,)log(|,,...,))NkkkkkNkpttttptttt++=+(2-5)繼attention機(jī)制提出之后,加入attention機(jī)制的seq2seq模型在各個(gè)任務(wù)上都有很大的提升。2017年,谷歌提出了解決seq2seq問題的Transformer模型[34]。Transformer模型中用attention機(jī)制代替了LSTM,完全依靠attention機(jī)制來刻畫輸入與輸出之間的全局依賴關(guān)系。同時(shí)Transformer允許模型進(jìn)行并行計(jì)算,在翻譯任務(wù)上取得了很好的成績。BERT[4]模型使用Transformer[34]進(jìn)行編碼,通過綜合考慮上下文的雙向特征去預(yù)測(cè)詞。相較于ELMO,BERT中使用Transformer的雙向訓(xùn)練,可以提取比單向語言模型更深的語義環(huán)境。BERT受完形填空的啟發(fā),遮

【參考文獻(xiàn)】:
期刊論文
[1]T-Reader:一種基于自注意力機(jī)制的多任務(wù)深度閱讀理解模型[J]. 鄭玉昆,李丹,范臻,劉奕群,張敏,馬少平.  中文信息學(xué)報(bào). 2018(11)
[2]N-Reader:基于雙層Self-attention的機(jī)器閱讀理解模型[J]. 梁小波,任飛亮,劉永康,潘凌峰,侯依寧,張熠,李妍.  中文信息學(xué)報(bào). 2018(10)

碩士論文
[1]基于神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的閱讀理解式問答模型研究[D]. 肖林龍.西南大學(xué) 2019



本文編號(hào):3319414

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3319414.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d57bb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com