基于自注意力機(jī)制的機(jī)器翻譯模型研究
發(fā)布時(shí)間:2021-03-31 05:29
語(yǔ)言是知識(shí)和信息傳播的重要載體,隨著互聯(lián)網(wǎng)、社會(huì)信息化和經(jīng)濟(jì)全球化的飛速發(fā)展,克服語(yǔ)言障礙變得越來(lái)越重要。因此,機(jī)器翻譯(Machine Translation,MT)對(duì)于打破不同國(guó)家、地區(qū)和民族之間的語(yǔ)言障礙,促進(jìn)不同民族人民之間的交流以及減輕人們學(xué)習(xí)外語(yǔ)的壓力具有十分重要的現(xiàn)實(shí)意義。本文先簡(jiǎn)單介紹了傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)和神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT),并就這些機(jī)器翻譯模型的優(yōu)缺點(diǎn)進(jìn)行了分析。然后在此基礎(chǔ)上引入并詳細(xì)介紹了基于自注意力機(jī)制(Self-Attention Mechanism)和多頭自注意力機(jī)制(Multi-Heads Self-Attention Mechanism)的神經(jīng)機(jī)器翻譯模型Transformer,通過具體的實(shí)驗(yàn)對(duì)其進(jìn)行詳細(xì)的分析發(fā)現(xiàn)了該機(jī)制存在的一些不足,并且針對(duì)這些不足,提出了相應(yīng)的改進(jìn)方案,具體內(nèi)容如下:首先,通過對(duì)自注意力機(jī)制以及Transformer模型進(jìn)行詳細(xì)的理論分析和實(shí)驗(yàn)分析,發(fā)現(xiàn)其存在兩個(gè)問題:其一是在Transformer模...
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2編碼器-解碼器祌經(jīng)機(jī)器翻譯框架實(shí)例??具體而言,可以通過對(duì)輸入的源端句子X和目標(biāo)端句子Y分別進(jìn)行詞嵌入來(lái)??器入V器入TQ,,??
頗士學(xué)位論文??MASTER'S?TIIKSIS??環(huán)生成一個(gè)個(gè)目標(biāo)單詞[1<)]。下面幾節(jié)將會(huì)詳細(xì)介紹編碼器-解碼器框架的具體結(jié)構(gòu)。??3.2.1編碼器-解碼器框架??如圖3.1所示,編碼器-解碼器框架主要包含兩個(gè)主要的部分,第一個(gè)部分是一??個(gè)編碼器,其主要作用是從輸入的變長(zhǎng)句子(源語(yǔ)言)通過神經(jīng)網(wǎng)絡(luò)提取出一個(gè)固??定長(zhǎng)度的上下文向量[45],此向量包含了該句子語(yǔ)言學(xué)上的信息;而另一部分則是一??個(gè)用于解碼詞向量的解碼器,其通過解碼從編碼器提取到的上下文向量,生成一個(gè)??和待翻譯句子有著同樣語(yǔ)言學(xué)信息的句子(目標(biāo)語(yǔ)言),這個(gè)生成的句子就是模型翻??譯出來(lái)的句子[4647]。不同于前饋神經(jīng)網(wǎng)絡(luò),由于源語(yǔ)言句子和目標(biāo)語(yǔ)言句子都是變??長(zhǎng)的,所以編碼器和解碼器均需要能夠處理變長(zhǎng)輸入的神經(jīng)網(wǎng)絡(luò)。常見的處理變長(zhǎng)??輸入的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN?)、遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(CNN?)。??.>=(近.幾年.經(jīng)濟(jì).發(fā)展.變?慢,了,.)??[W〇lYWc ̄〇W]?|??■?編碼器??\?解碼??\??個(gè)??/?\??/?解碼器?\??\QQQQmQ?)丄??.v=(Economic.?growth,?has.?slowed,?down,?in,?recent,?years,.)??圖3.1編碼器-解碼器框架??3.2.2編碼器及其構(gòu)造??使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器時(shí),其方法同語(yǔ)言模型的建模是類似的。如圖3.2??所示,給定源語(yǔ)言句子?“Economic?growth?has?slowed?down?in?recent?years?首先將??句子里的第一個(gè)詞“Economic”輸入循環(huán)神經(jīng)網(wǎng)
,每個(gè)時(shí)刻都會(huì)產(chǎn)生一個(gè)相應(yīng)的隱含狀態(tài),該隱含狀態(tài)將包含前面時(shí)刻所有??輸入詞語(yǔ)的信息及當(dāng)前輸入詞語(yǔ)的信息。當(dāng)將整個(gè)句子里的所有詞(包括標(biāo)點(diǎn)符號(hào))??都按照上述步驟都輸入到_之后,那么RNN輸出的最后一個(gè)隱含狀態(tài)則包含了??整個(gè)句子的信息,那么這個(gè)隱含狀態(tài)理論上就能夠作為整個(gè)句子的上下文向量輸入??到編碼器中。??OOOOOOOOf??i?1丨丨I丨I?T?1??dUHHiHBHH??Economic?growth?has?slowed?down?in?recent?years??圖3.2基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器??同SMT模型[45]不同的是,此編碼器模塊并不需要計(jì)算源語(yǔ)言句子里詞的概率,??因?yàn)槠鋬H使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,由神經(jīng)網(wǎng)絡(luò)自行進(jìn)行特征學(xué)習(xí),所以循環(huán)神??經(jīng)網(wǎng)絡(luò)也不需要輸出層。如圖3.3所示,左側(cè)為用于語(yǔ)言模型的循環(huán)神經(jīng)網(wǎng)絡(luò),語(yǔ)??言模型需要預(yù)測(cè)下一個(gè)詞的概率,從而預(yù)測(cè)整個(gè)句子產(chǎn)生的概率;右側(cè)為用于編碼??器的循環(huán)神經(jīng)網(wǎng)絡(luò),編碼器不需要預(yù)測(cè)源語(yǔ)言句子的生成概率,只需要產(chǎn)生包含整??個(gè)句子信息的上下文向量。具體每個(gè)時(shí)刻的隱含狀態(tài)計(jì)算公式如下所示,??h〇?=?0?(3.14)??h^^RNNdh^.x^)?(3.15)??C?=?/iw?(3-16)??p(slowed?|?economic?growth?has)??|"??;??■??Economic?growth?Economic?growth??OU?U???H?)?ht:?economic?growth?has?(?)?H?)?ht:?economic?growth?has??\W?W??i?i????xt:?ha
【參考文獻(xiàn)】:
博士論文
[1]融合句法知識(shí)的神經(jīng)機(jī)器翻譯研究[D]. 吳雙志.哈爾濱工業(yè)大學(xué) 2019
本文編號(hào):3110883
【文章來(lái)源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2編碼器-解碼器祌經(jīng)機(jī)器翻譯框架實(shí)例??具體而言,可以通過對(duì)輸入的源端句子X和目標(biāo)端句子Y分別進(jìn)行詞嵌入來(lái)??器入V器入TQ,,??
頗士學(xué)位論文??MASTER'S?TIIKSIS??環(huán)生成一個(gè)個(gè)目標(biāo)單詞[1<)]。下面幾節(jié)將會(huì)詳細(xì)介紹編碼器-解碼器框架的具體結(jié)構(gòu)。??3.2.1編碼器-解碼器框架??如圖3.1所示,編碼器-解碼器框架主要包含兩個(gè)主要的部分,第一個(gè)部分是一??個(gè)編碼器,其主要作用是從輸入的變長(zhǎng)句子(源語(yǔ)言)通過神經(jīng)網(wǎng)絡(luò)提取出一個(gè)固??定長(zhǎng)度的上下文向量[45],此向量包含了該句子語(yǔ)言學(xué)上的信息;而另一部分則是一??個(gè)用于解碼詞向量的解碼器,其通過解碼從編碼器提取到的上下文向量,生成一個(gè)??和待翻譯句子有著同樣語(yǔ)言學(xué)信息的句子(目標(biāo)語(yǔ)言),這個(gè)生成的句子就是模型翻??譯出來(lái)的句子[4647]。不同于前饋神經(jīng)網(wǎng)絡(luò),由于源語(yǔ)言句子和目標(biāo)語(yǔ)言句子都是變??長(zhǎng)的,所以編碼器和解碼器均需要能夠處理變長(zhǎng)輸入的神經(jīng)網(wǎng)絡(luò)。常見的處理變長(zhǎng)??輸入的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN?)、遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(CNN?)。??.>=(近.幾年.經(jīng)濟(jì).發(fā)展.變?慢,了,.)??[W〇lYWc ̄〇W]?|??■?編碼器??\?解碼??\??個(gè)??/?\??/?解碼器?\??\QQQQmQ?)丄??.v=(Economic.?growth,?has.?slowed,?down,?in,?recent,?years,.)??圖3.1編碼器-解碼器框架??3.2.2編碼器及其構(gòu)造??使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器時(shí),其方法同語(yǔ)言模型的建模是類似的。如圖3.2??所示,給定源語(yǔ)言句子?“Economic?growth?has?slowed?down?in?recent?years?首先將??句子里的第一個(gè)詞“Economic”輸入循環(huán)神經(jīng)網(wǎng)
,每個(gè)時(shí)刻都會(huì)產(chǎn)生一個(gè)相應(yīng)的隱含狀態(tài),該隱含狀態(tài)將包含前面時(shí)刻所有??輸入詞語(yǔ)的信息及當(dāng)前輸入詞語(yǔ)的信息。當(dāng)將整個(gè)句子里的所有詞(包括標(biāo)點(diǎn)符號(hào))??都按照上述步驟都輸入到_之后,那么RNN輸出的最后一個(gè)隱含狀態(tài)則包含了??整個(gè)句子的信息,那么這個(gè)隱含狀態(tài)理論上就能夠作為整個(gè)句子的上下文向量輸入??到編碼器中。??OOOOOOOOf??i?1丨丨I丨I?T?1??dUHHiHBHH??Economic?growth?has?slowed?down?in?recent?years??圖3.2基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器??同SMT模型[45]不同的是,此編碼器模塊并不需要計(jì)算源語(yǔ)言句子里詞的概率,??因?yàn)槠鋬H使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,由神經(jīng)網(wǎng)絡(luò)自行進(jìn)行特征學(xué)習(xí),所以循環(huán)神??經(jīng)網(wǎng)絡(luò)也不需要輸出層。如圖3.3所示,左側(cè)為用于語(yǔ)言模型的循環(huán)神經(jīng)網(wǎng)絡(luò),語(yǔ)??言模型需要預(yù)測(cè)下一個(gè)詞的概率,從而預(yù)測(cè)整個(gè)句子產(chǎn)生的概率;右側(cè)為用于編碼??器的循環(huán)神經(jīng)網(wǎng)絡(luò),編碼器不需要預(yù)測(cè)源語(yǔ)言句子的生成概率,只需要產(chǎn)生包含整??個(gè)句子信息的上下文向量。具體每個(gè)時(shí)刻的隱含狀態(tài)計(jì)算公式如下所示,??h〇?=?0?(3.14)??h^^RNNdh^.x^)?(3.15)??C?=?/iw?(3-16)??p(slowed?|?economic?growth?has)??|"??;??■??Economic?growth?Economic?growth??OU?U???H?)?ht:?economic?growth?has?(?)?H?)?ht:?economic?growth?has??\W?W??i?i????xt:?ha
【參考文獻(xiàn)】:
博士論文
[1]融合句法知識(shí)的神經(jīng)機(jī)器翻譯研究[D]. 吳雙志.哈爾濱工業(yè)大學(xué) 2019
本文編號(hào):3110883
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3110883.html
最近更新
教材專著