基于注意力卷積的神經(jīng)機(jī)器翻譯研究
發(fā)布時(shí)間:2021-02-12 17:38
隨著社會和科技的發(fā)展,機(jī)器翻譯已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠。近年?隨著深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯逐漸成為目前工業(yè)界與學(xué)術(shù)界的主流方法。現(xiàn)有的神經(jīng)機(jī)器翻譯普遍是采用基于注意力機(jī)制的編碼器-解碼器框架的序列到序列的翻譯模型,注意力機(jī)制是通過注意力權(quán)重分布將目標(biāo)端預(yù)測單詞與源端語句聯(lián)系起來,在每一時(shí)刻,注意力機(jī)制都會將其與源端所有單詞的相關(guān)信息進(jìn)行更新以得到針對當(dāng)前時(shí)刻的注意力權(quán)重分布,用于幫助預(yù)測目標(biāo)端單詞的輸出。注意力機(jī)制是當(dāng)前神經(jīng)機(jī)器翻譯系統(tǒng)不可或缺的一部分,因此一個(gè)更加有效的注意力權(quán)重分布信息有助于機(jī)器翻譯效果的提升。針對神經(jīng)機(jī)器翻譯模型注意力權(quán)重分布優(yōu)化的問題,本文提出在注意力機(jī)制上建立多層卷積神經(jīng)網(wǎng)絡(luò)的方法,對基于注意力卷積的神經(jīng)機(jī)器翻譯模型進(jìn)行深入研究。本文從當(dāng)前時(shí)刻注意力信息、歷史時(shí)刻注意力信息的角度出發(fā),充分獲取注意力信息對目標(biāo)端翻譯的幫助,旨在提高機(jī)器翻譯的性能。在建立多層卷積神經(jīng)網(wǎng)絡(luò)的過程中:首先,對當(dāng)前時(shí)刻注意力信息進(jìn)行卷積,建立新的卷積層與激活函數(shù),通過多組對比實(shí)驗(yàn),測試出不同卷積核形狀與卷積層參數(shù)對機(jī)器翻譯結(jié)果的影響;其次,對歷史時(shí)刻注意力信...
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-2注意力權(quán)重分布示意圖??
入設(shè)定,沒有默認(rèn)值,^?/辦默認(rèn)為1,??默認(rèn)為0,其填充值默認(rèn)為0,默認(rèn)為1。在不同的底層框架中,卷??積運(yùn)算可能會有更多其他的輸入?yún)?shù),例如分組數(shù)用于將輸入矩陣按??照gro〃/?的數(shù)值切分,通常默認(rèn)為1;偏移量是否在卷積核掃描輸入?yún)^(qū)域進(jìn)行??對應(yīng)相乘再求和的運(yùn)算后添加偏移量,通常默認(rèn)為7>?e。??若假設(shè)源端輸入為乂二仏辦辦私私^^設(shè)置卷積核形狀為丨)^,#**〗,*??了保持卷積輸出矩陣的形狀與輸入相同,設(shè)置填充為1,對當(dāng)前時(shí)刻目標(biāo)端的注意力??權(quán)重分布建立多層卷積結(jié)構(gòu)。如圖3-3所示,初始狀態(tài)下,或A或或(x2,jc3)為當(dāng)前??時(shí)刻目標(biāo)端單詞對應(yīng)的詞組的概率較大,當(dāng)對輸入矩陣進(jìn)行多層卷積運(yùn)算后,高層??卷積的信息分布逐漸包含了低層的信息,形成了一種更為平滑的、短語級別的注意??力信息分布。??0?X\?X2?X3?X4?Xs?Xe?0??圖3-3多層卷積輸出示意圖??3.2門控激活機(jī)制??為了使網(wǎng)絡(luò)具有控制信息流傳遞的能力,在一些神經(jīng)網(wǎng)絡(luò)中常需要引入激活函??數(shù),常用的有函數(shù)和函數(shù),又或者卷積神經(jīng)網(wǎng)絡(luò)隱藏層屮的函數(shù),??以及基于門控機(jī)制的Grt/?_和GLf;?_單元。在神經(jīng)網(wǎng)絡(luò)中,M先被廣泛使用的激??活函數(shù)是WgmoW函數(shù)和rmA函數(shù),這兩個(gè)函數(shù)都是非線性的激活函數(shù),表達(dá)式如??23??
第-:章基于當(dāng)前注意力卷積的神經(jīng)機(jī)器翻譯?基于注意力卷積的神經(jīng)機(jī)器翻譯研宂??下:??Sigmoid(x)?=?[?(3.3)??T?anh(x)?=?— ̄—?(3.4)??ex?+?e^x??■S/gmoW函數(shù)最初被稱為函數(shù),由于其形狀類似于“S”型,因此被稱??為其取值范圍為區(qū)間(0,1);?7\w/7函數(shù)又稱雙曲正切函數(shù),它等于雙曲正??弦函數(shù)與雙曲余弦函數(shù)的比值“/n(x)/co.?(j〇),其取值范圍為區(qū)間(-1,丨)。如圖3-4所??示,圖中藍(lán)色實(shí)線表示函數(shù)曲線,紅色虛線表示函數(shù)的導(dǎo)數(shù)曲線。在目前的深度學(xué)??習(xí)算法中,神經(jīng)網(wǎng)絡(luò)優(yōu)化的方法通常是基于反向傳播的思想,即根據(jù)損失函數(shù)計(jì)算??誤差并通過梯度反向傳播的方式來指導(dǎo)更新神經(jīng)網(wǎng)絡(luò)參數(shù)。??1.0H?????1.Q?個(gè)'?^????Sigmoid?^??"、?//^?——Tanh???Sigmoid'?j?\?(??Tanh’??/??/?^?1?2?4??-2 ̄ ̄^^-i.〇J??(a)??S/Smo/V/函數(shù)?(b)?7\7/?/7函數(shù)??圖3-4?5/以讓V/和7Vm/i函數(shù)曲線及導(dǎo)數(shù)曲線??在反向傳播的過程中,很容易出現(xiàn)梯度消失與梯度爆炸的問題。梯度消失??通常是因?yàn)樵谏顚拥纳窠?jīng)網(wǎng)絡(luò)中采用了不合適的激活函數(shù),例如函數(shù),??S?/gmoW函數(shù)是將所有的數(shù)映射到區(qū)間(0,丨),且其導(dǎo)數(shù)的閾值也在區(qū)間(〇,?1),在反向??傳播的過程中,損失函數(shù)是由每層函數(shù)的偏導(dǎo)數(shù)相乘得到的,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的??加深,最后一層的損失由多個(gè)在區(qū)間(0,1)的數(shù)相乘得到,因此會愈來愈趨近于0,從??而導(dǎo)致淺層的參數(shù)無法得到更新,這
【參考文獻(xiàn)】:
期刊論文
[1]基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報(bào). 2011(06)
本文編號:3031222
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-2注意力權(quán)重分布示意圖??
入設(shè)定,沒有默認(rèn)值,^?/辦默認(rèn)為1,??默認(rèn)為0,其填充值默認(rèn)為0,默認(rèn)為1。在不同的底層框架中,卷??積運(yùn)算可能會有更多其他的輸入?yún)?shù),例如分組數(shù)用于將輸入矩陣按??照gro〃/?的數(shù)值切分,通常默認(rèn)為1;偏移量是否在卷積核掃描輸入?yún)^(qū)域進(jìn)行??對應(yīng)相乘再求和的運(yùn)算后添加偏移量,通常默認(rèn)為7>?e。??若假設(shè)源端輸入為乂二仏辦辦私私^^設(shè)置卷積核形狀為丨)^,#**〗,*??了保持卷積輸出矩陣的形狀與輸入相同,設(shè)置填充為1,對當(dāng)前時(shí)刻目標(biāo)端的注意力??權(quán)重分布建立多層卷積結(jié)構(gòu)。如圖3-3所示,初始狀態(tài)下,或A或或(x2,jc3)為當(dāng)前??時(shí)刻目標(biāo)端單詞對應(yīng)的詞組的概率較大,當(dāng)對輸入矩陣進(jìn)行多層卷積運(yùn)算后,高層??卷積的信息分布逐漸包含了低層的信息,形成了一種更為平滑的、短語級別的注意??力信息分布。??0?X\?X2?X3?X4?Xs?Xe?0??圖3-3多層卷積輸出示意圖??3.2門控激活機(jī)制??為了使網(wǎng)絡(luò)具有控制信息流傳遞的能力,在一些神經(jīng)網(wǎng)絡(luò)中常需要引入激活函??數(shù),常用的有函數(shù)和函數(shù),又或者卷積神經(jīng)網(wǎng)絡(luò)隱藏層屮的函數(shù),??以及基于門控機(jī)制的Grt/?_和GLf;?_單元。在神經(jīng)網(wǎng)絡(luò)中,M先被廣泛使用的激??活函數(shù)是WgmoW函數(shù)和rmA函數(shù),這兩個(gè)函數(shù)都是非線性的激活函數(shù),表達(dá)式如??23??
第-:章基于當(dāng)前注意力卷積的神經(jīng)機(jī)器翻譯?基于注意力卷積的神經(jīng)機(jī)器翻譯研宂??下:??Sigmoid(x)?=?[?(3.3)??T?anh(x)?=?— ̄—?(3.4)??ex?+?e^x??■S/gmoW函數(shù)最初被稱為函數(shù),由于其形狀類似于“S”型,因此被稱??為其取值范圍為區(qū)間(0,1);?7\w/7函數(shù)又稱雙曲正切函數(shù),它等于雙曲正??弦函數(shù)與雙曲余弦函數(shù)的比值“/n(x)/co.?(j〇),其取值范圍為區(qū)間(-1,丨)。如圖3-4所??示,圖中藍(lán)色實(shí)線表示函數(shù)曲線,紅色虛線表示函數(shù)的導(dǎo)數(shù)曲線。在目前的深度學(xué)??習(xí)算法中,神經(jīng)網(wǎng)絡(luò)優(yōu)化的方法通常是基于反向傳播的思想,即根據(jù)損失函數(shù)計(jì)算??誤差并通過梯度反向傳播的方式來指導(dǎo)更新神經(jīng)網(wǎng)絡(luò)參數(shù)。??1.0H?????1.Q?個(gè)'?^????Sigmoid?^??"、?//^?——Tanh???Sigmoid'?j?\?(??Tanh’??/??/?^?1?2?4??-2 ̄ ̄^^-i.〇J??(a)??S/Smo/V/函數(shù)?(b)?7\7/?/7函數(shù)??圖3-4?5/以讓V/和7Vm/i函數(shù)曲線及導(dǎo)數(shù)曲線??在反向傳播的過程中,很容易出現(xiàn)梯度消失與梯度爆炸的問題。梯度消失??通常是因?yàn)樵谏顚拥纳窠?jīng)網(wǎng)絡(luò)中采用了不合適的激活函數(shù),例如函數(shù),??S?/gmoW函數(shù)是將所有的數(shù)映射到區(qū)間(0,丨),且其導(dǎo)數(shù)的閾值也在區(qū)間(〇,?1),在反向??傳播的過程中,損失函數(shù)是由每層函數(shù)的偏導(dǎo)數(shù)相乘得到的,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的??加深,最后一層的損失由多個(gè)在區(qū)間(0,1)的數(shù)相乘得到,因此會愈來愈趨近于0,從??而導(dǎo)致淺層的參數(shù)無法得到更新,這
【參考文獻(xiàn)】:
期刊論文
[1]基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報(bào). 2011(06)
本文編號:3031222
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3031222.html
最近更新
教材專著