融合覆蓋機制的多模態(tài)神經(jīng)機器翻譯
發(fā)布時間:2021-06-17 19:28
多模態(tài)神經(jīng)機器翻譯是指直接采用神經(jīng)網(wǎng)絡(luò),以端到端方式融合圖像和文本兩種模態(tài)信息,以此進(jìn)行翻譯建模的機器學(xué)習(xí)方法。傳統(tǒng)多模態(tài)機器翻譯,是在將源語言翻譯成目標(biāo)語言時,借助圖像中的重要特征信息優(yōu)化翻譯過程。但是觀察發(fā)現(xiàn),圖像里的信息不一定出現(xiàn)在文本中,對翻譯也會帶來干擾;與參考譯文對比,翻譯結(jié)果中出現(xiàn)了過翻譯和欠翻譯的情況。針對以上問題,該文提出一種融合覆蓋機制雙注意力解碼方法,用于優(yōu)化現(xiàn)有多模態(tài)神經(jīng)機器翻譯模型。該模型借助覆蓋機制分別作用于源語言和源圖像,在注意力計算過程中,可以減少對過去重復(fù)信息的關(guān)注。在WMT16、WMT17測試集上進(jìn)行實驗,驗證了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法測試集上,對比基準(zhǔn)系統(tǒng)BLEU值分別提升了1.2,0.8,0.7和0.6個百分點。
【文章來源】:中文信息學(xué)報. 2020,34(03)北大核心CSCD
【文章頁數(shù)】:12 頁
【部分圖文】:
譯文: 男子在河岸附近的一條河上劃著船
下面介紹本文模型的總體結(jié)構(gòu),如圖2所示。首先,對于一個源語言句子S=(s1,s2,…,sN),采用預(yù)訓(xùn)練的詞向量作為詞義的分布式表示,初始化環(huán)節(jié)獲取每個詞的向量表示X=(x1,x2,…,xN)。在此基礎(chǔ)上進(jìn)行如下特征信息的學(xué)習(xí)過程:
計算方式和式(1)、式(5)類似,區(qū)別是加入了覆蓋向量作為額外的輸入,共同影響目標(biāo)語言的預(yù)測。接下來同樣按照式(2)、式(3),式(6)~式(8)的計算方式,獲取更新后的上下文注意力向量ct,it。下一步,本文使用更新后的it作為額外的輸入更新2.2節(jié)第三部分的計算,通過使用候選隱狀態(tài)s′t,源語言注意力向量ct和圖像注意力向量it計算t時刻最后隱狀態(tài)st,如式(13)~式(16)所示。
本文編號:3235783
【文章來源】:中文信息學(xué)報. 2020,34(03)北大核心CSCD
【文章頁數(shù)】:12 頁
【部分圖文】:
譯文: 男子在河岸附近的一條河上劃著船
下面介紹本文模型的總體結(jié)構(gòu),如圖2所示。首先,對于一個源語言句子S=(s1,s2,…,sN),采用預(yù)訓(xùn)練的詞向量作為詞義的分布式表示,初始化環(huán)節(jié)獲取每個詞的向量表示X=(x1,x2,…,xN)。在此基礎(chǔ)上進(jìn)行如下特征信息的學(xué)習(xí)過程:
計算方式和式(1)、式(5)類似,區(qū)別是加入了覆蓋向量作為額外的輸入,共同影響目標(biāo)語言的預(yù)測。接下來同樣按照式(2)、式(3),式(6)~式(8)的計算方式,獲取更新后的上下文注意力向量ct,it。下一步,本文使用更新后的it作為額外的輸入更新2.2節(jié)第三部分的計算,通過使用候選隱狀態(tài)s′t,源語言注意力向量ct和圖像注意力向量it計算t時刻最后隱狀態(tài)st,如式(13)~式(16)所示。
本文編號:3235783
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3235783.html
最近更新
教材專著