基于數(shù)據(jù)擴(kuò)充的翻譯記憶庫與神經(jīng)機(jī)器翻譯融合方法
發(fā)布時間:2021-11-24 01:04
神經(jīng)機(jī)器翻譯是目前機(jī)器翻譯領(lǐng)域的主流方法,而翻譯記憶是一種幫助專業(yè)翻譯人員避免重復(fù)翻譯的工具,其保留之前完成的翻譯句對并存儲在翻譯記憶庫中,進(jìn)而在之后的翻譯過程中通過檢索去重用這些翻譯。該文基于數(shù)據(jù)擴(kuò)充提出兩種將翻譯記憶與神經(jīng)機(jī)器翻譯相結(jié)合的方法:(1)直接拼接翻譯記憶在源語句后面;(2)通過標(biāo)簽向量拼接翻譯記憶。該文在中英與英德數(shù)據(jù)集上進(jìn)行了實驗,實驗表明,該方法可以使翻譯性能獲得顯著提升。
【文章來源】:中文信息學(xué)報. 2020,34(05)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
Transformer模型結(jié)構(gòu)
通過這種方式,一方面擴(kuò)充了訓(xùn)練語料的規(guī)模;另一方面,翻譯記憶作為額外的信息,也傳入了翻譯的解碼中,模型在解碼時可以選擇目標(biāo)端翻譯記憶中有用的信息并加以使用。3.2 通過標(biāo)簽向量拼接翻譯記憶
上述方法在拼接了目標(biāo)端翻譯記憶后,僅僅通過一個分隔符來劃分界限,對于模型而言,加大了區(qū)分源語句與翻譯記憶的難度;谶@種考慮,我們額外引入了一個標(biāo)簽向量,用來區(qū)別輸入中的源語句與目標(biāo)端翻譯記憶。圖3給出了通過標(biāo)簽向量拼接翻譯記憶的示例。本文采用類似位置編碼的方式,在得到詞嵌入之后,除了添加位置信息外,還添加了一個標(biāo)簽向量,該標(biāo)簽向量用來表示當(dāng)前的輸入屬于源語句還是目標(biāo)端翻譯記憶,具體的計算如式(18)所示。
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器翻譯研究新進(jìn)展[J]. 劉群. 當(dāng)代語言學(xué). 2009(02)
本文編號:3514981
【文章來源】:中文信息學(xué)報. 2020,34(05)北大核心CSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
Transformer模型結(jié)構(gòu)
通過這種方式,一方面擴(kuò)充了訓(xùn)練語料的規(guī)模;另一方面,翻譯記憶作為額外的信息,也傳入了翻譯的解碼中,模型在解碼時可以選擇目標(biāo)端翻譯記憶中有用的信息并加以使用。3.2 通過標(biāo)簽向量拼接翻譯記憶
上述方法在拼接了目標(biāo)端翻譯記憶后,僅僅通過一個分隔符來劃分界限,對于模型而言,加大了區(qū)分源語句與翻譯記憶的難度;谶@種考慮,我們額外引入了一個標(biāo)簽向量,用來區(qū)別輸入中的源語句與目標(biāo)端翻譯記憶。圖3給出了通過標(biāo)簽向量拼接翻譯記憶的示例。本文采用類似位置編碼的方式,在得到詞嵌入之后,除了添加位置信息外,還添加了一個標(biāo)簽向量,該標(biāo)簽向量用來表示當(dāng)前的輸入屬于源語句還是目標(biāo)端翻譯記憶,具體的計算如式(18)所示。
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器翻譯研究新進(jìn)展[J]. 劉群. 當(dāng)代語言學(xué). 2009(02)
本文編號:3514981
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3514981.html
最近更新
教材專著