基于CSGAN的多模型融合蒙漢神經(jīng)機(jī)器翻譯研究
發(fā)布時間:2021-08-04 21:36
由于低資源語料稀少而導(dǎo)致的語義捕獲不充分現(xiàn)象已成為影響機(jī)器翻譯質(zhì)量的主要因素.為此,該文在預(yù)處理的基礎(chǔ)上利用CNN和門控機(jī)制來改進(jìn)Transformer模型,通過對抗訓(xùn)練的方式來引導(dǎo)模型參數(shù)的優(yōu)化,同時通過加入命名實體識別來提高模型對實體的翻譯性能.此外,通過多模型融合的方式將來自多個機(jī)器翻譯的輸出經(jīng)過改進(jìn)、重組、合并轉(zhuǎn)變?yōu)橐粋單一的改進(jìn)的翻譯結(jié)果.通過3組對比實驗表明,該方法優(yōu)于基準(zhǔn)方法.
【文章來源】:江西師范大學(xué)學(xué)報(自然科學(xué)版). 2020,44(02)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
CRF命名實體識別
每層輸出的計算方式為Ol(X)=(XW+bw)?σ(XV+bv),其中d為輸入詞向量的維度,k為卷積核的寬度,n為輸出向量的維度,X∈Rd用來表示第l層卷積層的輸入向量,W∈Rk×d×n是卷積核的參數(shù)矩陣,bw∈Rn是卷積核的偏置,?為逐元素相乘操作,σ是一個sigmoid函數(shù),V∈Rk×d×n是GLU的卷積核矩陣,bv∈Rn是GLU卷積核的偏置,Ol(X)用來表示第l層的輸出.結(jié)合基于門控機(jī)制的CNN與Transformer融合模型的結(jié)構(gòu)圖如圖3所示,將輸入層的詞向量傳入到卷積層中,其中每個卷積層輸出的一部分用來計算GLU,剩下的部分作為卷積層的輸出同GLU的輸出進(jìn)行逐元素相乘.2.3 模型訓(xùn)練
本文使用基于M. Mirza等[12]提出的條件約束生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Networks,CSGAN),針對蒙漢機(jī)器翻譯任務(wù)的特點進(jìn)行了改進(jìn).由于蒙漢任務(wù)資源稀缺,模型接受的數(shù)據(jù)存儲較為稀疏,這使得模型很難在少量的語料中發(fā)現(xiàn)有用的上下文信息.對于這個問題,提出一種多粒度混合策略,在此基礎(chǔ)上添加一個基于價值迭代的過濾器,用于幫助模型識別當(dāng)前序列最合適的粒度.結(jié)構(gòu)圖如圖4所示.所謂噪聲,其實就是對原始訓(xùn)練語料經(jīng)過不同粒度切分后產(chǎn)生的語料,這里可以理解為偽數(shù)據(jù).生成器G用于譯文的產(chǎn)生,本文中的生成器為前面提到的幾種模型架構(gòu);將生成的譯文通過價值選擇器,過濾掉部分無用信息傳入判別器;判別器D用于區(qū)分生成器G生成的譯文與真實譯文,判別器D采用深度卷積結(jié)構(gòu).生成器G采用策略梯度進(jìn)行訓(xùn)練,計算公式為
本文編號:3322449
【文章來源】:江西師范大學(xué)學(xué)報(自然科學(xué)版). 2020,44(02)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
CRF命名實體識別
每層輸出的計算方式為Ol(X)=(XW+bw)?σ(XV+bv),其中d為輸入詞向量的維度,k為卷積核的寬度,n為輸出向量的維度,X∈Rd用來表示第l層卷積層的輸入向量,W∈Rk×d×n是卷積核的參數(shù)矩陣,bw∈Rn是卷積核的偏置,?為逐元素相乘操作,σ是一個sigmoid函數(shù),V∈Rk×d×n是GLU的卷積核矩陣,bv∈Rn是GLU卷積核的偏置,Ol(X)用來表示第l層的輸出.結(jié)合基于門控機(jī)制的CNN與Transformer融合模型的結(jié)構(gòu)圖如圖3所示,將輸入層的詞向量傳入到卷積層中,其中每個卷積層輸出的一部分用來計算GLU,剩下的部分作為卷積層的輸出同GLU的輸出進(jìn)行逐元素相乘.2.3 模型訓(xùn)練
本文使用基于M. Mirza等[12]提出的條件約束生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Networks,CSGAN),針對蒙漢機(jī)器翻譯任務(wù)的特點進(jìn)行了改進(jìn).由于蒙漢任務(wù)資源稀缺,模型接受的數(shù)據(jù)存儲較為稀疏,這使得模型很難在少量的語料中發(fā)現(xiàn)有用的上下文信息.對于這個問題,提出一種多粒度混合策略,在此基礎(chǔ)上添加一個基于價值迭代的過濾器,用于幫助模型識別當(dāng)前序列最合適的粒度.結(jié)構(gòu)圖如圖4所示.所謂噪聲,其實就是對原始訓(xùn)練語料經(jīng)過不同粒度切分后產(chǎn)生的語料,這里可以理解為偽數(shù)據(jù).生成器G用于譯文的產(chǎn)生,本文中的生成器為前面提到的幾種模型架構(gòu);將生成的譯文通過價值選擇器,過濾掉部分無用信息傳入判別器;判別器D用于區(qū)分生成器G生成的譯文與真實譯文,判別器D采用深度卷積結(jié)構(gòu).生成器G采用策略梯度進(jìn)行訓(xùn)練,計算公式為
本文編號:3322449
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3322449.html
最近更新
教材專著