基于對偶學(xué)習(xí)的西里爾蒙古語-漢語機器翻譯研究
【文章頁數(shù)】:7 頁
【部分圖文】:
圖1編碼器解碼器架構(gòu)圖
端到端的神經(jīng)機器翻譯框架已經(jīng)成為神經(jīng)機器翻譯中非常經(jīng)典的框架,其包括編碼器和解碼器,所以也叫作編碼器解碼器框架(Encoder-Decoder),其結(jié)構(gòu)如圖1所示。該模型的基本思想是:當(dāng)給定一個源語言句子時,編碼器會將其編碼為維數(shù)固定的向量,解碼器根據(jù)此向量將其轉(zhuǎn)化為目標(biāo)語言句子....
圖2LSTM隱藏層結(jié)構(gòu)圖
編碼器中的LSTM網(wǎng)絡(luò)將輸入的源語言句子x=(x1,x2,…,xI)進(jìn)行編碼,用在西里爾蒙古語和漢語的翻譯中就是將西里爾蒙古語句子進(jìn)行編碼,并計算出隱層狀態(tài)(h1,h2,…,hI)。在計算隱層狀態(tài)時,LSTM的輸入門、遺忘門和輸出門,分別用:ii、fi和Oj表示,其結(jié)構(gòu)如圖2所示....
圖3經(jīng)過BPE技術(shù)處理的西里爾蒙文
本文首先使用BPE技術(shù)對通過網(wǎng)絡(luò)爬蟲爬取的84835句對西里爾蒙漢平行語料中的西里爾蒙古文和67288句西里爾蒙文單語數(shù)據(jù)進(jìn)行處理。得到的處理后的結(jié)果如圖3所示。然后將經(jīng)過Jieba分詞處理的84835句對西里爾蒙漢平行語料中的漢語和67288句漢語單語數(shù)據(jù)進(jìn)行處理。得到....
圖4經(jīng)過Jieba分詞和BPE技術(shù)處理的漢語
然后將經(jīng)過Jieba分詞處理的84835句對西里爾蒙漢平行語料中的漢語和67288句漢語單語數(shù)據(jù)進(jìn)行處理。得到的分詞結(jié)果如圖4所示。1.3對偶學(xué)習(xí)
本文編號:3921048
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3921048.html