天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 文藝論文 > 漢語(yǔ)言論文 >

基于對(duì)偶學(xué)習(xí)的西里爾蒙古語(yǔ)-漢語(yǔ)機(jī)器翻譯研究

發(fā)布時(shí)間:2024-03-06 23:37
  目前,基于端到端的神經(jīng)機(jī)器翻譯(NMT)在大語(yǔ)種上取得了顯著的效果,已經(jīng)成為學(xué)術(shù)界非常流行的方法,然而該模型的訓(xùn)練嚴(yán)重依賴(lài)平行語(yǔ)料庫(kù)的大小,通常需要上百萬(wàn)句,而西里爾蒙古語(yǔ)和漢語(yǔ)之間的平行語(yǔ)料庫(kù)嚴(yán)重匱乏,并且人工構(gòu)建代價(jià)昂貴。因此,提出基于對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯方法。為了緩解因未登錄詞導(dǎo)致的譯文質(zhì)量不高的問(wèn)題,采用BPE(Byte Pair Encoding)技術(shù)對(duì)語(yǔ)料進(jìn)行預(yù)處理。將通過(guò)單語(yǔ)數(shù)據(jù)預(yù)訓(xùn)練的語(yǔ)言模型和20%的平行雙語(yǔ)數(shù)據(jù)預(yù)訓(xùn)練的翻譯模型作為該模型訓(xùn)練的初始狀態(tài)。以NMT為基線(xiàn)系統(tǒng),實(shí)驗(yàn)結(jié)果表明,該方法達(dá)到了與NMT使用西里爾蒙漢全部雙語(yǔ)數(shù)據(jù)相當(dāng)?shù)男Ч?有效緩解了因未登錄詞較多和平行語(yǔ)料庫(kù)匱乏導(dǎo)致的譯文質(zhì)量不高的問(wèn)題。

【文章頁(yè)數(shù)】:7 頁(yè)

【部分圖文】:

圖1編碼器解碼器架構(gòu)圖

圖1編碼器解碼器架構(gòu)圖

端到端的神經(jīng)機(jī)器翻譯框架已經(jīng)成為神經(jīng)機(jī)器翻譯中非常經(jīng)典的框架,其包括編碼器和解碼器,所以也叫作編碼器解碼器框架(Encoder-Decoder),其結(jié)構(gòu)如圖1所示。該模型的基本思想是:當(dāng)給定一個(gè)源語(yǔ)言句子時(shí),編碼器會(huì)將其編碼為維數(shù)固定的向量,解碼器根據(jù)此向量將其轉(zhuǎn)化為目標(biāo)語(yǔ)言句子....


圖2LSTM隱藏層結(jié)構(gòu)圖

圖2LSTM隱藏層結(jié)構(gòu)圖

編碼器中的LSTM網(wǎng)絡(luò)將輸入的源語(yǔ)言句子x=(x1,x2,…,xI)進(jìn)行編碼,用在西里爾蒙古語(yǔ)和漢語(yǔ)的翻譯中就是將西里爾蒙古語(yǔ)句子進(jìn)行編碼,并計(jì)算出隱層狀態(tài)(h1,h2,…,hI)。在計(jì)算隱層狀態(tài)時(shí),LSTM的輸入門(mén)、遺忘門(mén)和輸出門(mén),分別用:ii、fi和Oj表示,其結(jié)構(gòu)如圖2所示....


圖3經(jīng)過(guò)BPE技術(shù)處理的西里爾蒙文

圖3經(jīng)過(guò)BPE技術(shù)處理的西里爾蒙文

本文首先使用BPE技術(shù)對(duì)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取的84835句對(duì)西里爾蒙漢平行語(yǔ)料中的西里爾蒙古文和67288句西里爾蒙文單語(yǔ)數(shù)據(jù)進(jìn)行處理。得到的處理后的結(jié)果如圖3所示。然后將經(jīng)過(guò)Jieba分詞處理的84835句對(duì)西里爾蒙漢平行語(yǔ)料中的漢語(yǔ)和67288句漢語(yǔ)單語(yǔ)數(shù)據(jù)進(jìn)行處理。得到....


圖4經(jīng)過(guò)Jieba分詞和BPE技術(shù)處理的漢語(yǔ)

圖4經(jīng)過(guò)Jieba分詞和BPE技術(shù)處理的漢語(yǔ)

然后將經(jīng)過(guò)Jieba分詞處理的84835句對(duì)西里爾蒙漢平行語(yǔ)料中的漢語(yǔ)和67288句漢語(yǔ)單語(yǔ)數(shù)據(jù)進(jìn)行處理。得到的分詞結(jié)果如圖4所示。1.3對(duì)偶學(xué)習(xí)



本文編號(hào):3921048

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3921048.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)96004***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com