天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究

發(fā)布時(shí)間:2020-11-11 20:49
   近年來,隨著深度學(xué)習(xí)的進(jìn)步和對(duì)大規(guī)模平行語料庫的使用,針對(duì)機(jī)器翻譯領(lǐng)域的研究取得了令人矚目的成績(jī),但這些成功的背后仍需要大量平行語料支撐。而蒙漢雙語平行語料稀缺使得蒙漢機(jī)器翻譯模型性能難以提升,本文通過構(gòu)建基于單語輔助的蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,可以有效緩減蒙漢機(jī)器翻譯任務(wù)中的平行語料稀缺問題,并將該方法擴(kuò)展到基于短語的統(tǒng)計(jì)機(jī)器翻譯模型上,更好地提升翻譯系統(tǒng)的性能。最后對(duì)上述兩個(gè)系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練得到性能較好的翻譯模型。本文具體工作內(nèi)容如下:(1)本文提出了利用單語語料構(gòu)建無監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的方法。該模型在訓(xùn)練過程中僅使用蒙漢單語語料,利用自學(xué)習(xí)方法對(duì)蒙古文端和漢文端單語詞嵌入進(jìn)行跨語言詞嵌入訓(xùn)練得到雙語詞典,然后通過該雙語詞典和漢文語言模型初始化翻譯模型。在無監(jiān)督機(jī)器翻譯系統(tǒng)中,利用迭代回譯可以對(duì)語料進(jìn)行有效地?cái)U(kuò)充,減少模型對(duì)平行語料的依賴,有效緩解蒙漢機(jī)器翻譯任務(wù)中的平行語料稀缺問題。(2)本文實(shí)現(xiàn)了基于短語的半監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型。使用無監(jiān)督方法對(duì)基于短語的無監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型進(jìn)行建模,并將得到的偽平行語料與平行語料在有監(jiān)督方法下訓(xùn)練基于半監(jiān)督方法的統(tǒng)計(jì)機(jī)器翻譯模型,提升基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型翻譯性能。(3)本文實(shí)現(xiàn)了兩種模型的聯(lián)合訓(xùn)練方法。在基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型中,模型訓(xùn)練的最小翻譯單元為短語片段,翻譯得到的短語免去了局部調(diào)序的問題,這樣可以更好的保留句子的結(jié)構(gòu)信息,使得翻譯效果有所提升。因此,本文將對(duì)半監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型和基于短語的半監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型在EM框架下進(jìn)行聯(lián)合訓(xùn)練,進(jìn)一步提升蒙漢機(jī)器翻譯模型翻譯性能。本文通過實(shí)驗(yàn)驗(yàn)證了自學(xué)習(xí)方法在蒙古文和漢文這樣相似性較低的語言之間的詞嵌入訓(xùn)練效果優(yōu)于基于生成式對(duì)抗網(wǎng)絡(luò)方法,且無監(jiān)督訓(xùn)練方法可以擴(kuò)充語料進(jìn)而提升低資源語言機(jī)器翻譯模型性能,本文無監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型BLEU值達(dá)到18.76。隨后將無監(jiān)督方法應(yīng)用在基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型中,得到了較無監(jiān)督神經(jīng)機(jī)器翻譯模型更好的表現(xiàn),BLEU值達(dá)到27.15。由于使用無監(jiān)督方法得到的偽語料噪聲較多,不利于模型的語義抽取,因此本文使用無監(jiān)督翻譯模型得到的偽平行語料和雙語平行語料進(jìn)行半監(jiān)督訓(xùn)練,對(duì)無監(jiān)督模型進(jìn)行改進(jìn),并結(jié)合統(tǒng)計(jì)機(jī)器翻譯模型和神經(jīng)機(jī)器翻譯模型各自優(yōu)勢(shì)進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)性能高于單一系統(tǒng)的蒙漢機(jī)器翻譯模型,BLEU值達(dá)到38.16。該模型性能超過有監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型性能,為之后蒙漢機(jī)器翻譯研究及其他低資源語言機(jī)器翻譯任務(wù)的研究奠定了基礎(chǔ)。
【學(xué)位單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類】:TP391.2;TP18
【部分圖文】:

架構(gòu)圖,短語,機(jī)器翻譯,模型


基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究10圖2.1基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型架構(gòu)圖Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短語表短語表由源語言端n-gram的集合、這些n-gram在目標(biāo)語言中可能的翻譯以及這個(gè)翻譯對(duì)應(yīng)的得分組成。為了系統(tǒng)可以對(duì)更長(zhǎng)的句子進(jìn)行翻譯,解碼器將這部分n-gram的翻譯組合起來,根據(jù)相應(yīng)的分?jǐn)?shù)和其余的打分模型對(duì)這個(gè)候選翻譯進(jìn)行排序。SMT系統(tǒng)首先從平行語料庫中利用詞對(duì)齊模型得到兩個(gè)方向的詞對(duì)齊,然后抽取一致的短語集合,并根據(jù)頻率進(jìn)行打分,得到最終的短語表。2.1.2反向短語翻譯模型|Pef表示目標(biāo)端語言句子翻譯為源語言句子的概率,該部分為整個(gè)統(tǒng)計(jì)機(jī)器翻譯模型的核心,假設(shè)將源語言句子f分為I個(gè)不同的短語片段,記IIffff11,且每個(gè)if均可以翻譯得到對(duì)應(yīng)的ei,則反向短語翻譯模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP為短語對(duì)齊模型。短語對(duì)齊模型是通過對(duì)雙語平行語料中的短語信息進(jìn)行統(tǒng)計(jì)分析后得到的,用于構(gòu)建兩種語言之間的詞對(duì)應(yīng)關(guān)系,短語對(duì)齊信息Iaaa1用于描述目標(biāo)語言句子f中的第i個(gè)短語的位置與源語言端第ia個(gè)詞的位置的對(duì)應(yīng)關(guān)系。經(jīng)過短語抽取后,可以得到“一對(duì)一”的短語表,在翻譯中以短語片段為最小翻譯單元,這樣做可以有效地減少基于詞的翻譯模型中翻譯結(jié)果的不連貫問題。表2.1為一個(gè)短語對(duì)齊信息表述示例:

網(wǎng)絡(luò)結(jié)構(gòu)圖,解碼器,編碼器,機(jī)器翻譯


內(nèi)蒙古大學(xué)碩士學(xué)位論文13圖2.2編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2.2Encoder-DecoderNetworkStructureDiagram目前應(yīng)用在機(jī)器翻譯任務(wù)上的深度神經(jīng)網(wǎng)絡(luò)模型主要有基于CNN的機(jī)器翻譯模型、基于RNN的機(jī)器翻譯模型以及基于注意力機(jī)制的Transformer機(jī)器翻譯模型。2.2.1卷積神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型卷積神經(jīng)網(wǎng)絡(luò)最先應(yīng)用于圖像處理,后又應(yīng)用于手寫數(shù)字識(shí)別任務(wù)。在機(jī)器翻譯任務(wù)中,Dauphin等人的工作[47]展示了如何通過使用多層卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)造并訓(xùn)練一個(gè)高性能的語言模型。該模型使用一句話構(gòu)成的詞嵌入作為輸入,每一行表示一個(gè)詞的詞嵌入,在處理文本時(shí),卷積核通常只能覆蓋上下幾行的詞,因此設(shè)置卷積核寬度與輸入詞嵌入寬度一致,這樣操作不僅可以捕捉到連續(xù)詞之間的特征,也可以實(shí)現(xiàn)在計(jì)算同一類特征時(shí)的權(quán)重共享。FacebookAI團(tuán)隊(duì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型[5],通過對(duì)模型進(jìn)行訓(xùn)練可以獲得句子當(dāng)中各組成成分的語義特征,然后通過學(xué)習(xí)到的語義特征將源語言句子翻譯為目標(biāo)語言句子,得到翻譯結(jié)果。2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型RNN的核心思想是使用經(jīng)過量化后的句子的序列信息進(jìn)行特征提取,與普通的FNN不同的是,RNN在FNN的基礎(chǔ)上加入了循環(huán)機(jī)制,這樣操作使得RNN可以學(xué)習(xí)到甚至前后沒有關(guān)聯(lián)的詞語之間的信息,但是當(dāng)需要翻譯的句子過長(zhǎng)時(shí),RNN依然存在長(zhǎng)距離依賴問題[48]且會(huì)導(dǎo)致訓(xùn)練過程中的梯度消失和梯度爆炸問題。為解決RNN在訓(xùn)練中遇到的這些問題,引入了長(zhǎng)短時(shí)記憶(LongShort-TermMemory,簡(jiǎn)稱LSTM)[49]對(duì)RNN進(jìn)行改進(jìn)。圖2.3為一個(gè)基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖:

機(jī)器翻譯,注意力,模型結(jié)構(gòu),機(jī)制


基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究14圖2.3基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是將源語言句子F轉(zhuǎn)換為矩陣H表示,矩陣中的每一列表示句子中每個(gè)詞的詞嵌入。在編碼階段源語言句子的向量表示會(huì)通過雙向LSTM結(jié)構(gòu)進(jìn)行正反向的充分學(xué)習(xí),使得輸入可以充分考慮上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(為編碼器函數(shù),emb)(為該詞語的向量表示,通過這兩個(gè)函數(shù)得到if的兩個(gè)向量表示,然后將兩個(gè)向量連接成雙向向量,最后將這些向量拼接為矩陣H。在解碼階段Decoder每次輸出一個(gè)詞,Decoder的隱層狀態(tài)jz是一個(gè)用來表示先前的目標(biāo)詞11je的固定長(zhǎng)度的向量。jz與隱層狀態(tài)ih進(jìn)行相似度計(jì)算:),(1jiijzhsim(2-9)sim)(函數(shù)為相似度計(jì)算函數(shù),該函數(shù)有多種選擇方式,本文使用點(diǎn)積后對(duì)注意力向量歸一化的方式進(jìn)行計(jì)算:Tkkjijija1)exp()exp((2-10)上下文向量jC通過注意力向量ija和隱層狀態(tài)ih加權(quán)后求平均得到:
【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 銀花;王斯日古楞;艷紅;;基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2011年01期

2 百順;;基于派生文法的日—蒙動(dòng)詞短語機(jī)器翻譯研究[J];中文信息學(xué)報(bào);2008年02期

3 侯宏旭;劉群;那順烏日?qǐng)D;;基于實(shí)例的漢蒙機(jī)器翻譯[J];中文信息學(xué)報(bào);2007年04期

4 娜步青;;基于統(tǒng)計(jì)的蒙漢機(jī)器翻譯系統(tǒng)研究[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期

5 馮志偉;機(jī)器翻譯——從實(shí)驗(yàn)室走向市場(chǎng)[J];語言文字應(yīng)用;1997年03期


相關(guān)碩士學(xué)位論文 前2條

1 王洪彬;多粒度蒙古文漢文神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯研究[D];內(nèi)蒙古大學(xué);2018年

2 蘇傳捷;基于層次短語模型的蒙—漢統(tǒng)計(jì)機(jī)器翻譯研究[D];內(nèi)蒙古大學(xué);2014年



本文編號(hào):2879722

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2879722.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶acff1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美日韩校园春色激情偷拍 | 91亚洲人人在字幕国产| 激情五月天免费在线观看| 久久大香蕉一区二区三区| 欧美偷拍一区二区三区四区| 国产丝袜极品黑色高跟鞋| 暴力性生活在线免费视频| 亚洲精品欧美精品日韩精品| 精品视频一区二区三区不卡| 日韩国产中文在线视频| 午夜国产精品国自产拍av| 精品欧美国产一二三区| 色综合伊人天天综合网中文 | 日本不卡视频在线观看| 精品久久综合日本欧美| 日本深夜福利视频在线| 少妇特黄av一区二区三区| 欧洲精品一区二区三区四区 | 91国自产精品中文字幕亚洲| 国产一级一片内射视频在线| 黄片在线免费看日韩欧美| 丰满熟女少妇一区二区三区| 在线免费国产一区二区三区 | 国产精品久久熟女吞精| 国产亚洲不卡一区二区| 五月综合激情婷婷丁香| 亚洲专区一区中文字幕| 亚洲欧美日韩国产综合在线| 国产精品第一香蕉视频| 日韩国产传媒在线精品| 亚洲中文字幕视频一区二区 | 国产乱久久亚洲国产精品| 欧美日韩综合在线第一页| 夫妻性生活动态图视频| 不卡一区二区在线视频| 国产欧洲亚洲日产一区二区| 欧洲日本亚洲一区二区| 国产精品久久女同磨豆腐| 国产午夜在线精品视频| 色综合伊人天天综合网中文| 国内精品伊人久久久av高清|