基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究
發(fā)布時(shí)間:2020-11-11 20:49
近年來,隨著深度學(xué)習(xí)的進(jìn)步和對(duì)大規(guī)模平行語料庫的使用,針對(duì)機(jī)器翻譯領(lǐng)域的研究取得了令人矚目的成績(jī),但這些成功的背后仍需要大量平行語料支撐。而蒙漢雙語平行語料稀缺使得蒙漢機(jī)器翻譯模型性能難以提升,本文通過構(gòu)建基于單語輔助的蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,可以有效緩減蒙漢機(jī)器翻譯任務(wù)中的平行語料稀缺問題,并將該方法擴(kuò)展到基于短語的統(tǒng)計(jì)機(jī)器翻譯模型上,更好地提升翻譯系統(tǒng)的性能。最后對(duì)上述兩個(gè)系統(tǒng)進(jìn)行聯(lián)合訓(xùn)練得到性能較好的翻譯模型。本文具體工作內(nèi)容如下:(1)本文提出了利用單語語料構(gòu)建無監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的方法。該模型在訓(xùn)練過程中僅使用蒙漢單語語料,利用自學(xué)習(xí)方法對(duì)蒙古文端和漢文端單語詞嵌入進(jìn)行跨語言詞嵌入訓(xùn)練得到雙語詞典,然后通過該雙語詞典和漢文語言模型初始化翻譯模型。在無監(jiān)督機(jī)器翻譯系統(tǒng)中,利用迭代回譯可以對(duì)語料進(jìn)行有效地?cái)U(kuò)充,減少模型對(duì)平行語料的依賴,有效緩解蒙漢機(jī)器翻譯任務(wù)中的平行語料稀缺問題。(2)本文實(shí)現(xiàn)了基于短語的半監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型。使用無監(jiān)督方法對(duì)基于短語的無監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型進(jìn)行建模,并將得到的偽平行語料與平行語料在有監(jiān)督方法下訓(xùn)練基于半監(jiān)督方法的統(tǒng)計(jì)機(jī)器翻譯模型,提升基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型翻譯性能。(3)本文實(shí)現(xiàn)了兩種模型的聯(lián)合訓(xùn)練方法。在基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型中,模型訓(xùn)練的最小翻譯單元為短語片段,翻譯得到的短語免去了局部調(diào)序的問題,這樣可以更好的保留句子的結(jié)構(gòu)信息,使得翻譯效果有所提升。因此,本文將對(duì)半監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型和基于短語的半監(jiān)督蒙漢統(tǒng)計(jì)機(jī)器翻譯模型在EM框架下進(jìn)行聯(lián)合訓(xùn)練,進(jìn)一步提升蒙漢機(jī)器翻譯模型翻譯性能。本文通過實(shí)驗(yàn)驗(yàn)證了自學(xué)習(xí)方法在蒙古文和漢文這樣相似性較低的語言之間的詞嵌入訓(xùn)練效果優(yōu)于基于生成式對(duì)抗網(wǎng)絡(luò)方法,且無監(jiān)督訓(xùn)練方法可以擴(kuò)充語料進(jìn)而提升低資源語言機(jī)器翻譯模型性能,本文無監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型BLEU值達(dá)到18.76。隨后將無監(jiān)督方法應(yīng)用在基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型中,得到了較無監(jiān)督神經(jīng)機(jī)器翻譯模型更好的表現(xiàn),BLEU值達(dá)到27.15。由于使用無監(jiān)督方法得到的偽語料噪聲較多,不利于模型的語義抽取,因此本文使用無監(jiān)督翻譯模型得到的偽平行語料和雙語平行語料進(jìn)行半監(jiān)督訓(xùn)練,對(duì)無監(jiān)督模型進(jìn)行改進(jìn),并結(jié)合統(tǒng)計(jì)機(jī)器翻譯模型和神經(jīng)機(jī)器翻譯模型各自優(yōu)勢(shì)進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)性能高于單一系統(tǒng)的蒙漢機(jī)器翻譯模型,BLEU值達(dá)到38.16。該模型性能超過有監(jiān)督蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型性能,為之后蒙漢機(jī)器翻譯研究及其他低資源語言機(jī)器翻譯任務(wù)的研究奠定了基礎(chǔ)。
【學(xué)位單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類】:TP391.2;TP18
【部分圖文】:
基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究10圖2.1基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型架構(gòu)圖Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短語表短語表由源語言端n-gram的集合、這些n-gram在目標(biāo)語言中可能的翻譯以及這個(gè)翻譯對(duì)應(yīng)的得分組成。為了系統(tǒng)可以對(duì)更長(zhǎng)的句子進(jìn)行翻譯,解碼器將這部分n-gram的翻譯組合起來,根據(jù)相應(yīng)的分?jǐn)?shù)和其余的打分模型對(duì)這個(gè)候選翻譯進(jìn)行排序。SMT系統(tǒng)首先從平行語料庫中利用詞對(duì)齊模型得到兩個(gè)方向的詞對(duì)齊,然后抽取一致的短語集合,并根據(jù)頻率進(jìn)行打分,得到最終的短語表。2.1.2反向短語翻譯模型|Pef表示目標(biāo)端語言句子翻譯為源語言句子的概率,該部分為整個(gè)統(tǒng)計(jì)機(jī)器翻譯模型的核心,假設(shè)將源語言句子f分為I個(gè)不同的短語片段,記IIffff11,且每個(gè)if均可以翻譯得到對(duì)應(yīng)的ei,則反向短語翻譯模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP為短語對(duì)齊模型。短語對(duì)齊模型是通過對(duì)雙語平行語料中的短語信息進(jìn)行統(tǒng)計(jì)分析后得到的,用于構(gòu)建兩種語言之間的詞對(duì)應(yīng)關(guān)系,短語對(duì)齊信息Iaaa1用于描述目標(biāo)語言句子f中的第i個(gè)短語的位置與源語言端第ia個(gè)詞的位置的對(duì)應(yīng)關(guān)系。經(jīng)過短語抽取后,可以得到“一對(duì)一”的短語表,在翻譯中以短語片段為最小翻譯單元,這樣做可以有效地減少基于詞的翻譯模型中翻譯結(jié)果的不連貫問題。表2.1為一個(gè)短語對(duì)齊信息表述示例:
內(nèi)蒙古大學(xué)碩士學(xué)位論文13圖2.2編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2.2Encoder-DecoderNetworkStructureDiagram目前應(yīng)用在機(jī)器翻譯任務(wù)上的深度神經(jīng)網(wǎng)絡(luò)模型主要有基于CNN的機(jī)器翻譯模型、基于RNN的機(jī)器翻譯模型以及基于注意力機(jī)制的Transformer機(jī)器翻譯模型。2.2.1卷積神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型卷積神經(jīng)網(wǎng)絡(luò)最先應(yīng)用于圖像處理,后又應(yīng)用于手寫數(shù)字識(shí)別任務(wù)。在機(jī)器翻譯任務(wù)中,Dauphin等人的工作[47]展示了如何通過使用多層卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)造并訓(xùn)練一個(gè)高性能的語言模型。該模型使用一句話構(gòu)成的詞嵌入作為輸入,每一行表示一個(gè)詞的詞嵌入,在處理文本時(shí),卷積核通常只能覆蓋上下幾行的詞,因此設(shè)置卷積核寬度與輸入詞嵌入寬度一致,這樣操作不僅可以捕捉到連續(xù)詞之間的特征,也可以實(shí)現(xiàn)在計(jì)算同一類特征時(shí)的權(quán)重共享。FacebookAI團(tuán)隊(duì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型[5],通過對(duì)模型進(jìn)行訓(xùn)練可以獲得句子當(dāng)中各組成成分的語義特征,然后通過學(xué)習(xí)到的語義特征將源語言句子翻譯為目標(biāo)語言句子,得到翻譯結(jié)果。2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型RNN的核心思想是使用經(jīng)過量化后的句子的序列信息進(jìn)行特征提取,與普通的FNN不同的是,RNN在FNN的基礎(chǔ)上加入了循環(huán)機(jī)制,這樣操作使得RNN可以學(xué)習(xí)到甚至前后沒有關(guān)聯(lián)的詞語之間的信息,但是當(dāng)需要翻譯的句子過長(zhǎng)時(shí),RNN依然存在長(zhǎng)距離依賴問題[48]且會(huì)導(dǎo)致訓(xùn)練過程中的梯度消失和梯度爆炸問題。為解決RNN在訓(xùn)練中遇到的這些問題,引入了長(zhǎng)短時(shí)記憶(LongShort-TermMemory,簡(jiǎn)稱LSTM)[49]對(duì)RNN進(jìn)行改進(jìn)。圖2.3為一個(gè)基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖:
基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究14圖2.3基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是將源語言句子F轉(zhuǎn)換為矩陣H表示,矩陣中的每一列表示句子中每個(gè)詞的詞嵌入。在編碼階段源語言句子的向量表示會(huì)通過雙向LSTM結(jié)構(gòu)進(jìn)行正反向的充分學(xué)習(xí),使得輸入可以充分考慮上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(為編碼器函數(shù),emb)(為該詞語的向量表示,通過這兩個(gè)函數(shù)得到if的兩個(gè)向量表示,然后將兩個(gè)向量連接成雙向向量,最后將這些向量拼接為矩陣H。在解碼階段Decoder每次輸出一個(gè)詞,Decoder的隱層狀態(tài)jz是一個(gè)用來表示先前的目標(biāo)詞11je的固定長(zhǎng)度的向量。jz與隱層狀態(tài)ih進(jìn)行相似度計(jì)算:),(1jiijzhsim(2-9)sim)(函數(shù)為相似度計(jì)算函數(shù),該函數(shù)有多種選擇方式,本文使用點(diǎn)積后對(duì)注意力向量歸一化的方式進(jìn)行計(jì)算:Tkkjijija1)exp()exp((2-10)上下文向量jC通過注意力向量ija和隱層狀態(tài)ih加權(quán)后求平均得到:
【參考文獻(xiàn)】
本文編號(hào):2879722
【學(xué)位單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2020
【中圖分類】:TP391.2;TP18
【部分圖文】:
基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究10圖2.1基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯模型架構(gòu)圖Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短語表短語表由源語言端n-gram的集合、這些n-gram在目標(biāo)語言中可能的翻譯以及這個(gè)翻譯對(duì)應(yīng)的得分組成。為了系統(tǒng)可以對(duì)更長(zhǎng)的句子進(jìn)行翻譯,解碼器將這部分n-gram的翻譯組合起來,根據(jù)相應(yīng)的分?jǐn)?shù)和其余的打分模型對(duì)這個(gè)候選翻譯進(jìn)行排序。SMT系統(tǒng)首先從平行語料庫中利用詞對(duì)齊模型得到兩個(gè)方向的詞對(duì)齊,然后抽取一致的短語集合,并根據(jù)頻率進(jìn)行打分,得到最終的短語表。2.1.2反向短語翻譯模型|Pef表示目標(biāo)端語言句子翻譯為源語言句子的概率,該部分為整個(gè)統(tǒng)計(jì)機(jī)器翻譯模型的核心,假設(shè)將源語言句子f分為I個(gè)不同的短語片段,記IIffff11,且每個(gè)if均可以翻譯得到對(duì)應(yīng)的ei,則反向短語翻譯模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP為短語對(duì)齊模型。短語對(duì)齊模型是通過對(duì)雙語平行語料中的短語信息進(jìn)行統(tǒng)計(jì)分析后得到的,用于構(gòu)建兩種語言之間的詞對(duì)應(yīng)關(guān)系,短語對(duì)齊信息Iaaa1用于描述目標(biāo)語言句子f中的第i個(gè)短語的位置與源語言端第ia個(gè)詞的位置的對(duì)應(yīng)關(guān)系。經(jīng)過短語抽取后,可以得到“一對(duì)一”的短語表,在翻譯中以短語片段為最小翻譯單元,這樣做可以有效地減少基于詞的翻譯模型中翻譯結(jié)果的不連貫問題。表2.1為一個(gè)短語對(duì)齊信息表述示例:
內(nèi)蒙古大學(xué)碩士學(xué)位論文13圖2.2編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2.2Encoder-DecoderNetworkStructureDiagram目前應(yīng)用在機(jī)器翻譯任務(wù)上的深度神經(jīng)網(wǎng)絡(luò)模型主要有基于CNN的機(jī)器翻譯模型、基于RNN的機(jī)器翻譯模型以及基于注意力機(jī)制的Transformer機(jī)器翻譯模型。2.2.1卷積神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型卷積神經(jīng)網(wǎng)絡(luò)最先應(yīng)用于圖像處理,后又應(yīng)用于手寫數(shù)字識(shí)別任務(wù)。在機(jī)器翻譯任務(wù)中,Dauphin等人的工作[47]展示了如何通過使用多層卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)造并訓(xùn)練一個(gè)高性能的語言模型。該模型使用一句話構(gòu)成的詞嵌入作為輸入,每一行表示一個(gè)詞的詞嵌入,在處理文本時(shí),卷積核通常只能覆蓋上下幾行的詞,因此設(shè)置卷積核寬度與輸入詞嵌入寬度一致,這樣操作不僅可以捕捉到連續(xù)詞之間的特征,也可以實(shí)現(xiàn)在計(jì)算同一類特征時(shí)的權(quán)重共享。FacebookAI團(tuán)隊(duì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型[5],通過對(duì)模型進(jìn)行訓(xùn)練可以獲得句子當(dāng)中各組成成分的語義特征,然后通過學(xué)習(xí)到的語義特征將源語言句子翻譯為目標(biāo)語言句子,得到翻譯結(jié)果。2.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型RNN的核心思想是使用經(jīng)過量化后的句子的序列信息進(jìn)行特征提取,與普通的FNN不同的是,RNN在FNN的基礎(chǔ)上加入了循環(huán)機(jī)制,這樣操作使得RNN可以學(xué)習(xí)到甚至前后沒有關(guān)聯(lián)的詞語之間的信息,但是當(dāng)需要翻譯的句子過長(zhǎng)時(shí),RNN依然存在長(zhǎng)距離依賴問題[48]且會(huì)導(dǎo)致訓(xùn)練過程中的梯度消失和梯度爆炸問題。為解決RNN在訓(xùn)練中遇到的這些問題,引入了長(zhǎng)短時(shí)記憶(LongShort-TermMemory,簡(jiǎn)稱LSTM)[49]對(duì)RNN進(jìn)行改進(jìn)。圖2.3為一個(gè)基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖:
基于半監(jiān)督方法的蒙漢機(jī)器翻譯的研究14圖2.3基于注意力機(jī)制的雙向LSTM蒙漢機(jī)器翻譯模型結(jié)構(gòu)圖Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是將源語言句子F轉(zhuǎn)換為矩陣H表示,矩陣中的每一列表示句子中每個(gè)詞的詞嵌入。在編碼階段源語言句子的向量表示會(huì)通過雙向LSTM結(jié)構(gòu)進(jìn)行正反向的充分學(xué)習(xí),使得輸入可以充分考慮上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(為編碼器函數(shù),emb)(為該詞語的向量表示,通過這兩個(gè)函數(shù)得到if的兩個(gè)向量表示,然后將兩個(gè)向量連接成雙向向量,最后將這些向量拼接為矩陣H。在解碼階段Decoder每次輸出一個(gè)詞,Decoder的隱層狀態(tài)jz是一個(gè)用來表示先前的目標(biāo)詞11je的固定長(zhǎng)度的向量。jz與隱層狀態(tài)ih進(jìn)行相似度計(jì)算:),(1jiijzhsim(2-9)sim)(函數(shù)為相似度計(jì)算函數(shù),該函數(shù)有多種選擇方式,本文使用點(diǎn)積后對(duì)注意力向量歸一化的方式進(jìn)行計(jì)算:Tkkjijija1)exp()exp((2-10)上下文向量jC通過注意力向量ija和隱層狀態(tài)ih加權(quán)后求平均得到:
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 銀花;王斯日古楞;艷紅;;基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2011年01期
2 百順;;基于派生文法的日—蒙動(dòng)詞短語機(jī)器翻譯研究[J];中文信息學(xué)報(bào);2008年02期
3 侯宏旭;劉群;那順烏日?qǐng)D;;基于實(shí)例的漢蒙機(jī)器翻譯[J];中文信息學(xué)報(bào);2007年04期
4 娜步青;;基于統(tǒng)計(jì)的蒙漢機(jī)器翻譯系統(tǒng)研究[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
5 馮志偉;機(jī)器翻譯——從實(shí)驗(yàn)室走向市場(chǎng)[J];語言文字應(yīng)用;1997年03期
相關(guān)碩士學(xué)位論文 前2條
1 王洪彬;多粒度蒙古文漢文神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯研究[D];內(nèi)蒙古大學(xué);2018年
2 蘇傳捷;基于層次短語模型的蒙—漢統(tǒng)計(jì)機(jī)器翻譯研究[D];內(nèi)蒙古大學(xué);2014年
本文編號(hào):2879722
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2879722.html
最近更新
教材專著