翻譯質(zhì)量估計(jì)模型中訓(xùn)練樣本改進(jìn)方法研究
發(fā)布時(shí)間:2021-03-10 09:51
隨著機(jī)器翻譯技術(shù)的發(fā)展和應(yīng)用,機(jī)器翻譯結(jié)果出現(xiàn)在更多的場(chǎng)景中,但是翻譯質(zhì)量卻無(wú)法保證,用戶需要了解機(jī)器翻譯結(jié)果的質(zhì)量來(lái)決定是否對(duì)其進(jìn)行采用。機(jī)器翻譯質(zhì)量估計(jì)(Quality Estimation,QE)是機(jī)器翻譯領(lǐng)域的一項(xiàng)關(guān)鍵任務(wù),可以?xún)H根據(jù)源語(yǔ)言句子和機(jī)器譯文來(lái)對(duì)譯文的質(zhì)量進(jìn)行打分。與翻譯自動(dòng)評(píng)價(jià)的方法不同,翻譯質(zhì)量估計(jì)不需要使用參考譯文,能夠節(jié)省大量的人力和資源,適合于大規(guī)模無(wú)參考譯文的機(jī)器譯文質(zhì)量評(píng)估場(chǎng)景。在QE任務(wù)中,一個(gè)關(guān)鍵的問(wèn)題是數(shù)據(jù)稀缺,翻譯質(zhì)量估計(jì)數(shù)據(jù)的標(biāo)注需要專(zhuān)業(yè)的翻譯人員參與,對(duì)機(jī)器譯文進(jìn)行后編輯,從而得到質(zhì)量較好的后編輯譯文,這一過(guò)程費(fèi)時(shí)費(fèi)力。故現(xiàn)有的QE數(shù)據(jù)集的規(guī)模普遍較小,一般只有2萬(wàn)到3萬(wàn),與平行語(yǔ)料百萬(wàn)上千萬(wàn)的規(guī)模相比,是十分稀少的。本文為解決翻譯質(zhì)量估計(jì)數(shù)據(jù)稀缺問(wèn)題,從三個(gè)層面展開(kāi)研究,分別為模型層面、訓(xùn)練任務(wù)層面和數(shù)據(jù)層面,提出了一種新的QE模型架構(gòu),并探索預(yù)訓(xùn)練任務(wù)對(duì)QE的影響,最后使用數(shù)據(jù)增強(qiáng)方法擴(kuò)大了QE數(shù)據(jù)集的規(guī)模。本文的主要貢獻(xiàn)如下:第一,本文提出了一個(gè)基于掩碼預(yù)測(cè)的翻譯質(zhì)量估計(jì)模型,通過(guò)分析當(dāng)前QE主流框架“Predictor-Estima...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本課題主要研究?jī)?nèi)容結(jié)構(gòu)圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文第2章基于掩碼預(yù)測(cè)的翻譯質(zhì)量估計(jì)模型近年來(lái),基于Predictor-Estimator架構(gòu)[25]的翻譯質(zhì)量估計(jì)模型成為主流。通常來(lái)說(shuō),該架構(gòu)包含預(yù)測(cè)器(Predictor)和估計(jì)器(Estimator),預(yù)測(cè)器基于Encoder-Decoder架構(gòu),使用大規(guī)模平行語(yǔ)料進(jìn)行預(yù)訓(xùn)練,訓(xùn)練任務(wù)是對(duì)目標(biāo)端句子中的每個(gè)詞進(jìn)行預(yù)測(cè);估計(jì)器則是在訓(xùn)練好的預(yù)測(cè)器基礎(chǔ)上,進(jìn)一步使用翻譯質(zhì)量估計(jì)數(shù)據(jù)繼續(xù)訓(xùn)練;赑redictor-Estimator架構(gòu)的QE模型在許多QE評(píng)測(cè)任務(wù)中獲得了較好的成績(jī)[27,28,36]。圖2-1BilingualExpert模型示意圖以Kai等人[26]提出的BilingualExpert模型為例,該模型在WMT2018多項(xiàng)翻譯質(zhì)量估計(jì)任務(wù)中獲得最好成績(jī),結(jié)構(gòu)如圖2-1所示。模型中Predictor使用了一個(gè)編碼器對(duì)源端句子進(jìn)行編碼,正反向兩個(gè)解碼器對(duì)目標(biāo)端句子進(jìn)行學(xué)習(xí)。為了獲得雙向的句子表示,模型將正向解碼器的輸出和反向解碼器的輸出拼接,得到的向量稱(chēng)為特征向量,然后將特征向量輸入到基于雙向LSTM的估計(jì)器中進(jìn)行質(zhì)量估計(jì)。(a)forward(b)backward(c)masked圖2-2三種方向進(jìn)行詞預(yù)測(cè)的對(duì)比-10-
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文與傳統(tǒng)Predictor-Estimator模型的差異,圖中橙色箭頭和綠色箭頭分別代表預(yù)訓(xùn)練階段和QE階段模型參數(shù)更新的范圍。2.1.4模型架構(gòu)本模型的架構(gòu)與傳統(tǒng)Transformer模型較為類(lèi)似,包含一個(gè)編碼器(Encoder)和一個(gè)解碼器(Decoder),其中編碼器采用Transformer模型的編碼器,共六層,每層由兩部分組成,第一部分為多頭自注意力層(Multi-HeadSelfAttention),第二部分為前饋神經(jīng)網(wǎng)絡(luò)(Position-wiseFeed-ForwardNetworks)。解碼器總體采用Transformer的解碼器架構(gòu),共六層,每層由三部分組成,第一部分為多頭的自注意力層(Multi-HeadSelfAttention),第二部分為源端注意力層(Multi-HeadAttention),第三部分為前饋神經(jīng)網(wǎng)絡(luò)(Position-wiseFeed-ForwardNetworks)。模型隱藏層大小為512,對(duì)于多頭注意力層,頭的個(gè)數(shù)為8,前饋神經(jīng)網(wǎng)絡(luò)隱層大小為2048。圖2-5為本模型的架構(gòu)圖。圖2-5模型架構(gòu)圖機(jī)器翻譯任務(wù)(MT)和翻譯質(zhì)量估計(jì)任務(wù)(QE)存在著許多相似之處,例如-15-
【參考文獻(xiàn)】:
期刊論文
[1]多特征融合的句子級(jí)譯文質(zhì)量估計(jì)方法[J]. 葉娜,王遠(yuǎn)遠(yuǎn),蔡?hào)|風(fēng). 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的譯文質(zhì)量估計(jì)方法[J]. 陸金梁,張家俊. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[3]基于子詞的句子級(jí)別神經(jīng)機(jī)器翻譯的譯文質(zhì)量估計(jì)方法[J]. 李培蕓,翟煜錦,項(xiàng)青宇,李茂西,裘白蓮,羅文兵,王明文. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[4]融合翻譯知識(shí)的機(jī)器翻譯質(zhì)量估計(jì)算法[J]. 孫瀟,朱聰慧,趙鐵軍. 智能計(jì)算機(jī)與應(yīng)用. 2019(02)
[5]基于偽數(shù)據(jù)的機(jī)器翻譯質(zhì)量估計(jì)模型的訓(xùn)練[J]. 吳煥欽,張紅陽(yáng),李靜梅,朱俊國(guó),楊沐昀,李生. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
本文編號(hào):3074474
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本課題主要研究?jī)?nèi)容結(jié)構(gòu)圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文第2章基于掩碼預(yù)測(cè)的翻譯質(zhì)量估計(jì)模型近年來(lái),基于Predictor-Estimator架構(gòu)[25]的翻譯質(zhì)量估計(jì)模型成為主流。通常來(lái)說(shuō),該架構(gòu)包含預(yù)測(cè)器(Predictor)和估計(jì)器(Estimator),預(yù)測(cè)器基于Encoder-Decoder架構(gòu),使用大規(guī)模平行語(yǔ)料進(jìn)行預(yù)訓(xùn)練,訓(xùn)練任務(wù)是對(duì)目標(biāo)端句子中的每個(gè)詞進(jìn)行預(yù)測(cè);估計(jì)器則是在訓(xùn)練好的預(yù)測(cè)器基礎(chǔ)上,進(jìn)一步使用翻譯質(zhì)量估計(jì)數(shù)據(jù)繼續(xù)訓(xùn)練;赑redictor-Estimator架構(gòu)的QE模型在許多QE評(píng)測(cè)任務(wù)中獲得了較好的成績(jī)[27,28,36]。圖2-1BilingualExpert模型示意圖以Kai等人[26]提出的BilingualExpert模型為例,該模型在WMT2018多項(xiàng)翻譯質(zhì)量估計(jì)任務(wù)中獲得最好成績(jī),結(jié)構(gòu)如圖2-1所示。模型中Predictor使用了一個(gè)編碼器對(duì)源端句子進(jìn)行編碼,正反向兩個(gè)解碼器對(duì)目標(biāo)端句子進(jìn)行學(xué)習(xí)。為了獲得雙向的句子表示,模型將正向解碼器的輸出和反向解碼器的輸出拼接,得到的向量稱(chēng)為特征向量,然后將特征向量輸入到基于雙向LSTM的估計(jì)器中進(jìn)行質(zhì)量估計(jì)。(a)forward(b)backward(c)masked圖2-2三種方向進(jìn)行詞預(yù)測(cè)的對(duì)比-10-
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文與傳統(tǒng)Predictor-Estimator模型的差異,圖中橙色箭頭和綠色箭頭分別代表預(yù)訓(xùn)練階段和QE階段模型參數(shù)更新的范圍。2.1.4模型架構(gòu)本模型的架構(gòu)與傳統(tǒng)Transformer模型較為類(lèi)似,包含一個(gè)編碼器(Encoder)和一個(gè)解碼器(Decoder),其中編碼器采用Transformer模型的編碼器,共六層,每層由兩部分組成,第一部分為多頭自注意力層(Multi-HeadSelfAttention),第二部分為前饋神經(jīng)網(wǎng)絡(luò)(Position-wiseFeed-ForwardNetworks)。解碼器總體采用Transformer的解碼器架構(gòu),共六層,每層由三部分組成,第一部分為多頭的自注意力層(Multi-HeadSelfAttention),第二部分為源端注意力層(Multi-HeadAttention),第三部分為前饋神經(jīng)網(wǎng)絡(luò)(Position-wiseFeed-ForwardNetworks)。模型隱藏層大小為512,對(duì)于多頭注意力層,頭的個(gè)數(shù)為8,前饋神經(jīng)網(wǎng)絡(luò)隱層大小為2048。圖2-5為本模型的架構(gòu)圖。圖2-5模型架構(gòu)圖機(jī)器翻譯任務(wù)(MT)和翻譯質(zhì)量估計(jì)任務(wù)(QE)存在著許多相似之處,例如-15-
【參考文獻(xiàn)】:
期刊論文
[1]多特征融合的句子級(jí)譯文質(zhì)量估計(jì)方法[J]. 葉娜,王遠(yuǎn)遠(yuǎn),蔡?hào)|風(fēng). 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的譯文質(zhì)量估計(jì)方法[J]. 陸金梁,張家俊. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[3]基于子詞的句子級(jí)別神經(jīng)機(jī)器翻譯的譯文質(zhì)量估計(jì)方法[J]. 李培蕓,翟煜錦,項(xiàng)青宇,李茂西,裘白蓮,羅文兵,王明文. 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[4]融合翻譯知識(shí)的機(jī)器翻譯質(zhì)量估計(jì)算法[J]. 孫瀟,朱聰慧,趙鐵軍. 智能計(jì)算機(jī)與應(yīng)用. 2019(02)
[5]基于偽數(shù)據(jù)的機(jī)器翻譯質(zhì)量估計(jì)模型的訓(xùn)練[J]. 吳煥欽,張紅陽(yáng),李靜梅,朱俊國(guó),楊沐昀,李生. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
本文編號(hào):3074474
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3074474.html
最近更新
教材專(zhuān)著