天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

低資源語言神經(jīng)機(jī)器翻譯關(guān)鍵技術(shù)研究

發(fā)布時間:2021-01-29 04:29
  機(jī)器翻譯,研究如何利用計算機(jī)自動地實現(xiàn)不同語言之間的相互轉(zhuǎn)化,是自然語言處理的重要研究方向之一。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,學(xué)術(shù)界和工業(yè)界的機(jī)器翻譯研究也逐漸從傳統(tǒng)的統(tǒng)計機(jī)器翻譯向神經(jīng)機(jī)器翻譯轉(zhuǎn)化。經(jīng)過大規(guī)模、高質(zhì)量的平行語料訓(xùn)練,神經(jīng)機(jī)器翻譯的性能在多個翻譯任務(wù)中都達(dá)到了媲美人類手工翻譯的水平。但除英語、漢語等少數(shù)語言外,世界上大多數(shù)語言對之間都不存在大規(guī)模的平行語料,屬低資源語言,這給神經(jīng)機(jī)器翻譯和應(yīng)用研究帶來了新的課題。本文旨在探索神經(jīng)機(jī)器翻譯技術(shù)在低資源語言場景下的應(yīng)用,為此分別研究了三種情況下漢語與“一帶一路”部分國家語言和我國少數(shù)民族語言之間的機(jī)器翻譯技術(shù)。本文的主要貢獻(xiàn)包括:☆針對低資源語言神經(jīng)機(jī)器翻譯中的數(shù)據(jù)匱乏問題,本文在擁有少數(shù)平行語料的前提下,結(jié)合語料對齊和語法糾錯等技術(shù),提出了一種基于語義相關(guān)詞替換策略的數(shù)據(jù)增強(qiáng)方法,通過自動增加平行語料的數(shù)量以達(dá)到提升神經(jīng)機(jī)器翻譯性能的目標(biāo)。實驗結(jié)果表明,該方法在蒙古語、藏語、維吾爾語和阿拉伯語與漢語之間的翻譯任務(wù)中取得了很好的性能,最高有3.06個BLEU點(diǎn)的提升!钺槍σ恍┱Z言對之間不存在平行語料的問題,本文分... 

【文章來源】:中央民族大學(xué)北京市 211工程院校 985工程院校

【文章頁數(shù)】:87 頁

【學(xué)位級別】:碩士

【部分圖文】:

低資源語言神經(jīng)機(jī)器翻譯關(guān)鍵技術(shù)研究


圖2-1?Transformer神經(jīng)機(jī)器翻譯模型整體架構(gòu)??(1)?Transformer?模型框架??與先前的神經(jīng)機(jī)器翻譯模型類似,Vaswani等人提出的Transformer模型也??是由編碼器(Encoder)和解碼器(Decoder)兩部分組成,最大的不同是,??

機(jī)器翻譯,語言,資源,神經(jīng)


低資源機(jī)器翻譯????*??y??<r一^一^接使用源語言??言平行語料^??臟用?間麵??有監(jiān)4方法I?|無監(jiān)督方法|?|半監(jiān)督方法??I反向翻譯;?1? ̄無監(jiān)督 ̄:?!樞軸語言??:數(shù)據(jù)增強(qiáng)i?!預(yù)訓(xùn)練!?;雙語挖掘!??!遷移學(xué)習(xí)?:......:?!?......?!??!?元學(xué)習(xí)?丨?1?'?1?1??;???????!??I?1??圖2-2低資源語言機(jī)器翻譯分類??2.2.1有監(jiān)督低資源語言神經(jīng)機(jī)器翻譯方法??低資源語言神經(jīng)機(jī)器翻譯方法中的監(jiān)督方法,指的是在整個模型訓(xùn)練過程中,??需要直接提供源語言和目標(biāo)語言之間的雙語平行語料。監(jiān)督方法又可以進(jìn)一步可??以分為以下四種方法:反向翻譯(Back?Translation?)、數(shù)據(jù)增強(qiáng)(Data?Augmentation?)、??遷移學(xué)習(xí)(Transfer?Learning)和元學(xué)習(xí)(Meta-Learning)方法。??反向翻譯:反向翻譯[34]的思想是利用現(xiàn)有大規(guī)模的雙語平行語料并結(jié)合大??規(guī)模目標(biāo)語言單語數(shù)據(jù)提升神經(jīng)機(jī)器翻譯性能的一種方法。其主要步驟為;首先,??通過大規(guī)模的雙語平行語料訓(xùn)練一個目標(biāo)語言-源語言(記作T-S)的機(jī)器翻譯模型;??其次,利用大規(guī)模的目標(biāo)語言單語數(shù)據(jù)經(jīng)過T-S翻譯模型翻譯成源語言,生成大??規(guī)模的源語言與目標(biāo)語言的偽平行句對(質(zhì)量取決于T-S翻譯模型的性能)。最后,??將原始平行語料和偽平行語料進(jìn)行合并共同訓(xùn)練源語言-目標(biāo)語言機(jī)器翻譯模型??(記作S-T)。值得一提的是,反向翻譯方法在國內(nèi)外機(jī)器翻譯評測比賽??(WMT,CCMT)中己經(jīng)被認(rèn)為是提升機(jī)器翻譯性能必不可少的步驟印1

框架圖,相關(guān)集,語義,機(jī)器翻譯


二--y?--二--??j?/?蠔**?^?*—?我?。(我有-個妹妹)=。88?i?I?y?一)??;//?我有;弟^i?語法約播??!?^-<:?!???ZZ?[??、、U??<s>?y7?I?!源句子我H?一個弟弟他!?K據(jù)增強(qiáng)??!???^?1?1?目標(biāo)句子?I?have?a?brother,he?<s>?i?/??1?I諏新增)我有—個妹妹.他<S>?:??/??L??'?i.?_?f.*1L?l^yi!5。担保蓿?Ir.?V'T?\??圖3-1數(shù)據(jù)增強(qiáng)神經(jīng)機(jī)器翻譯技術(shù)模型框架圖??3.2.1語義相關(guān)集生成??假如a,?b表示為兩個單詞,是它們在D維向量空間中的對應(yīng)單詞??向量,則可以通過計算整個向量空間中單詞之間的余弦相似度來獲得與語義相關(guān)??詞:??a*b??cos(a^b)?=??(3.1)??Ikllll^li??其中,||fl||是向量a的L2范數(shù),是兩個向量的點(diǎn)乘。??語義相關(guān)集的生成步驟為:首先,我們通過大規(guī)模的單語種數(shù)據(jù)訓(xùn)練了一個??詞向量模型,并選擇余弦相似度值大于閾值的語義相關(guān)詞(實驗中??分別使用的閾值為0.6,?0.8,?0.9,?0.95),并生成了語義相關(guān)集多。??3.2.2語義相關(guān)詞替換??給定一個句子對(S,T)和某個單詞\在3中的位置i,首先,我們通過遍歷??語義相關(guān)集0,分別將S中的單詞&替換成語義相關(guān)集中的單詞然后,通過??23??

【參考文獻(xiàn)】:
期刊論文
[1]基于多編碼器多解碼器的大規(guī)模維漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型[J]. 張金超,艾山·吾買爾,買合木提·買買提,劉群.  中文信息學(xué)報. 2018(09)
[2]基于RNN和CNN的蒙漢神經(jīng)機(jī)器翻譯研究[J]. 包烏格德勒,趙小兵.  中文信息學(xué)報. 2018(08)
[3]融合先驗信息的蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型[J]. 樊文婷,侯宏旭,王洪彬,武靜,李金廷.  中文信息學(xué)報. 2018(06)
[4]基于CNN詞根形態(tài)選擇模型的改進(jìn)蒙漢機(jī)器翻譯研究[J]. 烏尼爾,蘇依拉,劉婉婉,仁慶道爾吉.  中文信息學(xué)報. 2018(05)
[5]藏漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯研究[J]. 李亞超,熊德意,張民,江靜,馬寧,殷建民.  中文信息學(xué)報. 2017(06)
[6]神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語-漢語翻譯中的性能對比[J]. 哈里旦木·阿布都克里木,劉洋,孫茂松.  清華大學(xué)學(xué)報(自然科學(xué)版). 2017(08)
[7]神經(jīng)機(jī)器翻譯前沿進(jìn)展[J]. 劉洋.  計算機(jī)研究與發(fā)展. 2017(06)
[8]基于藏語字性標(biāo)注的詞性預(yù)測研究[J]. 龍從軍,劉匯丹,諾明花,吳健.  中文信息學(xué)報. 2015(05)
[9]基于短語的漢維/維漢統(tǒng)計機(jī)器翻譯[J]. 董興華,周俊林,郭樹盛,吐爾洪·吾司曼.  計算機(jī)工程. 2011(09)
[10]基于短語的蒙漢統(tǒng)計機(jī)器翻譯系統(tǒng)的設(shè)計與實現(xiàn)[J]. 銀花,王斯日古楞,艷紅.  內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版). 2011(01)

碩士論文
[1]基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究[D]. 龐偉.中央民族大學(xué) 2015



本文編號:3006273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3006273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8c338***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com