神經(jīng)機(jī)器翻譯通常采用序列-序列的神經(jīng)網(wǎng)絡(luò)模型對翻譯任務(wù)建模,其翻譯結(jié)果從流暢度、忠實度等方面都遠(yuǎn)超傳統(tǒng)的統(tǒng)計機(jī)器翻譯方法,使機(jī)器翻譯技術(shù)達(dá)到了一個新的高度。通常情況下,神經(jīng)機(jī)器翻譯模型利用編碼器以序列的形式對源語言句子編碼,再利用解碼器同樣以序列的形式生成目標(biāo)語言句子。然而語言中句子的構(gòu)成并不是詞語的簡單羅列,實際上每句話都是由該語言的語法結(jié)構(gòu)約束的。例如一個英文句子可以由主語、謂語、賓語組成,每個英文單詞可以充當(dāng)其中一個或多個角色,它們需要在語法的約束下才能組合成一個正確的句子。語法結(jié)構(gòu)是語言中非常重要的組成部分。而神經(jīng)機(jī)器翻譯模型在翻譯的過程中往往忽視了語法結(jié)構(gòu),導(dǎo)致翻譯結(jié)果中仍存在違背語法約束的錯誤譯文。在自然語言處理領(lǐng)域,語法通常由句法結(jié)構(gòu)表示。近年來,基于句法的神經(jīng)機(jī)器翻譯成為神經(jīng)機(jī)器翻譯研究中的一個熱點話題。本文主要針對基于句法的神經(jīng)機(jī)器翻譯中的五種問題提出相應(yīng)的研究方法。第一,針對基于句法的神經(jīng)翻譯模型中源語言樹結(jié)構(gòu)編碼復(fù)雜的問題,提出一種簡單有效的基于依存句法結(jié)構(gòu)遍歷的編碼方法。源語言的句法結(jié)構(gòu)可以幫助神經(jīng)翻譯模型準(zhǔn)確地理解源語言中詞語之間的結(jié)構(gòu)關(guān)系,比如主謂關(guān)系,修飾關(guān)系等,從而保證譯文最大限度的契合源語言,F(xiàn)有的諸多方法利用復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對源語言的句法結(jié)構(gòu)進(jìn)行編碼。雖然實現(xiàn)了將句法信息引入到神經(jīng)翻譯模型中,但大大增加了模型的復(fù)雜度。針對這一問題,本文提出了基于依存句法結(jié)構(gòu)遍歷的編碼方法。該方法立足于結(jié)構(gòu)簡單的源語言依存句法結(jié)構(gòu),通過先序、后序的遍歷方式構(gòu)建出兩種不同于源語言句子的序列,同時它們最大限度地保留了句法結(jié)構(gòu)知識。本文通過在編碼器中額外地編碼這兩種遍歷序列,將源語言的依存句法結(jié)構(gòu)引入到神經(jīng)翻譯模型中。實驗結(jié)果表明這種方法可以有效地讓神經(jīng)機(jī)器翻譯利用源語言句法知識,并提高了翻譯性能。第二,目前新興的基于完全自注意力機(jī)制的Transformer模型已經(jīng)全面地超越了以往的神經(jīng)機(jī)器翻譯模型,然而句法結(jié)構(gòu)能否對Transformer有幫助仍是一個研究空白。本文在Transformer的基礎(chǔ)上提出一種基于源語言依存結(jié)構(gòu)的有監(jiān)督編碼器。Transformer編碼器的特點是利用多層的多路自注意力網(wǎng)絡(luò)從不同角度隱式地對源語言建模。針對這一點,本文提出利用依存句法結(jié)構(gòu)指導(dǎo)自注意力網(wǎng)絡(luò)顯示地對句法結(jié)構(gòu)建模。首先,本文在依存句法結(jié)構(gòu)的基礎(chǔ)上提出兩種結(jié)構(gòu)依存矩陣,這兩個矩陣分別包含了子節(jié)點到父節(jié)點的依賴關(guān)系和父節(jié)點到子節(jié)點的依賴關(guān)系。然后,在Transformer模型的訓(xùn)練過程中,利用這兩個矩陣去指導(dǎo)自注意力網(wǎng)絡(luò)顯示地對依存結(jié)構(gòu)建模,從而達(dá)到將依存結(jié)構(gòu)引入Transformer的目的。該方法簡單易行,既不增加Transformer網(wǎng)絡(luò)的復(fù)雜度,又不打破Transformer高度并行化的優(yōu)勢。在翻譯過程中,編碼器能夠自動的構(gòu)建源語言依存結(jié)構(gòu),并將其用來幫助翻譯的產(chǎn)生。實驗結(jié)果表明該方法可以有效地利用源語言依存句法結(jié)構(gòu)提高Transformer的翻譯性能。第三,針對在神經(jīng)機(jī)器翻譯模型中利用目標(biāo)語言句法知識這一問題,本文提出了序列-依存的翻譯模型。目標(biāo)語言的依存句法知識可以直接有效地約束譯文,使其滿足語法結(jié)構(gòu),F(xiàn)有方法大多集中于如何在翻譯過程中生成譯文對應(yīng)的句法結(jié)構(gòu),卻忽視了對如何有效地利用已生成的句法結(jié)構(gòu)進(jìn)一步提高譯文的質(zhì)量。本文立足于目標(biāo)語言的依存句法結(jié)構(gòu),提出序列-依存的翻譯模型。該模型能夠在翻譯的過程中同時為譯文構(gòu)建依存句法結(jié)構(gòu),并從已生成的局部句法結(jié)構(gòu)中抽取句法級的上下文知識,進(jìn)一步幫助后續(xù)譯文和句法結(jié)構(gòu)的生成。實驗結(jié)果表明本文提出的序列-依存翻譯模型能夠很好地利用目標(biāo)語言句法知識提高模型的翻譯能力,同時也能為譯文建立合理的句法結(jié)構(gòu)。第四,針對現(xiàn)有工作未能在神經(jīng)機(jī)器翻譯模型中同時利用源語言和目標(biāo)語言句法知識這一問題,本文提出依存-依存的翻譯模型。句法是比句子復(fù)雜很多的結(jié)構(gòu)化知識,在基于序列的神經(jīng)翻譯模型中利用單一方向的句法知識已經(jīng)很有挑戰(zhàn),那么要同時利用兩個方向的句法知識更是難上加難,因此現(xiàn)有工作未能同時考慮二者。針對這一問題,本文提出依存-依存的神經(jīng)翻譯模型,該模型實現(xiàn)了同時利用源語言和目標(biāo)語言的依存句法結(jié)構(gòu)。本文將依存-依存的模型框架分別應(yīng)用在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的翻譯模型和Transformer中并提高了二者的翻譯性能。第五,本文對基于句法的翻譯模型做了比較全面的分析,包括以下三個方面:(1)分析了訓(xùn)練數(shù)據(jù)規(guī)模對翻譯模型的影響;(2)分析了句法精度對翻譯模型的影響;(3)基于句法的翻譯模型在相似語種和不相似語種下的翻譯效果。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2019
【中圖分類】:TP391.2;TP183
【部分圖文】:
第 1 章 緒論機(jī)制的 Transformer 模型。.3.1 序列到序列模型序列到序列模型[35,40]由編碼器和解碼器兩部分組成。編碼器負(fù)責(zé)讀入源語子,并將其壓縮為語義空間中的一個向量,同時期望該向量能夠包含源語言句上下文信息;解碼器則基于編碼器產(chǎn)生的源語言句子向量,生成在語義上等價標(biāo)語言句子。一般來說,編碼器和解碼器可由循環(huán)神經(jīng)網(wǎng)絡(luò)組成(RNN)。圖出了序列到序列模型的一個簡單樣例,該圖源于 Sutskever 等人的工作[35]。輸語言句子“A B C”,模型逐詞的讀入每一個單詞,并以句子結(jié)束符“<EOS>”尾,然后逐詞的生成目標(biāo)語言句子“W X Y Z”,同樣以符號“<EOS>”結(jié)束。本節(jié)將依次介紹編碼器和解碼器的構(gòu)造。

圖 1-4 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器解碼器框架在不同長度句子上的翻譯性能[36]g.1-4 The translation performance for different sentence length of the neural machine translatio,并生成反向的隱狀態(tài)。最終得到的隱狀態(tài)序列為 H = h1,h2,h3,...,hn,其中 i, hi],hi和 hi分別是由正向和反向 RNN 生成的隱狀態(tài)。注意力機(jī)制通過當(dāng)前器隱狀態(tài) st和編碼器的每一個隱狀態(tài)計算權(quán)重,然后使用該權(quán)重將編碼器的隱含狀態(tài)按位加權(quán)相加得到該時刻的源語言句子的最終向量表示 cj,計算過下所示,ct=mk=1atkhk(1-atk=exp(etk)mi=1exp(eti)(1-etk=match(st, hk)(1-atch 是匹配函數(shù)。注意力機(jī)制可以直觀理解為,為每一個目標(biāo)語言單詞尋找一恰當(dāng)?shù)脑凑Z言單詞,動態(tài)的構(gòu)建了每個時刻的源語言向量表示,翻譯過程中

圖 1-7 Transformer 模型的結(jié)構(gòu)[38]Fig.1-7 The model structure of the Transformer[38]將自關(guān)注網(wǎng)絡(luò)生成的源語言句子內(nèi)的上下文向量同當(dāng)生成考慮了整個句子上下文的當(dāng)前時刻的隱含狀態(tài)。差鏈接(Residual Connection)和層規(guī)范化(Layer No網(wǎng)絡(luò)層,即圖中的 AddNorm 層,定義為 LayerNorm(絡(luò)的輸入,SubLayer 為該子網(wǎng)絡(luò)的處理函數(shù),LayerNo N 個這樣的網(wǎng)絡(luò)層堆疊可以對信息進(jìn)一步地進(jìn)行抽象,同構(gòu)網(wǎng)絡(luò)中每個子網(wǎng)絡(luò)的輸出,以及詞向量和位置編需要保持同樣的長度。樣包含堆疊的 N 個同構(gòu)網(wǎng)絡(luò)層,每個網(wǎng)絡(luò)層包含三個同編碼器的第一個子網(wǎng)絡(luò)層類似,是一個分組自關(guān)注言句子里的其它詞的信息考慮進(jìn)來生成一個目標(biāo)語言于編碼器的自關(guān)注注意力網(wǎng)絡(luò),解碼器在解碼的時候
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊淵;馮莉娜;;巧用句法知識突破英語閱讀理解難關(guān)[J];濟(jì)南職業(yè)學(xué)院學(xué)報;2006年04期
2 王璞;寧婧思;;法語句法知識扭曲對寫作教學(xué)的負(fù)遷移影響及其對策[J];東西南北;2019年20期
3 秦琴;;巧用句法知識突破英語閱讀理解的難關(guān)[J];考試周刊;2007年41期
4 王璞;;句法知識缺失對法語學(xué)習(xí)的負(fù)遷移影響[J];才智;2014年06期
5 楊光正;;句法知識系統(tǒng)的推理方法[J];自動化學(xué)報;1993年05期
6 魏玉寶;吳爽;;基于高考的句法課課例分析[J];教學(xué)考試;2019年30期
7 張煥芹;;淺談英語論說文的句法知識[J];校園英語;2015年35期
8 陳小芳;;自動寫作評分系統(tǒng)對作文句法復(fù)雜度的影響[J];黑龍江工業(yè)學(xué)院學(xué)報(綜合版);2017年11期
9 范文靜;陳艷麗;;英語閱讀中句法分析的應(yīng)用[J];科技信息;2006年S3期
10 姜敬軍;;提高解答英語主觀題能力的途徑——一句多義[J];語數(shù)外學(xué)習(xí)(高考英語);2011年06期
相關(guān)博士學(xué)位論文 前1條
1 吳雙志;融合句法知識的神經(jīng)機(jī)器翻譯研究[D];哈爾濱工業(yè)大學(xué);2019年
相關(guān)碩士學(xué)位論文 前7條
1 吳晶晶;句法知識對大學(xué)生英語閱讀能力影響研究[D];燕山大學(xué);2012年
2 廖如鶯;詞匯量、句法知識和閱讀策略對學(xué)生英語閱讀能力影響的調(diào)查研究[D];南京師范大學(xué);2012年
3 徐晴;[D];電子科技大學(xué);2009年
4 胡瓊;信息結(jié)構(gòu)對中國英語學(xué)習(xí)者句法加工的影響[D];廣東外語外貿(mào)大學(xué);2017年
5 鄧靜;句法知識、詞匯廣度和詞匯深度對閱讀理解的影響[D];福建師范大學(xué);2014年
6 蔣榮;句法知識對母語者與第二語言學(xué)習(xí)者閱讀模式的影響[D];北京語言文化大學(xué);2001年
7 吳敏;基于句法知識的代詞消解研究[D];清華大學(xué);2005年
本文編號:
2842002
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2842002.html