天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

神經(jīng)機(jī)器翻譯關(guān)鍵技術(shù)研究與應(yīng)用

發(fā)布時(shí)間:2021-07-15 00:44
  在如今經(jīng)濟(jì)全球化的時(shí)代,翻譯服務(wù)的重要性逐漸體現(xiàn)。相較于人工翻譯服務(wù)而言,機(jī)器翻譯的速度更快,更能滿足社會(huì)的需求。神經(jīng)機(jī)器翻譯作為一種利用大規(guī)模雙語平行語料對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到翻譯模型的技術(shù),已經(jīng)成為機(jī)器翻譯的主流方法,被廣泛用于各種語言之間的翻譯工作當(dāng)中。本文以中英神經(jīng)機(jī)器翻譯為例,對(duì)神經(jīng)機(jī)器翻譯的關(guān)鍵技術(shù)進(jìn)行了研究與應(yīng)用。神經(jīng)機(jī)器翻譯通常僅通過平行語料學(xué)習(xí)翻譯知識(shí)而忽略了語言本身的先驗(yàn)特征。除此之外,在主流的神經(jīng)機(jī)器翻譯模型中,只有最頂層編碼器的輸出得到了利用,其他的深層信息則被忽略,這也限制了翻譯模型的性能。本文為解決以上問題,完成了以下工作:(1)提出了融入多粒度形態(tài)特征的中英神經(jīng)機(jī)器翻譯模型。中文詞語由漢字組成,而漢字能夠進(jìn)一步劃分為部件,這些組件的形態(tài)特征與詞語的語義有著極為密切的聯(lián)系。本文創(chuàng)新性地提出的基于部件n元組的中文詞向量模型能夠獲取細(xì)粒度的形態(tài)特征。而粗粒度特征則通過BERT預(yù)訓(xùn)練語言模型的詞嵌入層獲得。在中英神經(jīng)機(jī)器翻譯任務(wù)中,本文的翻譯模型相較于基準(zhǔn)模型Transformer提高了0.78的BLEU-4評(píng)分。本文提出的中文詞向量模型在詞向量評(píng)測任務(wù)中分... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:80 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

神經(jīng)機(jī)器翻譯關(guān)鍵技術(shù)研究與應(yīng)用


編碼器-解碼器框架圖

展開圖,解碼器,編碼器,展開圖


電子科技大學(xué)碩士學(xué)位論文10題。而在神經(jīng)機(jī)器翻譯中,無論是源語言還是目標(biāo)語言,其本質(zhì)都是單詞的序列,因此,編碼器-解碼器(Encoder-Decoder)框架也自然而然成為神經(jīng)機(jī)器翻譯模型的首選,常見的編碼器-解碼器框架結(jié)構(gòu)圖如圖2-1所示。圖2-1編碼器-解碼器框架圖在一般的神經(jīng)機(jī)器翻譯模型中,模型整體結(jié)構(gòu)為編碼器-解碼器結(jié)構(gòu),編碼器負(fù)責(zé)接收源語言句子的輸入,并將其句子的整體語義編碼為一個(gè)低維實(shí)數(shù)向量。對(duì)于輸入12{,,...,}mX=xxx,可以得到隱語義向量h。隱藏語義向量h則輸入至解碼器當(dāng)中,參與解碼器逐步生成目標(biāo)語言句子12{,,...,}nY=yyy的過程。具體的模型展開圖以及翻譯過程舉例如圖2-2所示。圖2-2編碼器解碼器神經(jīng)網(wǎng)絡(luò)展開圖

示意圖,解碼過程,示意圖,源語言


電子科技大學(xué)碩士學(xué)位論文12練完成,投入使用時(shí),需要通過模型的解碼階段來生成翻譯,實(shí)現(xiàn)其翻譯的功能。本小節(jié)對(duì)常見的用于神經(jīng)機(jī)器翻譯系統(tǒng)的兩種解碼方式——貪婪搜索(greedysearch)解碼和集束搜索(beamsearch)解碼進(jìn)行了簡要的說明。貪婪解碼方式,是最簡單的利用神經(jīng)機(jī)器翻譯模型將源語言句子轉(zhuǎn)換為目標(biāo)語言句子的解碼方式,貪婪解碼的過程圖如圖2-3所示。圖2-3貪婪解碼過程示意圖如圖(2-3)所示,利用貪婪解碼來為神經(jīng)機(jī)器翻譯模型生成翻譯結(jié)果的過程為:(1)將源語言句子輸入模型的編碼器編碼為低維實(shí)數(shù)向量作為其語義表示,該向量被用于初始化解碼器的初始隱藏狀態(tài)。(2)當(dāng)源語言句子全部輸入編碼器時(shí),將終止符號(hào)<eos>輸入模型的解碼器部分,作為解碼的過程開始的標(biāo)志。(3)解碼器對(duì)<eos>符號(hào)以及源語言句子的語義信息進(jìn)行運(yùn)算,通過softmax層得到詞匯表中每一個(gè)單詞的生成概率。(4)在每一個(gè)時(shí)刻,選擇生成概率最大的詞語進(jìn)行生成,并把它作為下一個(gè)時(shí)刻解碼器的輸入,與訓(xùn)練過程中直接輸入目標(biāo)序列的單詞不同。(5)當(dāng)解碼器生成<eos>符號(hào),或者解碼輪數(shù)達(dá)到了設(shè)定的最大值,則終止解


本文編號(hào):3285229

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3285229.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d3004***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com