基于深度神經(jīng)網(wǎng)絡(luò)的機器翻譯研究
發(fā)布時間:2021-08-25 00:21
當(dāng)今世界人類社會和經(jīng)濟社會快速發(fā)展,隨著世界各國全球化合作日益加深,人類社會對機器翻譯的需求也迅速增加,而人工智能技術(shù)的進步,也對機器翻譯的質(zhì)量提出了新的要求。同時,機器翻譯研究的開展,對自然語言處理的其他領(lǐng)域有著標(biāo)桿性的作用。因此,對于機器翻譯的研究不僅具有很高的實用價值,更能推動自然語言處理理論研究的進步。機器翻譯模型可以分為統(tǒng)計機器翻譯和神經(jīng)機器翻譯兩大類。其中神經(jīng)機器翻譯模型是利用深度學(xué)習(xí)技術(shù),完全依賴于神經(jīng)網(wǎng)絡(luò)搭建的翻譯模型,主要由編碼器和解碼器兩個部分組成。經(jīng)典的“編碼器-解碼器”模型中大多采用的是循環(huán)神經(jīng)網(wǎng)絡(luò)。但由于循環(huán)神經(jīng)網(wǎng)絡(luò)本身不適合進行深層網(wǎng)絡(luò)的疊加,所以很難通過疊加多層網(wǎng)絡(luò)來提高機器翻譯模型的性能。而當(dāng)下正流行的Transformer模型在延用“編碼器-解碼器”框架的同時,完全摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò),采用多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)進行模型網(wǎng)絡(luò)的搭建,雖可以進行多層網(wǎng)絡(luò)疊加,但因其摒棄循環(huán)神經(jīng)網(wǎng)絡(luò),所以失去了輸入序列的位置信息特征,為解決此問題,該模型在對文本進行轉(zhuǎn)換表示的過程中加入了位置信息向量;趯σ陨蠁栴}的思考,本文作出如下工作和研究:(1)針對第一種經(jīng)典的...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
“編碼器-解碼器”框架圖
第二章相關(guān)理論基礎(chǔ)知識簡介11圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)展開結(jié)構(gòu)記當(dāng)前時間步為t,則當(dāng)前的輸入為,隱藏層為,輸出為。當(dāng)前輸入和上一時間步隱藏層1分別進行線性變換后相加,經(jīng)過激活函數(shù)的處理后,得到當(dāng)前時間步隱藏層,經(jīng)過線性變換后,再通過激活函數(shù)的處理,得到當(dāng)前輸出,同時將作為下一時間步的輸入進行下一步的計算。這里需要注意的是,權(quán)重矩陣、、在每一個時間步上都是完全相同的,0時點的隱藏層0一般為全零向量。具體的公式如下:=+1(2-3)=(2-4)其中、表示激活函數(shù)。反復(fù)代入后可得到:
第二章相關(guān)理論基礎(chǔ)知識簡介11圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)展開結(jié)構(gòu)記當(dāng)前時間步為t,則當(dāng)前的輸入為,隱藏層為,輸出為。當(dāng)前輸入和上一時間步隱藏層1分別進行線性變換后相加,經(jīng)過激活函數(shù)的處理后,得到當(dāng)前時間步隱藏層,經(jīng)過線性變換后,再通過激活函數(shù)的處理,得到當(dāng)前輸出,同時將作為下一時間步的輸入進行下一步的計算。這里需要注意的是,權(quán)重矩陣、、在每一個時間步上都是完全相同的,0時點的隱藏層0一般為全零向量。具體的公式如下:=+1(2-3)=(2-4)其中、表示激活函數(shù)。反復(fù)代入后可得到:
本文編號:3361008
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
“編碼器-解碼器”框架圖
第二章相關(guān)理論基礎(chǔ)知識簡介11圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)展開結(jié)構(gòu)記當(dāng)前時間步為t,則當(dāng)前的輸入為,隱藏層為,輸出為。當(dāng)前輸入和上一時間步隱藏層1分別進行線性變換后相加,經(jīng)過激活函數(shù)的處理后,得到當(dāng)前時間步隱藏層,經(jīng)過線性變換后,再通過激活函數(shù)的處理,得到當(dāng)前輸出,同時將作為下一時間步的輸入進行下一步的計算。這里需要注意的是,權(quán)重矩陣、、在每一個時間步上都是完全相同的,0時點的隱藏層0一般為全零向量。具體的公式如下:=+1(2-3)=(2-4)其中、表示激活函數(shù)。反復(fù)代入后可得到:
第二章相關(guān)理論基礎(chǔ)知識簡介11圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖2-3循環(huán)神經(jīng)網(wǎng)絡(luò)展開結(jié)構(gòu)記當(dāng)前時間步為t,則當(dāng)前的輸入為,隱藏層為,輸出為。當(dāng)前輸入和上一時間步隱藏層1分別進行線性變換后相加,經(jīng)過激活函數(shù)的處理后,得到當(dāng)前時間步隱藏層,經(jīng)過線性變換后,再通過激活函數(shù)的處理,得到當(dāng)前輸出,同時將作為下一時間步的輸入進行下一步的計算。這里需要注意的是,權(quán)重矩陣、、在每一個時間步上都是完全相同的,0時點的隱藏層0一般為全零向量。具體的公式如下:=+1(2-3)=(2-4)其中、表示激活函數(shù)。反復(fù)代入后可得到:
本文編號:3361008
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3361008.html
最近更新
教材專著