基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯的研究
發(fā)布時(shí)間:2020-12-27 18:05
信息技術(shù)的發(fā)展和語(yǔ)言交流日趨頻繁,機(jī)器翻譯已逐漸成為不同語(yǔ)言間傳播信息的主要途徑,而機(jī)器翻譯方法的好壞也影響著翻譯質(zhì)量的優(yōu)劣。在蒙漢機(jī)器翻譯中,由于詞語(yǔ)識(shí)別困難、語(yǔ)序差異較大和構(gòu)詞結(jié)構(gòu)復(fù)雜等問(wèn)題導(dǎo)致傳統(tǒng)的機(jī)器翻譯方法語(yǔ)義表述不夠理想,譯文質(zhì)量受到制約。相較傳統(tǒng)翻譯方法,以長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)為基礎(chǔ)的神經(jīng)機(jī)器翻譯模型以其特有的編碼-解碼結(jié)構(gòu)和語(yǔ)義挖掘特性逐漸在機(jī)器翻譯中嶄露頭角。然而目前結(jié)合LSTM的蒙漢神經(jīng)機(jī)器翻譯研究較少,因此論文主要對(duì)蒙漢雙語(yǔ)語(yǔ)料預(yù)處理及蒙古語(yǔ)詞素編碼的LSTM模型構(gòu)建和優(yōu)化進(jìn)行研究。在語(yǔ)料預(yù)處理階段,針對(duì)傳統(tǒng)蒙漢機(jī)器翻譯詞語(yǔ)匹配不高的問(wèn)題,本文給出一種GRU-CRF混合算法來(lái)進(jìn)行分詞模塊構(gòu)建。通過(guò)門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)相結(jié)合的方式來(lái)對(duì)待標(biāo)注序列進(jìn)行語(yǔ)義分析和標(biāo)注,達(dá)到符合語(yǔ)義關(guān)系的分詞效果,克服了HMM和CRF分詞模型上下文考慮不充分的問(wèn)題。同時(shí)為了獲取語(yǔ)義的關(guān)聯(lián)性,利用分布式表示方式對(duì)切分的...
【文章來(lái)源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-5分詞語(yǔ)料
其中 K 表示詞典規(guī)模,以單詞在詞典中出現(xiàn)的位置處賦值均賦值 0 的方式來(lái)表示單詞對(duì)應(yīng)的詞向量,也叫 one-hot 形式。但是式的單詞進(jìn)行關(guān)聯(lián)度計(jì)算時(shí)其正交計(jì)算為 0,直接導(dǎo)致單詞無(wú)法與其聯(lián),無(wú)法獲取語(yǔ)料中的語(yǔ)義關(guān)系,從而導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題。并且,one-hot詞向量進(jìn)行關(guān)聯(lián)性計(jì)算時(shí)還會(huì)帶來(lái)大量的無(wú)效計(jì)算,即0 0的用高維詞向量進(jìn)行正交計(jì)算給計(jì)算機(jī)帶來(lái)的計(jì)算壓力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用點(diǎn)陣形式進(jìn)行存儲(chǔ),將矩陣的維度進(jìn)行壓縮并固定,使存儲(chǔ)詞向量小于詞典維度,再融合詞之間的連接權(quán)重可以有效的對(duì)詞與詞之間的關(guān)系進(jìn)行表達(dá),在神經(jīng)機(jī)器翻譯系統(tǒng)中的作用是非常重要的,在向量空的語(yǔ)義距離通常用余弦距離或歐式距離進(jìn)行衡量,且不同或同種語(yǔ)言的語(yǔ)義距離相比較不相似詞的距離近。這是分布式表示方式的一個(gè)優(yōu)機(jī)器翻譯問(wèn)題中,這種空間上近距離的相似詞能夠有效地處理未登錄,圖 3-6 表示的是詞向量的余弦空間表示圖。
第四章 基于詞素編碼的 LSTM 蒙漢翻譯研究名詞形式 ,漢語(yǔ)意為 干活 。體現(xiàn)了蒙古語(yǔ)詞的單一詞干位置提前的特點(diǎn)本文采用蒙古語(yǔ)的詞素向量形式作為編碼器的輸入,擴(kuò)大語(yǔ)義范圍,當(dāng)出現(xiàn)未登錄詞時(shí),根據(jù)相似詞向量空間距離近的特點(diǎn)有效進(jìn)行同義詞替換。詞素切分以詞典為基礎(chǔ),在進(jìn)行切分時(shí)首先需要利用詞頻統(tǒng)計(jì)工具OpenNMT.dict 生成蒙古語(yǔ)語(yǔ)料的詞典,具體如圖 4-1 所示。
本文編號(hào):2942223
【文章來(lái)源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-5分詞語(yǔ)料
其中 K 表示詞典規(guī)模,以單詞在詞典中出現(xiàn)的位置處賦值均賦值 0 的方式來(lái)表示單詞對(duì)應(yīng)的詞向量,也叫 one-hot 形式。但是式的單詞進(jìn)行關(guān)聯(lián)度計(jì)算時(shí)其正交計(jì)算為 0,直接導(dǎo)致單詞無(wú)法與其聯(lián),無(wú)法獲取語(yǔ)料中的語(yǔ)義關(guān)系,從而導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題。并且,one-hot詞向量進(jìn)行關(guān)聯(lián)性計(jì)算時(shí)還會(huì)帶來(lái)大量的無(wú)效計(jì)算,即0 0的用高維詞向量進(jìn)行正交計(jì)算給計(jì)算機(jī)帶來(lái)的計(jì)算壓力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用點(diǎn)陣形式進(jìn)行存儲(chǔ),將矩陣的維度進(jìn)行壓縮并固定,使存儲(chǔ)詞向量小于詞典維度,再融合詞之間的連接權(quán)重可以有效的對(duì)詞與詞之間的關(guān)系進(jìn)行表達(dá),在神經(jīng)機(jī)器翻譯系統(tǒng)中的作用是非常重要的,在向量空的語(yǔ)義距離通常用余弦距離或歐式距離進(jìn)行衡量,且不同或同種語(yǔ)言的語(yǔ)義距離相比較不相似詞的距離近。這是分布式表示方式的一個(gè)優(yōu)機(jī)器翻譯問(wèn)題中,這種空間上近距離的相似詞能夠有效地處理未登錄,圖 3-6 表示的是詞向量的余弦空間表示圖。
第四章 基于詞素編碼的 LSTM 蒙漢翻譯研究名詞形式 ,漢語(yǔ)意為 干活 。體現(xiàn)了蒙古語(yǔ)詞的單一詞干位置提前的特點(diǎn)本文采用蒙古語(yǔ)的詞素向量形式作為編碼器的輸入,擴(kuò)大語(yǔ)義范圍,當(dāng)出現(xiàn)未登錄詞時(shí),根據(jù)相似詞向量空間距離近的特點(diǎn)有效進(jìn)行同義詞替換。詞素切分以詞典為基礎(chǔ),在進(jìn)行切分時(shí)首先需要利用詞頻統(tǒng)計(jì)工具OpenNMT.dict 生成蒙古語(yǔ)語(yǔ)料的詞典,具體如圖 4-1 所示。
本文編號(hào):2942223
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2942223.html
最近更新
教材專著