稀疏資源條件下的藏漢機器翻譯研究
發(fā)布時間:2021-11-20 11:16
機器翻譯是指運用特定的計算機程序?qū)⒁环N自然語言轉(zhuǎn)換為另一種自然語言的過程。自上世紀(jì)50年代提出機器翻譯的思想以來,機器翻譯領(lǐng)域的研究經(jīng)歷了從規(guī)則到統(tǒng)計再到深度學(xué)習(xí)的理論和技術(shù)的多次迭代,是整個人工智能領(lǐng)域中最為活躍的研究方向,取得了巨大的進展,并且在未來有廣闊的發(fā)展前景。藏漢機器翻譯研究作為藏語自然語言處理領(lǐng)域中主要的課題之一,一直是我國少數(shù)民族語言信息化研究的重要工作。本文著眼于藏漢機器翻譯研究中的數(shù)據(jù)稀疏問題,在Transformer神經(jīng)網(wǎng)絡(luò)翻譯模型基礎(chǔ)上,運用百萬句子單語數(shù)據(jù)大規(guī)模迭代式回譯策略和譯文自動篩選機制,使最終的模型比基準(zhǔn)模型有4個BLEU值的提升,證實了回譯方法的有效性。除此之外,論文還實現(xiàn)了基于短語的統(tǒng)計翻譯模型和三類基于主流神經(jīng)網(wǎng)絡(luò)構(gòu)架的藏漢機器翻譯基準(zhǔn)模型,并對面向神經(jīng)網(wǎng)絡(luò)藏漢機器翻譯的分詞方法進行了研究分析。本篇論文的主要內(nèi)容包括:·研究和分析了面向神經(jīng)網(wǎng)絡(luò)的藏漢機器翻譯的分詞方法,以實驗方式證實了基于字節(jié)對編碼的子詞分詞模型有最好的表現(xiàn);·實現(xiàn)了用于辨別藏漢句對翻譯等效性的端對端分類器;·結(jié)合翻譯等效性的分類器和大規(guī)模對偶迭代式的回譯策略,實現(xiàn)了藏漢翻譯在稀...
【文章來源】:青海師范大學(xué)青海省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
016-2024年機器翻譯的市場規(guī)模估值
圖 2.6 Ngram-viewer 中 “中國”、“經(jīng)濟” 和 “發(fā)展” 三個詞的頻度走勢上所有的統(tǒng)計機器翻譯方法都有詞對齊的概念[90],是跨語言的簡單映射[85], 旨在將源語言的句子 中第 位置的詞 對應(yīng)到中第 詞 ,即設(shè)法獲得一個函數(shù) : → ,如圖 2.7 。但是實例的翻譯方法,這一映射的獲取并不需要利用任何先驗的語計算機算法在一定規(guī)模的雙語平行文本數(shù)據(jù)中以概率推演方式基本思想即是在雙語對齊文本中經(jīng)常成對出現(xiàn)的兩個詞或者其常出現(xiàn)的更有可能是語義上對等的。Och 于 2001 發(fā)布的 GIZ,實現(xiàn)了 IMB 統(tǒng)計模型系列[5,85]中的所有詞對齊算法,成為絕統(tǒng)實現(xiàn)的軟件基礎(chǔ)[92]。! +
,其注意力權(quán)重 的是通過公式 (2-13) 計算 =exp( )∑ =1( )用于估計輸入端的 位置周圍的信息與輸出端的絡(luò)的原始論文[9]中使用了一個簡單的前饋網(wǎng)絡(luò)對輸入為 1 時刻的解碼器端的隱藏狀態(tài)表示 , 即: = ( 1, ) 饋網(wǎng)絡(luò)所擬合的函數(shù)?梢酝ㄟ^注意力矩陣[9]或者詞向量的二維投射[
【參考文獻】:
期刊論文
[1]神經(jīng)網(wǎng)絡(luò)藏文分詞方法研究[J]. 桑杰端珠,才讓加. 青?萍. 2018(06)
[2]《中國人工智能發(fā)展報告2018》英文版發(fā)布[J]. 中國科技獎勵. 2018(10)
[3]藏漢神經(jīng)網(wǎng)絡(luò)機器翻譯研究[J]. 李亞超,熊德意,張民,江靜,馬寧,殷建民. 中文信息學(xué)報. 2017(06)
[4]基于藏語語義分析的機器翻譯技術(shù)研究[J]. 何向真,萬福成,于洪志,吳璽宏. 計算機工程與應(yīng)用. 2015(15)
[5]藏文數(shù)詞識別與翻譯[J]. 孫萌,華卻才讓,劉凱,呂雅娟,劉群. 北京大學(xué)學(xué)報(自然科學(xué)版). 2013(01)
[6]機器翻譯的歷史和現(xiàn)狀[J]. 馮志偉. 國外自動化. 1984(04)
博士論文
[1]基于樹到串藏語機器翻譯若干關(guān)鍵技術(shù)研究[D]. 華卻才讓.陜西師范大學(xué) 2014
碩士論文
[1]藏漢雙語平行語料庫構(gòu)建方法及關(guān)鍵技術(shù)研究[D]. 巴桑卓瑪.西藏大學(xué) 2018
[2]面向機器翻譯的藏語功能組塊識別研究[D]. 王天航.北京理工大學(xué) 2016
[3]面向藏英機器翻譯的藏英句法結(jié)構(gòu)對比研究[D]. 吉毛才讓.青海師范大學(xué) 2014
本文編號:3507209
【文章來源】:青海師范大學(xué)青海省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
016-2024年機器翻譯的市場規(guī)模估值
圖 2.6 Ngram-viewer 中 “中國”、“經(jīng)濟” 和 “發(fā)展” 三個詞的頻度走勢上所有的統(tǒng)計機器翻譯方法都有詞對齊的概念[90],是跨語言的簡單映射[85], 旨在將源語言的句子 中第 位置的詞 對應(yīng)到中第 詞 ,即設(shè)法獲得一個函數(shù) : → ,如圖 2.7 。但是實例的翻譯方法,這一映射的獲取并不需要利用任何先驗的語計算機算法在一定規(guī)模的雙語平行文本數(shù)據(jù)中以概率推演方式基本思想即是在雙語對齊文本中經(jīng)常成對出現(xiàn)的兩個詞或者其常出現(xiàn)的更有可能是語義上對等的。Och 于 2001 發(fā)布的 GIZ,實現(xiàn)了 IMB 統(tǒng)計模型系列[5,85]中的所有詞對齊算法,成為絕統(tǒng)實現(xiàn)的軟件基礎(chǔ)[92]。! +
,其注意力權(quán)重 的是通過公式 (2-13) 計算 =exp( )∑ =1( )用于估計輸入端的 位置周圍的信息與輸出端的絡(luò)的原始論文[9]中使用了一個簡單的前饋網(wǎng)絡(luò)對輸入為 1 時刻的解碼器端的隱藏狀態(tài)表示 , 即: = ( 1, ) 饋網(wǎng)絡(luò)所擬合的函數(shù)?梢酝ㄟ^注意力矩陣[9]或者詞向量的二維投射[
【參考文獻】:
期刊論文
[1]神經(jīng)網(wǎng)絡(luò)藏文分詞方法研究[J]. 桑杰端珠,才讓加. 青?萍. 2018(06)
[2]《中國人工智能發(fā)展報告2018》英文版發(fā)布[J]. 中國科技獎勵. 2018(10)
[3]藏漢神經(jīng)網(wǎng)絡(luò)機器翻譯研究[J]. 李亞超,熊德意,張民,江靜,馬寧,殷建民. 中文信息學(xué)報. 2017(06)
[4]基于藏語語義分析的機器翻譯技術(shù)研究[J]. 何向真,萬福成,于洪志,吳璽宏. 計算機工程與應(yīng)用. 2015(15)
[5]藏文數(shù)詞識別與翻譯[J]. 孫萌,華卻才讓,劉凱,呂雅娟,劉群. 北京大學(xué)學(xué)報(自然科學(xué)版). 2013(01)
[6]機器翻譯的歷史和現(xiàn)狀[J]. 馮志偉. 國外自動化. 1984(04)
博士論文
[1]基于樹到串藏語機器翻譯若干關(guān)鍵技術(shù)研究[D]. 華卻才讓.陜西師范大學(xué) 2014
碩士論文
[1]藏漢雙語平行語料庫構(gòu)建方法及關(guān)鍵技術(shù)研究[D]. 巴桑卓瑪.西藏大學(xué) 2018
[2]面向機器翻譯的藏語功能組塊識別研究[D]. 王天航.北京理工大學(xué) 2016
[3]面向藏英機器翻譯的藏英句法結(jié)構(gòu)對比研究[D]. 吉毛才讓.青海師范大學(xué) 2014
本文編號:3507209
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3507209.html
最近更新
教材專著