基于深度學習的印尼語機器翻譯系統(tǒng)的實現(xiàn)
發(fā)布時間:2023-03-22 20:12
近年來,隨著印度尼西亞與外界交流的日益頻繁,印尼語成為了相互交流的主要障礙,而機器翻譯便是解決這一障礙的有效手段之一。對于機器翻譯任務(wù),也和眾多領(lǐng)域一樣青睞于深度學習,尤其在序列到序列的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)打破了傳統(tǒng)機器翻譯的局面后,一體化的結(jié)構(gòu)和不錯的翻譯結(jié)果受到了研究者的矚目。本文以深度學習為研究設(shè)計背景,結(jié)合近年相關(guān)的前沿研究成果,針對印尼語的語言特性以及完成印尼語機器翻譯系統(tǒng)所面臨的問題,主要在以下方面展開工作:(1)根據(jù)印尼語和英語高度相似性的特點,參考了英語翻譯的神經(jīng)網(wǎng)絡(luò)架構(gòu)后,確定印尼語翻譯采用編碼-解碼的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并進行基本結(jié)構(gòu)以及隱層單元計算的相應(yīng)改進。(2)數(shù)據(jù)挖掘存在單雙語料規(guī)模小質(zhì)量差的問題,采取兩種不同的挖掘策略并在工程上實現(xiàn):本地定向抓取和集群上分布式抓取。(3)對數(shù)據(jù)進行多種方式清洗以及預(yù)處理,保證數(shù)據(jù)質(zhì)量的情況下使其規(guī)模達到最大化。(4)在模型訓(xùn)練之前先對印尼語進行字符級訓(xùn)練,生成語言檢測模型。另外分析并解決訓(xùn)練中出現(xiàn)未登錄詞的問題。(5)優(yōu)化訓(xùn)練模型并實現(xiàn)一體化的印尼語機器翻譯系統(tǒng)。最后,對印尼語與漢語互譯、印尼語與英語互譯的翻譯模型測試,最優(yōu)的模型融...
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 印尼語機器翻譯研究背景
1.2 機器翻譯發(fā)展歷程
1.3 機器翻譯國內(nèi)外現(xiàn)狀
1.3.1 系統(tǒng)應(yīng)用
1.3.2 技術(shù)評測
1.3.3 性能現(xiàn)狀
1.4 論文解決的主要問題
1.5 論文的組織結(jié)構(gòu)
第2章 印尼語翻譯系統(tǒng)的設(shè)計
2.1 印尼語機器翻譯的需求
2.2 印尼語語言特性
2.2.1 印尼語與英語
2.2.2 印尼語與漢語
2.3 印尼語機器翻譯的總體架構(gòu)
2.3.1 翻譯系統(tǒng)設(shè)計目標
2.3.2 系統(tǒng)總體架構(gòu)
2.4 印尼語翻譯的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.4.1 印尼語翻譯基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
2.4.2 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的改進
2.4.3 解碼器隱層單元的改進
2.5 印尼語翻譯的結(jié)構(gòu)設(shè)計
2.6 本章小結(jié)
第3章 印尼語機器翻譯的數(shù)據(jù)準備
3.1 數(shù)據(jù)采集需求
3.2 數(shù)據(jù)收集
3.2.1 中英印尼單雙語料下載
3.2.2 中英印尼單雙語料抓取
3.3 不同網(wǎng)站的爬取方式
3.3.1 本地爬取工程實現(xiàn)
3.3.2 集群抓取工程實現(xiàn)
3.4 單雙語料清洗
3.4.1 數(shù)據(jù)去重
3.4.2 長度清洗
3.4.3 詞表清洗
3.5 本章小結(jié)
第4章 數(shù)據(jù)預(yù)處理
4.1 印尼語語言檢測
4.2 語料基本格式處理
4.3 未登錄詞問題
4.3.1 未登錄詞的出現(xiàn)
4.3.2 未登錄詞問題的解決
4.4 本章小結(jié)
第5章 印尼語機器翻譯系統(tǒng)的優(yōu)化及測試
5.1 詞向量模型預(yù)訓(xùn)練
5.2 中印及英印互譯模型的訓(xùn)練
5.2.1 超參數(shù)配置
5.2.2 印尼語翻譯模型訓(xùn)練流程
5.3 印尼語翻譯模型的工程優(yōu)化
5.3.1 BLEU自動測試
5.3.2 動態(tài)重排序
5.3.3 模型存儲優(yōu)化
5.4 印尼語翻譯模型測試
5.4.1 中英及印的互譯模型測試
5.4.2 競品翻譯評測
5.5 印尼語翻譯系統(tǒng)使用示例
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻
致謝
學位論文評閱及答辯情況表
本文編號:3767510
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 印尼語機器翻譯研究背景
1.2 機器翻譯發(fā)展歷程
1.3 機器翻譯國內(nèi)外現(xiàn)狀
1.3.1 系統(tǒng)應(yīng)用
1.3.2 技術(shù)評測
1.3.3 性能現(xiàn)狀
1.4 論文解決的主要問題
1.5 論文的組織結(jié)構(gòu)
第2章 印尼語翻譯系統(tǒng)的設(shè)計
2.1 印尼語機器翻譯的需求
2.2 印尼語語言特性
2.2.1 印尼語與英語
2.2.2 印尼語與漢語
2.3 印尼語機器翻譯的總體架構(gòu)
2.3.1 翻譯系統(tǒng)設(shè)計目標
2.3.2 系統(tǒng)總體架構(gòu)
2.4 印尼語翻譯的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.4.1 印尼語翻譯基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
2.4.2 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的改進
2.4.3 解碼器隱層單元的改進
2.5 印尼語翻譯的結(jié)構(gòu)設(shè)計
2.6 本章小結(jié)
第3章 印尼語機器翻譯的數(shù)據(jù)準備
3.1 數(shù)據(jù)采集需求
3.2 數(shù)據(jù)收集
3.2.1 中英印尼單雙語料下載
3.2.2 中英印尼單雙語料抓取
3.3 不同網(wǎng)站的爬取方式
3.3.1 本地爬取工程實現(xiàn)
3.3.2 集群抓取工程實現(xiàn)
3.4 單雙語料清洗
3.4.1 數(shù)據(jù)去重
3.4.2 長度清洗
3.4.3 詞表清洗
3.5 本章小結(jié)
第4章 數(shù)據(jù)預(yù)處理
4.1 印尼語語言檢測
4.2 語料基本格式處理
4.3 未登錄詞問題
4.3.1 未登錄詞的出現(xiàn)
4.3.2 未登錄詞問題的解決
4.4 本章小結(jié)
第5章 印尼語機器翻譯系統(tǒng)的優(yōu)化及測試
5.1 詞向量模型預(yù)訓(xùn)練
5.2 中印及英印互譯模型的訓(xùn)練
5.2.1 超參數(shù)配置
5.2.2 印尼語翻譯模型訓(xùn)練流程
5.3 印尼語翻譯模型的工程優(yōu)化
5.3.1 BLEU自動測試
5.3.2 動態(tài)重排序
5.3.3 模型存儲優(yōu)化
5.4 印尼語翻譯模型測試
5.4.1 中英及印的互譯模型測試
5.4.2 競品翻譯評測
5.5 印尼語翻譯系統(tǒng)使用示例
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻
致謝
學位論文評閱及答辯情況表
本文編號:3767510
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3767510.html
最近更新
教材專著