天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的印尼語(yǔ)機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)

發(fā)布時(shí)間:2023-03-22 20:12
  近年來(lái),隨著印度尼西亞與外界交流的日益頻繁,印尼語(yǔ)成為了相互交流的主要障礙,而機(jī)器翻譯便是解決這一障礙的有效手段之一。對(duì)于機(jī)器翻譯任務(wù),也和眾多領(lǐng)域一樣青睞于深度學(xué)習(xí),尤其在序列到序列的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)打破了傳統(tǒng)機(jī)器翻譯的局面后,一體化的結(jié)構(gòu)和不錯(cuò)的翻譯結(jié)果受到了研究者的矚目。本文以深度學(xué)習(xí)為研究設(shè)計(jì)背景,結(jié)合近年相關(guān)的前沿研究成果,針對(duì)印尼語(yǔ)的語(yǔ)言特性以及完成印尼語(yǔ)機(jī)器翻譯系統(tǒng)所面臨的問(wèn)題,主要在以下方面展開(kāi)工作:(1)根據(jù)印尼語(yǔ)和英語(yǔ)高度相似性的特點(diǎn),參考了英語(yǔ)翻譯的神經(jīng)網(wǎng)絡(luò)架構(gòu)后,確定印尼語(yǔ)翻譯采用編碼-解碼的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并進(jìn)行基本結(jié)構(gòu)以及隱層單元計(jì)算的相應(yīng)改進(jìn)。(2)數(shù)據(jù)挖掘存在單雙語(yǔ)料規(guī)模小質(zhì)量差的問(wèn)題,采取兩種不同的挖掘策略并在工程上實(shí)現(xiàn):本地定向抓取和集群上分布式抓取。(3)對(duì)數(shù)據(jù)進(jìn)行多種方式清洗以及預(yù)處理,保證數(shù)據(jù)質(zhì)量的情況下使其規(guī)模達(dá)到最大化。(4)在模型訓(xùn)練之前先對(duì)印尼語(yǔ)進(jìn)行字符級(jí)訓(xùn)練,生成語(yǔ)言檢測(cè)模型。另外分析并解決訓(xùn)練中出現(xiàn)未登錄詞的問(wèn)題。(5)優(yōu)化訓(xùn)練模型并實(shí)現(xiàn)一體化的印尼語(yǔ)機(jī)器翻譯系統(tǒng)。最后,對(duì)印尼語(yǔ)與漢語(yǔ)互譯、印尼語(yǔ)與英語(yǔ)互譯的翻譯模型測(cè)試,最優(yōu)的模型融...

【文章頁(yè)數(shù)】:72 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 印尼語(yǔ)機(jī)器翻譯研究背景
    1.2 機(jī)器翻譯發(fā)展歷程
    1.3 機(jī)器翻譯國(guó)內(nèi)外現(xiàn)狀
        1.3.1 系統(tǒng)應(yīng)用
        1.3.2 技術(shù)評(píng)測(cè)
        1.3.3 性能現(xiàn)狀
    1.4 論文解決的主要問(wèn)題
    1.5 論文的組織結(jié)構(gòu)
第2章 印尼語(yǔ)翻譯系統(tǒng)的設(shè)計(jì)
    2.1 印尼語(yǔ)機(jī)器翻譯的需求
    2.2 印尼語(yǔ)語(yǔ)言特性
        2.2.1 印尼語(yǔ)與英語(yǔ)
        2.2.2 印尼語(yǔ)與漢語(yǔ)
    2.3 印尼語(yǔ)機(jī)器翻譯的總體架構(gòu)
        2.3.1 翻譯系統(tǒng)設(shè)計(jì)目標(biāo)
        2.3.2 系統(tǒng)總體架構(gòu)
    2.4 印尼語(yǔ)翻譯的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
        2.4.1 印尼語(yǔ)翻譯基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
        2.4.2 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)
        2.4.3 解碼器隱層單元的改進(jìn)
    2.5 印尼語(yǔ)翻譯的結(jié)構(gòu)設(shè)計(jì)
    2.6 本章小結(jié)
第3章 印尼語(yǔ)機(jī)器翻譯的數(shù)據(jù)準(zhǔn)備
    3.1 數(shù)據(jù)采集需求
    3.2 數(shù)據(jù)收集
        3.2.1 中英印尼單雙語(yǔ)料下載
        3.2.2 中英印尼單雙語(yǔ)料抓取
    3.3 不同網(wǎng)站的爬取方式
        3.3.1 本地爬取工程實(shí)現(xiàn)
        3.3.2 集群抓取工程實(shí)現(xiàn)
    3.4 單雙語(yǔ)料清洗
        3.4.1 數(shù)據(jù)去重
        3.4.2 長(zhǎng)度清洗
        3.4.3 詞表清洗
    3.5 本章小結(jié)
第4章 數(shù)據(jù)預(yù)處理
    4.1 印尼語(yǔ)語(yǔ)言檢測(cè)
    4.2 語(yǔ)料基本格式處理
    4.3 未登錄詞問(wèn)題
        4.3.1 未登錄詞的出現(xiàn)
        4.3.2 未登錄詞問(wèn)題的解決
    4.4 本章小結(jié)
第5章 印尼語(yǔ)機(jī)器翻譯系統(tǒng)的優(yōu)化及測(cè)試
    5.1 詞向量模型預(yù)訓(xùn)練
    5.2 中印及英印互譯模型的訓(xùn)練
        5.2.1 超參數(shù)配置
        5.2.2 印尼語(yǔ)翻譯模型訓(xùn)練流程
    5.3 印尼語(yǔ)翻譯模型的工程優(yōu)化
        5.3.1 BLEU自動(dòng)測(cè)試
        5.3.2 動(dòng)態(tài)重排序
        5.3.3 模型存儲(chǔ)優(yōu)化
    5.4 印尼語(yǔ)翻譯模型測(cè)試
        5.4.1 中英及印的互譯模型測(cè)試
        5.4.2 競(jìng)品翻譯評(píng)測(cè)
    5.5 印尼語(yǔ)翻譯系統(tǒng)使用示例
    5.6 本章小結(jié)
第6章 總結(jié)與展望
    6.1 工作總結(jié)
    6.2 工作展望
參考文獻(xiàn)
致謝
學(xué)位論文評(píng)閱及答辯情況表



本文編號(hào):3767510

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3767510.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6e8fb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com