多種數(shù)據(jù)泛化策略融合的神經機器翻譯系統(tǒng)

發(fā)布時間：2024-02-25 00:39

　　在Transformer模型的基礎上,該文從數(shù)據(jù)泛化、多樣化解碼策略和后處理方法3個方面進行改進.多種數(shù)據(jù)泛化策略融合方法對不同種類的稀疏詞語進行識別、泛化和翻譯,減少錯譯現(xiàn)象.利用檢查點平均和模型集成等多樣化解碼策略進一步提升翻譯效果.在CCMT 2019中英新聞領域翻譯任務上的實驗結果顯示,改進后的方法在基線系統(tǒng)上的BLEU-SBP值提升了約1.85%.

【文章頁數(shù)】：7 頁

【文章目錄】：
0 引言
1 Transformer模型
    1.1 基本模型結構
    1.2 注意力機制
        1.2.1 縮放點積注意力
        1.2.2 多頭注意力
    1.3 位置編碼
2 語料處理
    2.1 語料預處理
    2.2 分詞與BPE子詞處理
    2.3 語料泛化處理
        2.3.1 人名處理
        2.3.2 時間表達式
        2.3.3 數(shù)字表達
        2.3.4 網(wǎng)址及特殊表達
3 解碼策略
    3.1 檢查點平均
    3.2 模型集成
4 后處理
    4.1 泛化部分翻譯和恢復
    4.2 大小寫轉換方法
5 實驗結果
    5.1 實驗參數(shù)
    5.2 實驗結果及分析
        5.2.1 基本實驗結果分析
        5.2.2 beam size和長度懲罰分析
6 總結

本文編號：3909800

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/hanyulw/3909800.html

上一篇：孫詒讓古文字研究的貢獻與局限
下一篇：漢語拼音俄文解讀法設計和應用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多種數(shù)據(jù)泛化策略融合的神經機器翻譯系統(tǒng)