機(jī)器翻譯的譯后優(yōu)化關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-01-22 17:16
近年來隨著機(jī)器翻譯技術(shù)的發(fā)展,機(jī)器翻譯系統(tǒng)已逐漸被應(yīng)用于各種領(lǐng)域,以幫助人們完成一系列跨語言任務(wù)。然而在大多數(shù)情況下,機(jī)器翻譯系統(tǒng)產(chǎn)生的機(jī)器譯文仍然不能與人工翻譯的標(biāo)準(zhǔn)譯文相媲美。尤其是當(dāng)面臨一些譯文質(zhì)量要求較高的翻譯任務(wù)時(shí),在機(jī)器翻譯系統(tǒng)進(jìn)行自動(dòng)翻譯的基礎(chǔ)上,人們?nèi)孕枰獙C(jī)器譯文進(jìn)行校對、修改、潤色,來保證譯文質(zhì)量。相對于人工譯文優(yōu)化,機(jī)器翻譯的自動(dòng)譯后優(yōu)化是針對一個(gè)或多個(gè)翻譯系統(tǒng)產(chǎn)生的譯文做進(jìn)一步改進(jìn),提升其翻譯質(zhì)量,減少人工編輯的代價(jià)。但在自動(dòng)譯后優(yōu)化過程中,可以用于譯后優(yōu)化的用戶數(shù)據(jù)規(guī)模通常較小,甚至不存在。面對這樣的小數(shù)據(jù)或零數(shù)據(jù)的困難情況,如何有效地提高譯文的質(zhì)量是一個(gè)機(jī)器翻譯領(lǐng)域中亟待解決的重要問題。本文的研究主要圍繞如何充分利用小數(shù)據(jù)或者構(gòu)造偽數(shù)據(jù),對已有的通用大規(guī)模數(shù)據(jù)(機(jī)器翻譯訓(xùn)練數(shù)據(jù))進(jìn)行遷移利用,探索如何合理利用有限的人工翻譯歷史或者不同的機(jī)器翻譯結(jié)果,進(jìn)一步提升機(jī)器翻譯結(jié)果的質(zhì)量、并提供相應(yīng)的翻譯質(zhì)量估計(jì)手段,以達(dá)到提高譯文質(zhì)量,降低人工編輯成本的目標(biāo)。本文的研究主要包含四個(gè)方面:(1)研究基于小規(guī)模翻譯實(shí)例的譯文一致性優(yōu)化。在僅有少量人工翻譯歷史數(shù)據(jù)場景下,...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:128 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景和意義
1.2 機(jī)器翻譯譯后優(yōu)化的相關(guān)工作
1.2.1 基于實(shí)例的機(jī)器翻譯模型改進(jìn)
1.2.2 機(jī)器翻譯的自動(dòng)后編輯模型
1.2.3 多機(jī)器翻譯系統(tǒng)譯文融合
1.2.4 機(jī)器翻譯的質(zhì)量估計(jì)
1.3 本文的研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
第2章 基于小規(guī)模翻譯實(shí)例的譯文一致性優(yōu)化
2.1 引言
2.2 基于小規(guī)模翻譯實(shí)例的譯文一致性優(yōu)化模型
2.2.1 問題的形式化描述
2.2.2 譯文一致性優(yōu)化模型的框架
2.3 相似翻譯實(shí)例的檢索
2.4 基于混淆網(wǎng)絡(luò)的融合模型
2.4.1 基于增量對齊的混淆網(wǎng)絡(luò)構(gòu)建
2.4.2 基于小規(guī)模翻譯實(shí)例的詞概率估計(jì)
2.5 基于對數(shù)線性模型的多特征解碼
2.6 實(shí)驗(yàn)
2.6.1 實(shí)驗(yàn)設(shè)置
2.6.2 實(shí)驗(yàn)結(jié)果
2.6.3 不同檢索相似度對譯文質(zhì)量的影響
2.6.4 翻譯實(shí)例相似度值大小對譯文質(zhì)量的影響
2.6.5 翻譯實(shí)例數(shù)量對譯文質(zhì)量的影響
2.6.6 特征的貢獻(xiàn)分析
2.6.7 一致性優(yōu)化示例及分析
2.7 本章小結(jié)
第3章 基于偽反饋的后編輯優(yōu)化
3.1 引言
3.2 源語言相關(guān)的統(tǒng)計(jì)后編輯模型
3.3 基于偽反饋的后編輯優(yōu)化模型
3.3.1 基于偽反饋的后編輯優(yōu)化模型框架
3.3.2 基于相似實(shí)例的譯文偽反饋
3.3.3 基于偽反饋的后編輯短語的分類
3.3.4 基于偽反饋的后編輯短語的置信度估計(jì)
3.3.5 模型的訓(xùn)練
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 后編輯模型實(shí)驗(yàn)結(jié)果
3.4.3 后編輯短語不同分類方法對模型的影響
3.4.4 參數(shù)微調(diào)前后的性能對比
3.4.5 后編輯短語的置信度特征的貢獻(xiàn)
3.4.6 后編輯優(yōu)化示例及分析
3.5 本章小結(jié)
第4章 基于深度學(xué)習(xí)的多翻譯系統(tǒng)譯文融合
4.1 引言
4.2 多系統(tǒng)譯文優(yōu)化的深度融合模型
4.2.1 問題的形式化描述
4.2.2 基于深度學(xué)習(xí)的多系統(tǒng)譯文融合框架
4.3 源語言句子及機(jī)器譯文的編碼
4.3.1 基于雙向RNN的源語言編碼
4.3.2 源語言依賴的機(jī)器譯文編碼
4.4 多系統(tǒng)譯文的深度融合解碼
4.4.1 基于多注意力的解碼
4.4.2 解碼的搜索空間
4.5 深度融合模型的訓(xùn)練
4.5.1 編碼器的參數(shù)學(xué)習(xí)
4.5.2 解碼器的參數(shù)學(xué)習(xí)
4.6 實(shí)驗(yàn)
4.6.1 實(shí)驗(yàn)設(shè)置
4.6.2 實(shí)驗(yàn)參數(shù)設(shè)置
4.6.3 實(shí)驗(yàn)結(jié)果
4.6.4 多譯文融合的示例及分析
4.7 本章小結(jié)
第5章 基于偽數(shù)據(jù)學(xué)習(xí)的譯文質(zhì)量估計(jì)
5.1 引言
5.2 基于神經(jīng)網(wǎng)絡(luò)的譯文質(zhì)量估計(jì)模型框架
5.2.1 基于LSTM的句子表示
5.2.2 基于句子表示的譯文質(zhì)量估計(jì)模型
5.3 基于隨機(jī)生成偽數(shù)據(jù)的模型訓(xùn)練方法
5.3.1 模型在隨機(jī)生成偽數(shù)據(jù)上的預(yù)訓(xùn)練
5.3.2 標(biāo)準(zhǔn)數(shù)據(jù)上的參數(shù)微調(diào)
5.4 針對特定任務(wù)生成偽數(shù)據(jù)的模型訓(xùn)練方法
5.5 實(shí)驗(yàn)
5.5.1 實(shí)驗(yàn)設(shè)置
5.5.2 評價(jià)標(biāo)準(zhǔn)
5.5.3 基線系統(tǒng)
5.5.4 基于隨機(jī)生成偽數(shù)據(jù)的訓(xùn)練方法性能
5.5.5 針對特定任務(wù)生成偽數(shù)據(jù)方法訓(xùn)練模型的性能
5.5.6 譯文質(zhì)量估計(jì)示例及分析
5.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡歷
【參考文獻(xiàn)】:
期刊論文
[1]基于翻譯質(zhì)量估計(jì)的神經(jīng)網(wǎng)絡(luò)譯文自動(dòng)后編輯[J]. 譚亦鳴,王明文,李茂西. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[2]基于神經(jīng)網(wǎng)絡(luò)特征的句子級別譯文質(zhì)量估計(jì)[J]. 陳志明,李茂西,王明文. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[3]神經(jīng)網(wǎng)絡(luò)語言模型在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[J]. 張家俊,宗成慶. 情報(bào)工程. 2017(03)
[4]神經(jīng)機(jī)器翻譯前沿進(jìn)展[J]. 劉洋. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[5]統(tǒng)計(jì)機(jī)器翻譯中大規(guī)模特征的深度融合[J]. 劉宇鵬,喬秀明,趙石磊,馬春光. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2017(01)
本文編號:2993612
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:128 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景和意義
1.2 機(jī)器翻譯譯后優(yōu)化的相關(guān)工作
1.2.1 基于實(shí)例的機(jī)器翻譯模型改進(jìn)
1.2.2 機(jī)器翻譯的自動(dòng)后編輯模型
1.2.3 多機(jī)器翻譯系統(tǒng)譯文融合
1.2.4 機(jī)器翻譯的質(zhì)量估計(jì)
1.3 本文的研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
第2章 基于小規(guī)模翻譯實(shí)例的譯文一致性優(yōu)化
2.1 引言
2.2 基于小規(guī)模翻譯實(shí)例的譯文一致性優(yōu)化模型
2.2.1 問題的形式化描述
2.2.2 譯文一致性優(yōu)化模型的框架
2.3 相似翻譯實(shí)例的檢索
2.4 基于混淆網(wǎng)絡(luò)的融合模型
2.4.1 基于增量對齊的混淆網(wǎng)絡(luò)構(gòu)建
2.4.2 基于小規(guī)模翻譯實(shí)例的詞概率估計(jì)
2.5 基于對數(shù)線性模型的多特征解碼
2.6 實(shí)驗(yàn)
2.6.1 實(shí)驗(yàn)設(shè)置
2.6.2 實(shí)驗(yàn)結(jié)果
2.6.3 不同檢索相似度對譯文質(zhì)量的影響
2.6.4 翻譯實(shí)例相似度值大小對譯文質(zhì)量的影響
2.6.5 翻譯實(shí)例數(shù)量對譯文質(zhì)量的影響
2.6.6 特征的貢獻(xiàn)分析
2.6.7 一致性優(yōu)化示例及分析
2.7 本章小結(jié)
第3章 基于偽反饋的后編輯優(yōu)化
3.1 引言
3.2 源語言相關(guān)的統(tǒng)計(jì)后編輯模型
3.3 基于偽反饋的后編輯優(yōu)化模型
3.3.1 基于偽反饋的后編輯優(yōu)化模型框架
3.3.2 基于相似實(shí)例的譯文偽反饋
3.3.3 基于偽反饋的后編輯短語的分類
3.3.4 基于偽反饋的后編輯短語的置信度估計(jì)
3.3.5 模型的訓(xùn)練
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 后編輯模型實(shí)驗(yàn)結(jié)果
3.4.3 后編輯短語不同分類方法對模型的影響
3.4.4 參數(shù)微調(diào)前后的性能對比
3.4.5 后編輯短語的置信度特征的貢獻(xiàn)
3.4.6 后編輯優(yōu)化示例及分析
3.5 本章小結(jié)
第4章 基于深度學(xué)習(xí)的多翻譯系統(tǒng)譯文融合
4.1 引言
4.2 多系統(tǒng)譯文優(yōu)化的深度融合模型
4.2.1 問題的形式化描述
4.2.2 基于深度學(xué)習(xí)的多系統(tǒng)譯文融合框架
4.3 源語言句子及機(jī)器譯文的編碼
4.3.1 基于雙向RNN的源語言編碼
4.3.2 源語言依賴的機(jī)器譯文編碼
4.4 多系統(tǒng)譯文的深度融合解碼
4.4.1 基于多注意力的解碼
4.4.2 解碼的搜索空間
4.5 深度融合模型的訓(xùn)練
4.5.1 編碼器的參數(shù)學(xué)習(xí)
4.5.2 解碼器的參數(shù)學(xué)習(xí)
4.6 實(shí)驗(yàn)
4.6.1 實(shí)驗(yàn)設(shè)置
4.6.2 實(shí)驗(yàn)參數(shù)設(shè)置
4.6.3 實(shí)驗(yàn)結(jié)果
4.6.4 多譯文融合的示例及分析
4.7 本章小結(jié)
第5章 基于偽數(shù)據(jù)學(xué)習(xí)的譯文質(zhì)量估計(jì)
5.1 引言
5.2 基于神經(jīng)網(wǎng)絡(luò)的譯文質(zhì)量估計(jì)模型框架
5.2.1 基于LSTM的句子表示
5.2.2 基于句子表示的譯文質(zhì)量估計(jì)模型
5.3 基于隨機(jī)生成偽數(shù)據(jù)的模型訓(xùn)練方法
5.3.1 模型在隨機(jī)生成偽數(shù)據(jù)上的預(yù)訓(xùn)練
5.3.2 標(biāo)準(zhǔn)數(shù)據(jù)上的參數(shù)微調(diào)
5.4 針對特定任務(wù)生成偽數(shù)據(jù)的模型訓(xùn)練方法
5.5 實(shí)驗(yàn)
5.5.1 實(shí)驗(yàn)設(shè)置
5.5.2 評價(jià)標(biāo)準(zhǔn)
5.5.3 基線系統(tǒng)
5.5.4 基于隨機(jī)生成偽數(shù)據(jù)的訓(xùn)練方法性能
5.5.5 針對特定任務(wù)生成偽數(shù)據(jù)方法訓(xùn)練模型的性能
5.5.6 譯文質(zhì)量估計(jì)示例及分析
5.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡歷
【參考文獻(xiàn)】:
期刊論文
[1]基于翻譯質(zhì)量估計(jì)的神經(jīng)網(wǎng)絡(luò)譯文自動(dòng)后編輯[J]. 譚亦鳴,王明文,李茂西. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[2]基于神經(jīng)網(wǎng)絡(luò)特征的句子級別譯文質(zhì)量估計(jì)[J]. 陳志明,李茂西,王明文. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[3]神經(jīng)網(wǎng)絡(luò)語言模型在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[J]. 張家俊,宗成慶. 情報(bào)工程. 2017(03)
[4]神經(jīng)機(jī)器翻譯前沿進(jìn)展[J]. 劉洋. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[5]統(tǒng)計(jì)機(jī)器翻譯中大規(guī)模特征的深度融合[J]. 劉宇鵬,喬秀明,趙石磊,馬春光. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2017(01)
本文編號:2993612
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2993612.html
最近更新
教材專著