融合主題與語(yǔ)義依賴的統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域適應(yīng)性研究
發(fā)布時(shí)間:2021-02-02 19:38
統(tǒng)計(jì)機(jī)器翻譯以大規(guī)模平行語(yǔ)料庫(kù)為基礎(chǔ),利用計(jì)算機(jī)較強(qiáng)的計(jì)算能力以及機(jī)器學(xué)習(xí)算法,構(gòu)建統(tǒng)計(jì)模型。然而,在面向特定領(lǐng)域翻譯任務(wù)時(shí),翻譯系統(tǒng)的性能往往偏低。原因在于,訓(xùn)練翻譯系統(tǒng)的語(yǔ)料通常是由多個(gè)領(lǐng)域組成的,翻譯模型可以從中學(xué)習(xí)到多種翻譯知識(shí)以及語(yǔ)言現(xiàn)象,無(wú)法針對(duì)特定領(lǐng)域的語(yǔ)義、語(yǔ)言風(fēng)格做出自適應(yīng)調(diào)整。領(lǐng)域自適應(yīng)研究的目的在于,建立一種動(dòng)態(tài)調(diào)整翻譯模型的方法,從而使翻譯模型對(duì)目標(biāo)領(lǐng)域的語(yǔ)言特征具備較強(qiáng)的學(xué)習(xí)和處理能力,借以保證翻譯系統(tǒng)在不同領(lǐng)域的平衡可靠的翻譯能力。本文集中研究統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域適應(yīng)性優(yōu)化方法,具體包括以下三個(gè)方面:(1)基于主題信息的領(lǐng)域平行句對(duì)選擇研究提出一種基于主題信息的領(lǐng)域平行句對(duì)選擇方法。該方法旨在從大規(guī)模平行語(yǔ)料中自動(dòng)篩選與目標(biāo)領(lǐng)域主題相關(guān)的句對(duì),以擴(kuò)充特定領(lǐng)域訓(xùn)練數(shù)據(jù)數(shù)據(jù)從而提升面向特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能。本文所提方法利用雙語(yǔ)主題模型將句對(duì)表示為主題向量,并在主題和領(lǐng)域之間構(gòu)建映射,進(jìn)而更好地估計(jì)句對(duì)的領(lǐng)域相關(guān)性。實(shí)驗(yàn)結(jié)果顯示,利用本文所提方法選擇領(lǐng)域句對(duì)并訓(xùn)練翻譯系統(tǒng),相比于基準(zhǔn)系統(tǒng),在測(cè)試集上BLEU值平均提升1.64個(gè)百分點(diǎn)。(2)基于主題模型的調(diào)序模型...
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 任務(wù)定義
1.3 研究意義
1.3.1 科學(xué)價(jià)值
1.3.2 應(yīng)用價(jià)值
1.4 國(guó)內(nèi)外研究現(xiàn)狀
1.4.1 基于訓(xùn)練數(shù)據(jù)優(yōu)化的領(lǐng)域適應(yīng)性研究
1.4.2 基于模型特征優(yōu)化的領(lǐng)域適應(yīng)性研究
1.5 主要研究?jī)?nèi)容
1.6 論文組織結(jié)構(gòu)
第二章 統(tǒng)計(jì)機(jī)器翻譯概述
2.1 語(yǔ)料預(yù)處理
2.2 模型訓(xùn)練
2.3 模型權(quán)重調(diào)節(jié)
2.4 翻譯解碼
2.5 譯文質(zhì)量評(píng)價(jià)
2.6 本章小結(jié)
第三章 基于主題信息的領(lǐng)域平行句對(duì)選擇研究
3.1 研究動(dòng)機(jī)
3.2 句對(duì)領(lǐng)域相關(guān)性評(píng)價(jià)模型
3.2.1 雙語(yǔ)主題模型
3.2.2 句子級(jí)主題-領(lǐng)域相關(guān)性計(jì)算
3.2.3 詞級(jí)主題-領(lǐng)域相關(guān)性計(jì)算
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 語(yǔ)料設(shè)置
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第四章 基于主題模型的調(diào)序模型領(lǐng)域適應(yīng)性研究
4.1 研究動(dòng)機(jī)
4.2 融合主題信息的調(diào)序模型
4.2.1 傳統(tǒng)調(diào)序模型
4.2.2 估計(jì)不同主題下短語(yǔ)對(duì)的調(diào)序分布
4.2.3 利用測(cè)試集主題分布優(yōu)化調(diào)序模型
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 語(yǔ)料設(shè)置
4.3.2 實(shí)驗(yàn)設(shè)置
4.3.3 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第五章 領(lǐng)域術(shù)語(yǔ)錯(cuò)譯識(shí)別方法研究
5.1 研究動(dòng)機(jī)
5.2 基于回譯的術(shù)語(yǔ)錯(cuò)譯識(shí)別方法
5.2.1 回譯譯文獲取
5.2.2 回譯文本與源文本的比較
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 語(yǔ)料設(shè)置
5.3.2 實(shí)驗(yàn)設(shè)置
5.3.3 實(shí)驗(yàn)結(jié)果與分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀學(xué)位期間公開(kāi)發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種基于分類的平行語(yǔ)料選擇方法[J]. 王星,涂兆鵬,謝軍,呂雅娟,姚建民. 中文信息學(xué)報(bào). 2013(06)
[2]研究領(lǐng)域的主題發(fā)展趨勢(shì)分析方法研究——基于多重共現(xiàn)的視角[J]. 龐弘燊,方曙,楊志剛,郭學(xué)武. 情報(bào)理論與實(shí)踐. 2012(08)
[3]基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料選取[J]. 姚樹(shù)杰,肖桐,朱靖波. 中文信息學(xué)報(bào). 2011(02)
本文編號(hào):3015262
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 任務(wù)定義
1.3 研究意義
1.3.1 科學(xué)價(jià)值
1.3.2 應(yīng)用價(jià)值
1.4 國(guó)內(nèi)外研究現(xiàn)狀
1.4.1 基于訓(xùn)練數(shù)據(jù)優(yōu)化的領(lǐng)域適應(yīng)性研究
1.4.2 基于模型特征優(yōu)化的領(lǐng)域適應(yīng)性研究
1.5 主要研究?jī)?nèi)容
1.6 論文組織結(jié)構(gòu)
第二章 統(tǒng)計(jì)機(jī)器翻譯概述
2.1 語(yǔ)料預(yù)處理
2.2 模型訓(xùn)練
2.3 模型權(quán)重調(diào)節(jié)
2.4 翻譯解碼
2.5 譯文質(zhì)量評(píng)價(jià)
2.6 本章小結(jié)
第三章 基于主題信息的領(lǐng)域平行句對(duì)選擇研究
3.1 研究動(dòng)機(jī)
3.2 句對(duì)領(lǐng)域相關(guān)性評(píng)價(jià)模型
3.2.1 雙語(yǔ)主題模型
3.2.2 句子級(jí)主題-領(lǐng)域相關(guān)性計(jì)算
3.2.3 詞級(jí)主題-領(lǐng)域相關(guān)性計(jì)算
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 語(yǔ)料設(shè)置
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第四章 基于主題模型的調(diào)序模型領(lǐng)域適應(yīng)性研究
4.1 研究動(dòng)機(jī)
4.2 融合主題信息的調(diào)序模型
4.2.1 傳統(tǒng)調(diào)序模型
4.2.2 估計(jì)不同主題下短語(yǔ)對(duì)的調(diào)序分布
4.2.3 利用測(cè)試集主題分布優(yōu)化調(diào)序模型
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 語(yǔ)料設(shè)置
4.3.2 實(shí)驗(yàn)設(shè)置
4.3.3 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第五章 領(lǐng)域術(shù)語(yǔ)錯(cuò)譯識(shí)別方法研究
5.1 研究動(dòng)機(jī)
5.2 基于回譯的術(shù)語(yǔ)錯(cuò)譯識(shí)別方法
5.2.1 回譯譯文獲取
5.2.2 回譯文本與源文本的比較
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 語(yǔ)料設(shè)置
5.3.2 實(shí)驗(yàn)設(shè)置
5.3.3 實(shí)驗(yàn)結(jié)果與分析
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀學(xué)位期間公開(kāi)發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種基于分類的平行語(yǔ)料選擇方法[J]. 王星,涂兆鵬,謝軍,呂雅娟,姚建民. 中文信息學(xué)報(bào). 2013(06)
[2]研究領(lǐng)域的主題發(fā)展趨勢(shì)分析方法研究——基于多重共現(xiàn)的視角[J]. 龐弘燊,方曙,楊志剛,郭學(xué)武. 情報(bào)理論與實(shí)踐. 2012(08)
[3]基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料選取[J]. 姚樹(shù)杰,肖桐,朱靖波. 中文信息學(xué)報(bào). 2011(02)
本文編號(hào):3015262
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3015262.html
最近更新
教材專著