基于樞軸語言的漢-緬平行語料庫構(gòu)建方法研究
發(fā)布時間:2023-03-18 22:47
緬甸是“一帶一路”沿線上的關(guān)鍵節(jié)點之一,也是中國與東南亞連接的重要樞紐。中緬不論是在經(jīng)濟(jì)、政治還是文化等各個方面的合作交流空間巨大,中緬語言的機(jī)器翻譯研究具有重大意義,然而中緬機(jī)器翻譯發(fā)展又取決于東南亞低資源平行語料庫的獲取。近年來,英語與其他語言的機(jī)器翻譯一直得到大量的研發(fā)投入,積累了大規(guī)模的平行語料資源,譯文質(zhì)量也達(dá)到了一定實用水平。但是在資源匱乏的語言上應(yīng)用還不太成熟,特別是緬甸稀缺語言,平行語料的規(guī)模較小。因此研究如何構(gòu)建低資源的平行語料庫具有重要意義。本文通過將英語作為樞軸語言,構(gòu)建漢-英-緬三者的公共語義空間,實現(xiàn)漢-緬平行句對抽取以完成漢-緬平行語料庫的構(gòu)建工作。主要完成了以下工作:(1)基礎(chǔ)語料庫的構(gòu)建構(gòu)建工作包括:1.英-緬平行語料,英-緬可比語料庫,通過從互聯(lián)網(wǎng)上收集大量的英-緬新聞網(wǎng)站或者英-緬在線詞典,進(jìn)而爬取語料。2.中-英平行語料,主要使用聯(lián)合國語料庫。3.緬甸語單語語料,對于緬甸語單語語料可直接在緬甸網(wǎng)站爬取。首先,搜集英-緬互譯的新聞網(wǎng)站。然后,對每個新聞網(wǎng)站,分析其頁面結(jié)構(gòu)特點,爬取英語新聞、緬甸語新聞,構(gòu)建文本語料庫。最后,獲取到部分英-緬平行語料庫...
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的研究內(nèi)容
1.4 論文的組織
第二章 語料庫構(gòu)建
2.1 引言
2.2 英-緬雙語語料來源
2.3 英-緬雙語語料獲取
2.4 緬甸語句法相關(guān)知識
2.4.1 緬語音節(jié)特點
2.4.2 緬語虛詞和助詞
2.4.3 緬語功能標(biāo)記
2.5 本章小節(jié)
第三章 基于Siamese框架的英緬平行句對抽取
3.1 引言
3.2 研究現(xiàn)狀
3.3 相關(guān)研究
3.3.1 Siamese框架概述
3.4 基于Siamese框架的英緬平行句對抽取模型
3.4.1 英-緬雙語詞向量訓(xùn)練
3.4.2 基于Bi-LSTM和 CNN的句子表征
3.4.3 模型訓(xùn)練
3.5 實驗結(jié)果與分析
3.5.1 實驗數(shù)據(jù)
3.5.2 實驗結(jié)果
3.6 本章小結(jié)
第四章 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.1 引言
4.2 研究現(xiàn)狀
4.3 相關(guān)研究
4.3.1 典型相關(guān)分析
4.3.2 AutoEncoders
4.3.3 Correlational Neural Networks
4.4 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.4.1 基于降噪編碼器(DAE)的漢、英、緬句子表征學(xué)習(xí)
4.4.2 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.5 實驗
4.5.1 實驗數(shù)據(jù)
4.5.2 實驗設(shè)置
4.5.3 實驗結(jié)果
4.6 本章小結(jié)
第五章 漢-緬雙語平行句對抽取原型系統(tǒng)實現(xiàn)
5.1 系統(tǒng)整體構(gòu)架
5.2 系統(tǒng)開發(fā)所需工具及資源
5.2.1 基礎(chǔ)開源框架
5.2.2 系統(tǒng)環(huán)境配置
5.2.3 系統(tǒng)模塊任務(wù)劃分
5.3 系統(tǒng)實現(xiàn)展示
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 下一步工作
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間發(fā)表論文與申請軟件著作權(quán)
附錄B 攻讀碩士期間參與項目
本文編號:3764019
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的研究內(nèi)容
1.4 論文的組織
第二章 語料庫構(gòu)建
2.1 引言
2.2 英-緬雙語語料來源
2.3 英-緬雙語語料獲取
2.4 緬甸語句法相關(guān)知識
2.4.1 緬語音節(jié)特點
2.4.2 緬語虛詞和助詞
2.4.3 緬語功能標(biāo)記
2.5 本章小節(jié)
第三章 基于Siamese框架的英緬平行句對抽取
3.1 引言
3.2 研究現(xiàn)狀
3.3 相關(guān)研究
3.3.1 Siamese框架概述
3.4 基于Siamese框架的英緬平行句對抽取模型
3.4.1 英-緬雙語詞向量訓(xùn)練
3.4.2 基于Bi-LSTM和 CNN的句子表征
3.4.3 模型訓(xùn)練
3.5 實驗結(jié)果與分析
3.5.1 實驗數(shù)據(jù)
3.5.2 實驗結(jié)果
3.6 本章小結(jié)
第四章 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.1 引言
4.2 研究現(xiàn)狀
4.3 相關(guān)研究
4.3.1 典型相關(guān)分析
4.3.2 AutoEncoders
4.3.3 Correlational Neural Networks
4.4 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.4.1 基于降噪編碼器(DAE)的漢、英、緬句子表征學(xué)習(xí)
4.4.2 基于樞軸語言和CorrNet的漢-緬雙語句對抽取
4.5 實驗
4.5.1 實驗數(shù)據(jù)
4.5.2 實驗設(shè)置
4.5.3 實驗結(jié)果
4.6 本章小結(jié)
第五章 漢-緬雙語平行句對抽取原型系統(tǒng)實現(xiàn)
5.1 系統(tǒng)整體構(gòu)架
5.2 系統(tǒng)開發(fā)所需工具及資源
5.2.1 基礎(chǔ)開源框架
5.2.2 系統(tǒng)環(huán)境配置
5.2.3 系統(tǒng)模塊任務(wù)劃分
5.3 系統(tǒng)實現(xiàn)展示
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 下一步工作
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間發(fā)表論文與申請軟件著作權(quán)
附錄B 攻讀碩士期間參與項目
本文編號:3764019
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3764019.html
最近更新
教材專著