天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

面向受限領(lǐng)域的漢蒙統(tǒng)計機(jī)器翻譯方法研究

發(fā)布時間:2020-11-17 08:25
   近年來,機(jī)器翻譯研究得到了學(xué)術(shù)界和工業(yè)界的極大重視,翻譯性能不斷提高。蒙古語作為我國重要的少數(shù)民族語言之一,漢蒙統(tǒng)計機(jī)器翻譯的研究也同樣受到了廣泛重視。然而,漢蒙統(tǒng)計機(jī)器翻譯在數(shù)據(jù)稀疏、語序差異、形態(tài)差異上面臨很大的挑戰(zhàn)。由于人工構(gòu)建語料庫費(fèi)時費(fèi)力,且短期內(nèi)難以擴(kuò)充到很大規(guī)模。因此,從研究方法上針對漢蒙機(jī)器翻譯面臨的主要困難進(jìn)行改進(jìn),對于提升漢蒙機(jī)器翻譯的譯文質(zhì)量,推動機(jī)器翻譯在專業(yè)領(lǐng)域的應(yīng)用,具有重要的意義。本文在有限平行語料背景下,針對受限領(lǐng)域漢蒙機(jī)器翻譯面臨的形態(tài)差異、語序差異、數(shù)據(jù)稀疏,開展了五項(xiàng)關(guān)鍵技術(shù)研究:融合未標(biāo)注文本信息的蒙古語形態(tài)切分、詞素化加權(quán)模型、基于同義詞的調(diào)序模型、基于詞素媒介的翻譯方法、系統(tǒng)融合。論文的主要工作和創(chuàng)新點(diǎn)歸納如下:1、針對漢蒙形態(tài)非對稱,提出了一種融合未標(biāo)注文本信息的蒙古語形態(tài)切分方法。蒙古語是形態(tài)豐富的黏著語,而漢語是孤立語,漢蒙之間的形態(tài)差異給機(jī)器翻譯建模帶來了極大地挑戰(zhàn)。本文提出了一種融合未標(biāo)注文本信息的形態(tài)切分方法。首先使用條件隨機(jī)場結(jié)合標(biāo)注數(shù)據(jù)對蒙古語切分,然后針對切分錯誤,提出了一種基于詞匯的切分模型,該模型將標(biāo)注數(shù)據(jù)作為啟發(fā)式信息,從大量未標(biāo)注文本中學(xué)習(xí)到對切分有幫助的知識。最后,本文提出了錯誤修正方法。2、針對短語翻譯概率估計不準(zhǔn)確,提出了一種詞素化加權(quán)模型。漢蒙數(shù)據(jù)稀疏導(dǎo)致翻譯模型中的短語翻譯概率的估計不夠準(zhǔn)確,相應(yīng)概率信息不足以體現(xiàn)短語對之間互譯的可靠性。本文提出了一種詞素化加權(quán)的方法,通過對蒙古語詞序列分解為詞素序列,進(jìn)而對短語翻譯概率進(jìn)行更好地估計。另外,本文提出了三種融合策略將詞素化加權(quán)融入漢蒙機(jī)器翻譯基線系統(tǒng)中。實(shí)驗(yàn)結(jié)果表明,該方法可以更合理地對短語對之間互譯可靠性進(jìn)行估計。3、針對漢蒙語序差異大,提出了一種融入漢語同義詞信息的調(diào)序模型。漢蒙語序差異大且面臨嚴(yán)重的數(shù)據(jù)稀疏,調(diào)序問題一直是漢蒙機(jī)器翻譯面臨的主要困難之一。本文將漢語同義詞信息融入調(diào)序模型的建模過程中。本文假設(shè)同義詞或者同義短語在某種程度上可以共享調(diào)序?qū)嵗?這樣就可以消解數(shù)據(jù)稀疏對調(diào)序模型的影響。此外,本文將基于同義詞的調(diào)序模型以特征函數(shù)的方式融入基線翻譯系統(tǒng)中,改善了譯文的流利度。4、針對漢蒙短語對規(guī)模較小,提出了一種基于詞素媒介的翻譯方法。由于漢蒙雙語平行語料庫的規(guī)模較小,從平行語料中抽取出來的短語對的規(guī)模也較小,這嚴(yán)重地制約了漢蒙機(jī)器翻譯的性能。本文從蒙古語的形態(tài)特征出發(fā),將蒙古語詞素作為媒介,構(gòu)建漢語—蒙古語詞素、蒙古語詞素—蒙古語機(jī)器翻譯系統(tǒng)。在不增加雙語語料的基礎(chǔ)上,在短語層面上通過這兩個機(jī)器翻譯系統(tǒng)的短語翻譯表和調(diào)序模型構(gòu)建出新的翻譯知識。構(gòu)建出來的短語翻譯表和調(diào)序模型分別以多路徑解碼和特征函數(shù)的形式融入基線系統(tǒng)中。5、采用系統(tǒng)融合策略作為統(tǒng)一框架,將詞素化加權(quán)模型、基于同義詞的調(diào)序模型、基于詞素媒介的翻譯方法有機(jī)融合。本文提出了詞素化加權(quán)模型、基于同義詞的調(diào)序模型、基于詞素媒介的翻譯方法,分別消解了漢蒙統(tǒng)計機(jī)器翻譯中的短語翻譯概率的估計不夠準(zhǔn)確、漢蒙語序差異大、短語對規(guī)模較小等問題。本文對這三個方法分別與基線系統(tǒng)融合而產(chǎn)生的不同n-best列表進(jìn)行詞匯級別系統(tǒng)融合,并采用基于TER的方法進(jìn)行翻譯假設(shè)的對齊。實(shí)驗(yàn)結(jié)果顯示,系統(tǒng)融合可以進(jìn)一步顯著提高譯文的質(zhì)量。本文實(shí)驗(yàn)采用的訓(xùn)練集規(guī)模為67288句對日常用語、22萬詞條雙語詞典和500句對農(nóng)業(yè)雙語語料。另外,在日常用語中使用的測試語料為500句對,農(nóng)業(yè)領(lǐng)域中所使用的測試語料為200句對。在日常用語測試集上,本文方法的機(jī)器翻譯BLEU值最高提升2.16個百分點(diǎn);在農(nóng)業(yè)領(lǐng)域測試集上,本文方法的機(jī)器翻譯BLEU值最高提升3.36個百分點(diǎn)。
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2017
【中圖分類】:TP391.2
【部分圖文】:

官方語言,蒙古國,哈薩克斯坦,存在形態(tài)


跨語言實(shí)時溝通工具已經(jīng)走進(jìn)了人們的日常生活。??我國是一個統(tǒng)一的多民族國家,語種多、文種多是我國的國情。在55個少??數(shù)民族中有53個民族擁有自己的語言、22個民族擁有自己的文字。蒙古語產(chǎn)生??于9-10世紀(jì),屬于阿爾泰語系蒙古語族,主要使用者是蒙古族,主要地區(qū)分布??在中華人民共和國北部各�。▋�(nèi)蒙古、化寧、吉林及黑龍江�。�、蒙古國、俄羅??斯聯(lián)邦北亞地區(qū)(布里亞特共和國、圖瓦共和國、阿爾泰邊疆區(qū)、阿爾泰共和國)。??同時,蒙古語也是我國政府文獻(xiàn)所使用的屯種語言之一。??語言文字承載了信息傳播和交流的作用,在民族地區(qū),少數(shù)民族語言則是進(jìn)??行信息交流的重要工具。在互聯(lián)網(wǎng)為代表的信息時代,語言文字已經(jīng)成為重要??的信息載體。語言信息處理技術(shù),特別是少數(shù)民族語言信息處理技術(shù)的形成和不??斷發(fā)展對于延續(xù)、保護(hù)和研究少數(shù)民族的言語和文字尤其重要,對于保護(hù)少數(shù)民??族的文化,促進(jìn)少數(shù)民族的經(jīng)濟(jì)和社會發(fā)展都具有重要意義。??1998年,內(nèi)蒙古大學(xué)蒙古語文研究所、中科院計算所、北京大學(xué)計算語言學(xué)??研巧所承擔(dān)了國家863項(xiàng)目"面向政府文獻(xiàn)的漢蒙機(jī)器輔助翻譯系統(tǒng)"。漢蒙機(jī)??器翻譯方法包括基于規(guī)則、基于實(shí)例和基于統(tǒng)計的研究方法。漢蒙機(jī)器翻譯對于??促進(jìn)經(jīng)濟(jì)發(fā)展、民族交流、文化保護(hù)與研巧等方面都有著重要的作用。??

蒙語,示例


通過圖1.2可W看出,漢語和蒙古語在語序上區(qū)別很大。調(diào)序是機(jī)器翻譯中??最困難的問題之一,有研究證實(shí)調(diào)序是NPhard問題,窮舉出所有可能的結(jié)果并??不現(xiàn)實(shí)[i4-is]。因此,如何找出一個符合流利度要求的譯文將是一件十分困難的事??情,特別是對于源語言和目標(biāo)語言語序差異很大的語言對。??同時,漢蒙語序差異大直接影響了機(jī)器翻譯譯文質(zhì)量。一方面,在機(jī)器翻譯??訓(xùn)練過程中,首先需要訓(xùn)練雙語詞對齊。語序上的不一致影響了詞對齊結(jié)果的準(zhǔn)??確性,進(jìn)而對短語對的抽取和翻譯規(guī)則概率的估計造成不利的影響,最終導(dǎo)致翻??譯模型的質(zhì)量不高。另一方面,在解碼過程中,語序的不一致導(dǎo)致解碼器很難選??擇合適的詞序,最終影響了譯文的流利度。因此,漢蒙語序上的差異為機(jī)器翻譯??的研究工作帶來了極大地挑戰(zhàn)。??1.2.3數(shù)據(jù)稀疏嚴(yán)重??數(shù)據(jù)規(guī)模的大小對于統(tǒng)計學(xué)習(xí)模型有著重要的影響tis-W。目前,統(tǒng)計機(jī)器翻??譯的工作原理是在給定的源語言字符串的基礎(chǔ)上,捜索條件概率最高的目標(biāo)語言??

短語結(jié)構(gòu)樹


2.3.3.2基于語言學(xué)句法的翻譯模型??在自然語言處理領(lǐng)域,對語言結(jié)構(gòu)的表達(dá)方式有很多種,最常用的是短語結(jié)??構(gòu)樹和依存樹。短語結(jié)構(gòu)樹和依存樹如圖2.3所示。??IP??ADVP?NP?VP??I?I??AD?PN?W?NP??I?I?I?/\?不過?我?建議??不過?我?接受?DNP?NP??八?M??NP?DEG?NN?他??II?I??PN的建議??I?的??4??圖2.3a短語結(jié)構(gòu)樹?圖2.化依存樹??短語結(jié)構(gòu)樹指的是W樹形結(jié)構(gòu)解析短語間層次關(guān)系。依存樹直接處理詞與詞??的關(guān)系,結(jié)點(diǎn)數(shù)目大大減少了,形式上非常簡潔。??根據(jù)語言結(jié)構(gòu)的不同,語言學(xué)句法的方法可W分為兩類:??.1)基于短語結(jié)構(gòu)樹的翻譯模型??19??
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 徐波;史曉東;劉群;宗成慶;龐薇;陳振標(biāo);楊振東;魏瑋;杜金華;陳毅東;劉洋;熊德意;侯宏旭;何中軍;;2005統(tǒng)計機(jī)器翻譯研討班研究報告[J];中文信息學(xué)報;2006年05期

2 王正;孫東云;;統(tǒng)計機(jī)器翻譯系統(tǒng)在網(wǎng)絡(luò)翻譯教學(xué)中的應(yīng)用[J];英語研究;2008年01期

3 張濤;;機(jī)器翻譯的發(fā)展與基于短語的統(tǒng)計機(jī)器翻譯[J];山西廣播電視大學(xué)學(xué)報;2009年04期

4 肖桐;李天寧;陳如山;朱靖波;王會珍;;面向統(tǒng)計機(jī)器翻譯的重對齊方法研究[J];中文信息學(xué)報;2010年01期

5 劉群;統(tǒng)計機(jī)器翻譯綜述[J];中文信息學(xué)報;2003年04期

6 何中軍;劉群;林守勛;;統(tǒng)計機(jī)器翻譯中短語切分的新方法[J];中文信息學(xué)報;2007年01期

7 苗洪霞;蔡東風(fēng);宋彥;;基于短語的統(tǒng)計機(jī)器翻譯方法[J];沈陽航空工業(yè)學(xué)院學(xué)報;2007年02期

8 羅毅;李淼;張建;;一種基于短語統(tǒng)計機(jī)器翻譯的高效柱搜索解碼器[J];計算機(jī)應(yīng)用;2007年08期

9 羅毅;李淼;朱鑒;胡冠龍;;基于短語統(tǒng)計機(jī)器翻譯解碼算法的研究與實(shí)現(xiàn)[J];計算機(jī)工程與應(yīng)用;2007年30期

10 李楓;;基于短語的統(tǒng)計機(jī)器翻譯[J];山西財經(jīng)大學(xué)學(xué)報;2008年S1期


相關(guān)博士學(xué)位論文 前10條

1 崔磊;統(tǒng)計機(jī)器翻譯領(lǐng)域自適應(yīng)的研究[D];哈爾濱工業(yè)大學(xué);2014年

2 楊振新;面向受限領(lǐng)域的漢蒙統(tǒng)計機(jī)器翻譯方法研究[D];中國科學(xué)技術(shù)大學(xué);2017年

3 蔣宏飛;基于同步樹替換文法的統(tǒng)計機(jī)器翻譯方法研究[D];哈爾濱工業(yè)大學(xué);2010年

4 黃書劍;統(tǒng)計機(jī)器翻譯中的詞對齊研究[D];南京大學(xué);2012年

5 劉樂茂;統(tǒng)計機(jī)器翻譯判別式訓(xùn)練方法研究[D];哈爾濱工業(yè)大學(xué);2013年

6 貢正仙;文檔級統(tǒng)計機(jī)器翻譯的研究[D];蘇州大學(xué);2014年

7 薛永增;統(tǒng)計機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

8 梁華參;基于短語的統(tǒng)計機(jī)器翻譯模型訓(xùn)練中若干關(guān)鍵問題的研究[D];哈爾濱工業(yè)大學(xué);2013年

9 肖桐;樹到樹統(tǒng)計機(jī)器翻譯優(yōu)化學(xué)習(xí)及解碼方法研究[D];東北大學(xué);2012年

10 段楠;統(tǒng)計機(jī)器翻譯的一致性解碼方法研究[D];天津大學(xué);2012年


相關(guān)碩士學(xué)位論文 前10條

1 程立;融合主題的漢語—納西的統(tǒng)計機(jī)器翻譯方法研究[D];昆明理工大學(xué);2015年

2 劉樂;統(tǒng)計機(jī)器翻譯領(lǐng)域適應(yīng)性研究[D];蘇州大學(xué);2015年

3 玉霞;蒙古文詞法分析及其在蒙漢統(tǒng)計機(jī)器翻譯中的應(yīng)用[D];內(nèi)蒙古師范大學(xué);2015年

4 孫輝豐;層次短語翻譯模型中翻譯規(guī)則約束問題的研究[D];南京大學(xué);2015年

5 李強(qiáng);短語統(tǒng)計機(jī)器翻譯關(guān)鍵技術(shù)研究[D];東北大學(xué);2013年

6 仇偉;基于統(tǒng)計機(jī)器翻譯的視頻描述自動生成[D];上海交通大學(xué);2015年

7 王超超;基于分布式合成語義的統(tǒng)計翻譯模型研究[D];蘇州大學(xué);2016年

8 劉昊;統(tǒng)計機(jī)器翻譯領(lǐng)域自適應(yīng)方法研究[D];蘇州大學(xué);2016年

9 李婧萱;基于深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)計機(jī)器翻譯模型研究[D];哈爾濱工業(yè)大學(xué);2016年

10 應(yīng)志野;基于最大熵的機(jī)器翻譯研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年



本文編號:2887279

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2887279.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶74421***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com