天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

稀缺資源機器翻譯中改進的語料級和短語級中間語言方法研究

發(fā)布時間:2018-08-13 08:52
【摘要】:該文以英語作為中間語言的方式對在沒有直接的外國語至漢語平行訓(xùn)練數(shù)據(jù)條件下構(gòu)建統(tǒng)計機器翻譯系統(tǒng)的問題進行研究.文中將基于中間語言的機器翻譯方法分為系統(tǒng)級、語料級以及短語級中間語3種方法.在文中提出的改進的語料級中間語方法中,通過擴大生成訓(xùn)練數(shù)據(jù)的規(guī)模以及優(yōu)化詞對齊質(zhì)量的方式來提高翻譯系統(tǒng)的翻譯性能.在傳統(tǒng)的短語級中間語方法中,由于存在無法進行融合的中間語短語從而導(dǎo)致很多高質(zhì)量短語對無法生成的問題,該文提出的改進方法通過解碼生成的方式來擴大短語翻譯表,繼而提高翻譯質(zhì)量.該文系統(tǒng)地比較了3種中間語方法的優(yōu)缺點,通過人工分析發(fā)現(xiàn),任何一種方法無法在所有的翻譯任務(wù)上取得最佳的翻譯性能,故文中提出了語料級-短語級融合的中間語方法,該方法在所有翻譯任務(wù)上取得了最優(yōu)的翻譯性能.最終,文中成功構(gòu)建了孟加拉語、泰米爾語、烏茲別克語、匈牙利語至漢語的機器翻譯系統(tǒng).與基線系統(tǒng)相比,文中提出的方法在4種外國語的測試集上獲得了0.8至2.8個BLEU點的上漲.
[Abstract]:In this paper, the problem of constructing statistical machine translation system without direct parallel training data from foreign language to Chinese is studied by using English as an intermediate language. In this paper, the machine translation method based on intermediate language is divided into three levels: system level, corpus level and phrase level. In the improved corpus level interlanguage method proposed in this paper the translation performance of the translation system is improved by expanding the scale of generating training data and optimizing the quality of word alignment. In traditional phrase-level interlanguage methods, due to the existence of interlanguage phrases which can not be fused, many high-quality phrase pairs can not be generated. In this paper, the improved method is proposed to expand the translation table of phrases by decoding and generating. Then improve the quality of translation. This paper systematically compares the advantages and disadvantages of three interlanguage methods. It is found by manual analysis that none of them can achieve the best translation performance in all translation tasks. Therefore, the interlanguage method of corpus-phrase fusion is proposed, which achieves the best translation performance in all translation tasks. Finally, the machine translation system of Bengali, Tamil, Uzbek, Hungarian to Chinese was successfully constructed. Compared with the baseline system, the proposed method achieves an increase of 0.8 to 2.8 BLEU points on the test sets of four foreign languages.
【作者單位】: 東北大學自然語言處理實驗室;
【基金】:中央高;究蒲袠I(yè)務(wù)專項資金(N140406003) 國家留學基金 國家自然科學基金(61272376,61300097)資助~~
【分類號】:TP391.2

【相似文獻】

相關(guān)期刊論文 前10條

1 李筱青,陳暉,陳意云;一種新型類型化中間語言的優(yōu)化實現(xiàn)技術(shù)[J];計算機工程;2005年05期

2 熊文新;宋柔;袁琦;;多語信息交流平臺的中間語言系統(tǒng)及支撐環(huán)境設(shè)計[J];計算機科學;2006年08期

3 張濤;李迅波;;軟PLC的轉(zhuǎn)換中間語言模型的建立與研究[J];微計算機信息;2007年35期

4 申利民,唐勇,柯漢水,陳曉謙;基于中間語言的逆編譯方法[J];東北重型機械學院學報;1997年01期

5 CSDN;;微軟中間語言和即時編譯[J];程序員;2002年04期

6 胡榮;范明鈺;王光衛(wèi);宮亞峰;;C逆編譯系統(tǒng)的中間語言的一種優(yōu)化表示方法[J];計算機系統(tǒng)應(yīng)用;2010年09期

7 馬希文;樹計算機與樹程序[J];計算機學報;1978年01期

8 黎浩宏;;C#語言委托與事件機制的探討[J];福建電腦;2009年11期

9 劉洪輝;羅勝榮;黎利紅;;一種實用的計算機圖形自動評判方法[J];電腦知識與技術(shù);2006年23期

10 熊貽青;;針對微軟中間語言的逆向分析[J];計算機應(yīng)用;2006年07期

相關(guān)會議論文 前2條

1 熊文新;;提升自然語言向中間語言轉(zhuǎn)換準確性的增強處理[A];第二屆全國學生計算語言學研討會論文集[C];2004年

2 李延莉;宮皓宇;;淺談.NET[A];“加入WTO和科學技術(shù)與吉林經(jīng)濟發(fā)展——機遇·挑戰(zhàn)·責任”吉林省第二屆科學技術(shù)學術(shù)年會論文集(上)[C];2002年

相關(guān)重要報紙文章 前3條

1 福建 忠英;手機翻譯時代的到來[N];電腦報;2004年

2 南京郵電學院 李建忠;“Hello,World!”程序[N];計算機世界;2002年

3 中國科學院自動化研究所 徐波;回歸到“通天塔”之前[N];計算機世界;2002年

相關(guān)博士學位論文 前1條

1 尹杰;基于編譯器中間語言的軟件運行時可靠性研究[D];清華大學;2015年

相關(guān)碩士學位論文 前4條

1 師光達;基于可比較語料庫的術(shù)語提取方法研究[D];北京化工大學;2015年

2 韓冬;基于虛擬寄存器的中間語言[D];西南交通大學;2009年

3 黃海;基于IDA的代碼解析與中間語言翻譯[D];解放軍信息工程大學;2009年

4 包蘇魯?shù)?多語種機器翻譯平臺關(guān)鍵技術(shù)研究[D];復(fù)旦大學;2008年

,

本文編號:2180481

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2180481.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eaf1c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com