稀缺資源機器翻譯中改進的語料級和短語級中間語言方法研究
[Abstract]:In this paper, the problem of constructing statistical machine translation system without direct parallel training data from foreign language to Chinese is studied by using English as an intermediate language. In this paper, the machine translation method based on intermediate language is divided into three levels: system level, corpus level and phrase level. In the improved corpus level interlanguage method proposed in this paper the translation performance of the translation system is improved by expanding the scale of generating training data and optimizing the quality of word alignment. In traditional phrase-level interlanguage methods, due to the existence of interlanguage phrases which can not be fused, many high-quality phrase pairs can not be generated. In this paper, the improved method is proposed to expand the translation table of phrases by decoding and generating. Then improve the quality of translation. This paper systematically compares the advantages and disadvantages of three interlanguage methods. It is found by manual analysis that none of them can achieve the best translation performance in all translation tasks. Therefore, the interlanguage method of corpus-phrase fusion is proposed, which achieves the best translation performance in all translation tasks. Finally, the machine translation system of Bengali, Tamil, Uzbek, Hungarian to Chinese was successfully constructed. Compared with the baseline system, the proposed method achieves an increase of 0.8 to 2.8 BLEU points on the test sets of four foreign languages.
【作者單位】: 東北大學自然語言處理實驗室;
【基金】:中央高;究蒲袠I(yè)務(wù)專項資金(N140406003) 國家留學基金 國家自然科學基金(61272376,61300097)資助~~
【分類號】:TP391.2
【相似文獻】
相關(guān)期刊論文 前10條
1 李筱青,陳暉,陳意云;一種新型類型化中間語言的優(yōu)化實現(xiàn)技術(shù)[J];計算機工程;2005年05期
2 熊文新;宋柔;袁琦;;多語信息交流平臺的中間語言系統(tǒng)及支撐環(huán)境設(shè)計[J];計算機科學;2006年08期
3 張濤;李迅波;;軟PLC的轉(zhuǎn)換中間語言模型的建立與研究[J];微計算機信息;2007年35期
4 申利民,唐勇,柯漢水,陳曉謙;基于中間語言的逆編譯方法[J];東北重型機械學院學報;1997年01期
5 CSDN;;微軟中間語言和即時編譯[J];程序員;2002年04期
6 胡榮;范明鈺;王光衛(wèi);宮亞峰;;C逆編譯系統(tǒng)的中間語言的一種優(yōu)化表示方法[J];計算機系統(tǒng)應(yīng)用;2010年09期
7 馬希文;樹計算機與樹程序[J];計算機學報;1978年01期
8 黎浩宏;;C#語言委托與事件機制的探討[J];福建電腦;2009年11期
9 劉洪輝;羅勝榮;黎利紅;;一種實用的計算機圖形自動評判方法[J];電腦知識與技術(shù);2006年23期
10 熊貽青;;針對微軟中間語言的逆向分析[J];計算機應(yīng)用;2006年07期
相關(guān)會議論文 前2條
1 熊文新;;提升自然語言向中間語言轉(zhuǎn)換準確性的增強處理[A];第二屆全國學生計算語言學研討會論文集[C];2004年
2 李延莉;宮皓宇;;淺談.NET[A];“加入WTO和科學技術(shù)與吉林經(jīng)濟發(fā)展——機遇·挑戰(zhàn)·責任”吉林省第二屆科學技術(shù)學術(shù)年會論文集(上)[C];2002年
相關(guān)重要報紙文章 前3條
1 福建 忠英;手機翻譯時代的到來[N];電腦報;2004年
2 南京郵電學院 李建忠;“Hello,World!”程序[N];計算機世界;2002年
3 中國科學院自動化研究所 徐波;回歸到“通天塔”之前[N];計算機世界;2002年
相關(guān)博士學位論文 前1條
1 尹杰;基于編譯器中間語言的軟件運行時可靠性研究[D];清華大學;2015年
相關(guān)碩士學位論文 前4條
1 師光達;基于可比較語料庫的術(shù)語提取方法研究[D];北京化工大學;2015年
2 韓冬;基于虛擬寄存器的中間語言[D];西南交通大學;2009年
3 黃海;基于IDA的代碼解析與中間語言翻譯[D];解放軍信息工程大學;2009年
4 包蘇魯?shù)?多語種機器翻譯平臺關(guān)鍵技術(shù)研究[D];復(fù)旦大學;2008年
,本文編號:2180481
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2180481.html