融合領域知識與深度學習的機器翻譯領域自適應研究
發(fā)布時間:2018-03-11 15:45
本文選題:神經機器翻譯 切入點:訓練語料選取 出處:《情報科學》2017年10期 論文類型:期刊論文
【摘要】:【目的/意義】無論是統(tǒng)計機器翻譯,還是神經機器翻譯,訓練數(shù)據(jù)通常來源復雜,主題多樣,文體不一,與待翻譯目標文本的領域不能保證完全一致,導致領域自適應問題。目前機器翻譯的領域自適應方法大多用主題模型得到主題信息,將數(shù)據(jù)粗略劃分為領域內(in-domain)和領域外(out-domain),缺乏更為明確的領域標簽!痉椒/過程】本研究采用中圖分類號作為領域標簽,采用兩種方法對漢語句子進行自動領域標注領域:利用論文關鍵詞和科技詞系統(tǒng)等知識組織構建領域知識庫的領域標注方法;訓練卷積神經網絡的深度學習的領域標注方法,通過神經網絡深度融合模型將這兩種方法融合起來得到效果更佳的領域標注器,利用機器翻譯的測試集獲取領域標簽集合篩選其訓練數(shù)據(jù)!窘Y果/結論】經過在神經機器翻譯系統(tǒng)上進行測試,針對兩個特定領域測試集,僅利用部分訓練數(shù)據(jù)就獲取了比原始訓練數(shù)據(jù)高約1.3BLEU得分(相對5.4%)的翻譯結果,證明了本研究方法的有效性和可行性。
[Abstract]:[Objective] whether statistical significance / Machine Translation, Machine Translation or nerve, the training data are usually complex sources and varied themes and style, to be fully consistent with the translation of the target text field can not be guaranteed, resulting in the field of adaptive problems. At present in the field of adaptive method uses Machine Translation model to obtain the theme topic information, the data will be roughly divided into the field in (in-domain) and field (out-domain), the lack of more specific field labels. [method / process] this study uses classification as field labels, automatic field annotation fields in Chinese sentences by using two kinds of methods: the marking method of constructing domain knowledge base based on keywords and technology knowledge words system the field; marking method of convolutional neural network training deep learning field, these two methods into the neural network depth fusion model Together to get a better domain tagger using the Machine Translation test set to obtain the domain label set screening training data. [Conclusion] the results / in the nervous system after Machine Translation test, according to test two specific areas, using only part of the training data could be obtained about 1.3BLEU score higher than the original training data (5.4%) relative to the translation of the results demonstrate the effectiveness and feasibility of the research method.
【作者單位】: 中國科學技術信息研究所;
【基金】:國家自然科學基金項目(61303152;71503240;71403257) 中國科學技術信息研究所重點工作項目(ZD2017-4)
【分類號】:G254;H085
【相似文獻】
相關期刊論文 前3條
1 韓斌;;語言省略現(xiàn)象認知理解的神經網絡基礎[J];牡丹江大學學報;2008年03期
2 彭建武;國外認知連通主義研究綜觀[J];外語教學與研究;2002年04期
3 孫曉,劉寬平;基于神經網絡技術的機器翻譯模型[J];株洲工學院學報;2004年01期
相關碩士學位論文 前1條
1 趙競一;以診斷排序式綜合譯文評價法衡量神經網絡機器翻譯之進展[D];北京外國語大學;2017年
,本文編號:1598835
本文鏈接:http://sikaile.net/tushudanganlunwen/1598835.html
教材專著