天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

面向漢英專利文獻的神經(jīng)網(wǎng)絡翻譯模型的集外詞翻譯研究

發(fā)布時間:2018-04-05 09:08

  本文選題:神經(jīng)網(wǎng)絡機器翻譯 切入點:集外詞 出處:《北京交通大學》2017年碩士論文


【摘要】:機器翻譯(Machine Translation,MT)的目的是為源語言找到一個意思最為相近的目標語言。從本質上來看,機器翻譯完成的是一個序列到序列的任務。近年來隨著深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)在語音識別和圖像處理等方面取得突破性進展,研究人員開始著手使用深度神經(jīng)網(wǎng)絡處理符號變量方面的問題,例如自然語言處理領域的機器翻譯任務。神經(jīng)網(wǎng)絡機器翻譯(Neural Machine Translation,NMT)包含編碼器和解碼器兩個神經(jīng)網(wǎng)絡,編碼器把源語言轉化成一個向量表示,解碼器根據(jù)源語言的向量表示加上目標語言的歷史信息生成目標語言的詞序列。為了控制計算復雜度,大多數(shù)的NMT系統(tǒng)會限制源語言和目標語言的詞典大小,一般設置為三萬詞到八萬詞之間。對于不在詞典中的詞,也就是集外詞,使用符號“UNK”來代替。集外詞帶來幾個問題,一個是在測試過程中,模型不能夠生成合適的翻譯結果;另一個是集外詞導致源語言句子語義無法正確表示,加重翻譯結果的歧義現(xiàn)象;第三個是訓練語料中源語言和目標語言句子結構被嚴重破壞,神經(jīng)網(wǎng)絡參數(shù)質量不高。在專利文獻語料中存在大量的低頻詞,導致這幾個問題更為嚴重。本論文以專利文獻的集外詞翻譯為切入點,以中英神經(jīng)網(wǎng)絡機器翻譯為主要研究方向,重點研究并提出了一種改善集外詞翻譯問題的方法,從而提高神經(jīng)網(wǎng)絡機器翻譯的效果。主要研究成果如下:(1)引入統(tǒng)計機器翻譯中的對齊信息,以外部信息的形式加入語料庫詞典,當出現(xiàn)集外詞時根據(jù)神經(jīng)網(wǎng)絡機器翻譯中的注意力機制,對集外詞進行翻譯。(2)對語料中的技術術語進行標簽化處理,以前后處理的方式翻譯技術術語。(3)加入多模型融合機制,即同時訓練多個翻譯模型,在解碼時根據(jù)多個翻譯模型得到的結果調整注意力機制權重信息,挑選最優(yōu)結果。本文將集外詞處理作為研究重點,在中英專利語料上的實驗結果表明,本文提出的方法能有效的處理集外詞和專利術語,使翻譯效果得到提升。
[Abstract]:The purpose of machine translation is to find a target language with the most similar meaning for the source language.In essence, machine translation performs a sequence-to-sequence task.In recent years, with the breakthrough of deep Neural network in speech recognition and image processing, researchers have begun to use deep neural networks to deal with symbolic variables.For example, the task of machine translation in the field of natural language processing.Neural Machine Translation (NMTT) consists of two neural networks: encoder and decoder. The encoder converts the source language into a vector representation.Based on the vector representation of the source language and the historical information of the target language, the decoder generates the word sequence of the target language.In order to control computational complexity, most NMT systems limit the size of the dictionary between the source language and the target language, generally between 30,000 and 80,000 words.For words that are not in the dictionary, that is, out-of-set words, the symbol "UNK" is used instead.One is that the model can not produce appropriate translation results in the testing process, the other is that the out-of-set words can not correctly express the sentence semantics of the source language, thus aggravating the ambiguity of the translation results.The third is that the sentence structure of the source language and target language in the training corpus is seriously damaged, and the quality of neural network parameters is not high.The existence of a large number of low-frequency words in the patent literature corpus makes these problems more serious.In this thesis, we focus on the translation of off-set words in patent literature and the main research direction of Chinese-English neural network machine translation, and put forward a method to improve the translation of off-set words in order to improve the effect of neural network machine translation.The main research results are as follows: (1) introducing the alignment information in statistical machine translation, adding the corpus dictionary in the form of external information, and according to the attention mechanism of neural network machine translation when the out-of-set words appear.(2) tagging the technical terms in the corpus, and the former post-processing mode of translating the technical terms. 3) adding a multi-model fusion mechanism, that is, training several translation models simultaneously.In decoding, the weight information of attention mechanism is adjusted according to the results obtained from multiple translation models, and the optimal results are selected.The experimental results on the Chinese and English patent corpus show that the method proposed in this paper can effectively deal with extrinsic words and patent terms and improve the translation effect.
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.2;TP183

【相似文獻】

相關期刊論文 前10條

1 楊曉帥 ,付玫;神經(jīng)網(wǎng)絡技術讓管理更輕松[J];軟件世界;2000年11期

2 云中客;新的神經(jīng)網(wǎng)絡來自于仿生學[J];物理;2001年10期

3 唐春明,高協(xié)平;進化神經(jīng)網(wǎng)絡的研究進展[J];系統(tǒng)工程與電子技術;2001年10期

4 李智;一種基于神經(jīng)網(wǎng)絡的煤炭調運優(yōu)化方法[J];長沙鐵道學院學報;2003年02期

5 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡及其應用研究[J];計算機工程與應用;2004年21期

6 王凡,孟立凡;關于使用神經(jīng)網(wǎng)絡推定操作者疲勞的研究[J];人類工效學;2004年03期

7 周麗暉;從統(tǒng)計角度看神經(jīng)網(wǎng)絡[J];統(tǒng)計教育;2005年06期

8 趙奇 ,劉開第 ,龐彥軍;灰色補償神經(jīng)網(wǎng)絡及其應用研究[J];微計算機信息;2005年14期

9 袁婷;;神經(jīng)網(wǎng)絡在股票市場預測中的應用[J];軟件導刊;2006年05期

10 尚晉;楊有;;從神經(jīng)網(wǎng)絡的過去談科學發(fā)展觀[J];重慶三峽學院學報;2006年03期

相關會議論文 前10條

1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡的混沌性[A];1996中國控制與決策學術年會論文集[C];1996年

2 周樹德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡[A];2003年中國智能自動化會議論文集(上冊)[C];2003年

3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡和簡單規(guī)劃的識別融合算法[A];2009系統(tǒng)仿真技術及其應用學術會議論文集[C];2009年

4 郭愛克;馬盡文;丁康;;序言(二)[A];1999年中國神經(jīng)網(wǎng)絡與信號處理學術會議論文集[C];1999年

5 鐘義信;;知識論:神經(jīng)網(wǎng)絡的新機遇——紀念中國神經(jīng)網(wǎng)絡10周年[A];1999年中國神經(jīng)網(wǎng)絡與信號處理學術會議論文集[C];1999年

6 許進;保錚;;神經(jīng)網(wǎng)絡與圖論[A];1999年中國神經(jīng)網(wǎng)絡與信號處理學術會議論文集[C];1999年

7 金龍;朱詩武;趙成志;陳寧;;數(shù)值預報產品的神經(jīng)網(wǎng)絡釋用預報應用[A];1999年中國神經(jīng)網(wǎng)絡與信號處理學術會議論文集[C];1999年

8 田金亭;;神經(jīng)網(wǎng)絡在中學生創(chuàng)造力評估中的應用[A];第十二屆全國心理學學術大會論文摘要集[C];2009年

9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡的混沌特性研究[A];2009年中國智能自動化會議論文集(第七分冊)[南京理工大學學報(增刊)][C];2009年

10 張廣遠;萬強;曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡的故障診斷方法研究[A];第十二屆全國設備故障診斷學術會議論文集[C];2010年

相關重要報紙文章 前10條

1 美國明尼蘇達大學社會學博士 密西西比州立大學國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護好創(chuàng)新的“神經(jīng)網(wǎng)絡硬件”[N];中國教師報;2014年

2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計算機世界;2001年

3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡將大顯身手[N];中國紡織報;2003年

4 中國科技大學計算機系 邢方亮;神經(jīng)網(wǎng)絡挑戰(zhàn)人類大腦[N];計算機世界;2003年

5 記者 孫剛;“神經(jīng)網(wǎng)絡”:打開復雜工藝“黑箱”[N];解放日報;2007年

6 本報記者 劉霞;美用DNA制造出首個人造神經(jīng)網(wǎng)絡[N];科技日報;2011年

7 健康時報特約記者  張獻懷;干細胞移植:修復受損的神經(jīng)網(wǎng)絡[N];健康時報;2006年

8 劉力;我半導體神經(jīng)網(wǎng)絡技術及應用研究達國際先進水平[N];中國電子報;2001年

9 ;神經(jīng)網(wǎng)絡和模糊邏輯[N];世界金屬導報;2002年

10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡應用研究通過鑒定[N];中國船舶報;2006年

相關博士學位論文 前10條

1 楊旭華;神經(jīng)網(wǎng)絡及其在控制中的應用研究[D];浙江大學;2004年

2 李素芳;基于神經(jīng)網(wǎng)絡的無線通信算法研究[D];山東大學;2015年

3 石艷超;憶阻神經(jīng)網(wǎng)絡的混沌性及幾類時滯神經(jīng)網(wǎng)絡的同步研究[D];電子科技大學;2014年

4 王新迎;基于隨機映射神經(jīng)網(wǎng)絡的多元時間序列預測方法研究[D];大連理工大學;2015年

5 付愛民;極速學習機的訓練殘差、穩(wěn)定性及泛化能力研究[D];中國農業(yè)大學;2015年

6 李輝;基于粒計算的神經(jīng)網(wǎng)絡及集成方法研究[D];中國礦業(yè)大學;2015年

7 王衛(wèi)蘋;復雜網(wǎng)絡幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學;2015年

8 張海軍;基于云計算的神經(jīng)網(wǎng)絡并行實現(xiàn)及其學習方法研究[D];華南理工大學;2015年

9 李艷晴;風速時間序列預測算法研究[D];北京科技大學;2016年

10 陳輝;多維超精密定位系統(tǒng)建模與控制關鍵技術研究[D];東南大學;2015年

相關碩士學位論文 前10條

1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡與高校效益預測的研究[D];華南理工大學;2015年

2 賈文靜;基于改進型神經(jīng)網(wǎng)絡的風力發(fā)電系統(tǒng)預測及控制研究[D];燕山大學;2015年

3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學;2015年

4 陳彥至;神經(jīng)網(wǎng)絡降維算法研究與應用[D];華南理工大學;2015年

5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡研究[D];西南大學;2015年

6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡的遙感圖像分類研究[D];昆明理工大學;2015年

7 李志杰;基于神經(jīng)網(wǎng)絡的上證指數(shù)預測研究[D];華南理工大學;2015年

8 陳少吉;基于神經(jīng)網(wǎng)絡血壓預測研究與系統(tǒng)實現(xiàn)[D];華南理工大學;2015年

9 張韜;幾類時滯神經(jīng)網(wǎng)絡穩(wěn)定性分析[D];渤海大學;2015年

10 邵雪瑩;幾類時滯不確定神經(jīng)網(wǎng)絡的穩(wěn)定性分析[D];渤海大學;2015年

,

本文編號:1714104

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1714104.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶24412***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
人妻少妇av中文字幕乱码高清| 免费精品国产日韩热久久| 中文字幕精品少妇人妻| 中文字幕亚洲精品人妻| 91麻豆精品欧美一区| 色哟哟精品一区二区三区| 九九热这里只有精品哦| 91精品国产综合久久福利| 欧美同性视频免费观看| 风间中文字幕亚洲一区| 91麻豆精品欧美一区| 国产精品欧美一区二区三区不卡 | 日韩熟妇人妻一区二区三区| 免费黄片视频美女一区| 手机在线不卡国产视频| 日本女优一区二区三区免费| 亚洲精品黄色片中文字幕| 成人精品网一区二区三区| 熟女乱一区二区三区丝袜| 熟女高潮一区二区三区| 亚洲中文在线中文字幕91| 成人国产激情在线视频| 欧美国产在线观看精品| 国产精品推荐在线一区| 国产高清精品福利私拍| 小黄片大全欧美一区二区| 国产日本欧美韩国在线| 97人妻精品一区二区三区免| 国产亚洲欧美日韩国亚语| 真实偷拍一区二区免费视频| 欧美自拍系列精品在线| 亚洲最新的黄色录像在线| 色婷婷视频国产一区视频| 国产肥妇一区二区熟女精品 | 亚洲高清亚洲欧美一区二区| 日本欧美一区二区三区高清| 日韩精品亚洲精品国产精品| 黄色av尤物白丝在线播放网址| 日韩一区二区三区免费av| 国产无摭挡又爽又色又刺激| 亚洲中文字幕乱码亚洲|