面向圖片描述翻譯的模態(tài)適應(yīng)性研究
發(fā)布時間:2021-06-28 05:51
圖片描述翻譯任務(wù)是通過機器翻譯系統(tǒng),將圖片源語言端描述翻譯為目標語言。圖片描述都是以短文本為主,無法為翻譯系統(tǒng)提供足夠的上下文信息。因此,如何將圖片信息更好的融入翻譯系統(tǒng),從而解決跨模態(tài)信息融合問題是該任務(wù)的重點。本文從統(tǒng)計機器翻譯、神經(jīng)機器翻譯出發(fā),集中研究具有較強適應(yīng)性的圖片描述翻譯優(yōu)化方法。在統(tǒng)計機器翻譯中,本文針對語料中的歧義詞問題,通過圖片主題信息對翻譯模型進行優(yōu)化;在神經(jīng)機器翻譯中,本文通過優(yōu)化圖片特征對語言特征學習的支持性作用提高翻譯系統(tǒng)的性能。本文集中研究圖片描述翻譯的模態(tài)適應(yīng)性,具體內(nèi)容包括以下三個方面:(1)融合圖片主題信息的翻譯模型優(yōu)化方法通用領(lǐng)域翻譯模型不能準確進行歧義詞翻譯,針對該問題,提出一種基于圖片主題信息優(yōu)化翻譯模型方法。該方法旨在從大規(guī)模圖片-文檔對應(yīng)的語料中挖掘相似于圖片內(nèi)容的文檔集合,借以分析圖片的主題信息,進而將圖片主題信息融入統(tǒng)計機器翻譯系統(tǒng)中的翻譯模型,這一過程有助于加強翻譯系統(tǒng)的領(lǐng)域自適應(yīng)能力,提高系統(tǒng)的性能。實驗結(jié)果表明,相比較于基準系統(tǒng),這一方法在測試集上提高0.74個百分點。(2)圖片描述翻譯中面向主題優(yōu)化的關(guān)聯(lián)語句抽取方法針對圖片主...
【文章來源】:蘇州大學江蘇省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖2-1統(tǒng)計機器翻譯流程圖??
24'25]等人分別實??現(xiàn)了相應(yīng)的完全基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型。這些均屬于經(jīng)典的神經(jīng)機器翻譯模??型,本質(zhì)上是序列到序列的模型,不僅可以用于機器翻譯,還可以用于其他序列任??務(wù),比如:問答、摘要生成等。神經(jīng)機器翻譯采用連續(xù)空間表示詞語、短語以及句??子。在翻譯建模過程中,完全采用神經(jīng)網(wǎng)絡(luò)進行源端句子到目標端句子的映射。目??前,fc流的神經(jīng)機器翻譯系統(tǒng)主要有Google提出的端到端模型%以及蒙特利爾人學??提出的編碼器-解碼器模型|231。本文主要基f編碼器-解碼器模型進行實驗,圖2-2展??示,編碼器-解碼器模型的基本框架圖:??moi?suis?etudiant?〈/s〉??etudiant?^?^????0??1?0??1?0.2?j?I?0.?6??Je?0.3?|?0.?1?0.?1?丨丨?0.?1??Moi?〇.l?0.1?i?0.1??suis?々;丨丨0+6h?4丨々:??H?11?4?il?1??Hi:?I??“?a?ii?“??I?am?a?student?<s>?moi?suis?etudiant??圖2-2編碼器-解碼器模型基本框架圖??編碼器_解碼器模型主要里包含三部分:詞嵌入層、編碼層以及解碼層。如圖2-??2所示,“/麵<7?.vmdC表示源端句子,它上面兩層實線框分別表不源端詞嵌入以及??編碼層;“<s>所仍則以—廣表不目標端句子,它上面兩層實線框分別表亦目標??端詞嵌入以及解碼層。其中,編碼器或者解碼器可以由循環(huán)神經(jīng)網(wǎng)絡(luò)[27】(Recrnrem??11??
的翻譯模型優(yōu)化方法?面向圖片描述翻譯的模態(tài)適應(yīng)性研究??r???,??!?t/閣片描述+: ̄7?? ̄題分布?/?!??I?I??I???I??!?/短語對在描 ̄7????!?/?述中的出現(xiàn)?A-^j?-短語翻譯模型??|/?次^?/?!???:=[=::??!?|短語對在^個七題|?!??|?下的翻譯分布?|??!?L ̄, ̄?!??■?1????!?y閣片描述+:—7紳3丨+:題'巧翻叫??;7?題分布/??I?I??圖3-1融合圖片主題信息的圖片描述翻譯框架圖??題信息的短語特征包含三種,分別是主題相關(guān)的正向翻譯概率(Topic-Based?Positive??Translation?Probability,簡寫為TB-PTP)、主題相關(guān)的反向翻譯概率(Topic-Based??Negative?Translation?Probability,簡寫為TB-NTP)以及主題敏感度(Topic?Sensitivity,??簡寫為TS)。其中,TB-PTP和TB-NTP通過主題信息對傳統(tǒng)的正向以及反向翻譯概率??(即PTP和NTP)進行改進。此外,TS也是一種結(jié)合主題信息的翻譯特征,其對翻譯??消歧的貢獻W己經(jīng)獲得驗證。??表3-1傳統(tǒng)短語特征??PTP? ̄NTP ̄LPTPLNTP??-8.95893 ̄ ̄-2.88915-2.07944 ̄ ̄0.108832??表3-2融入主題信息的短語特征??TB-PTP?TB-NTP?TS??0.0001224?0.1119543?3.3023679??我們借助表3-1和表3-2,對傳統(tǒng)的短語特征和基
本文編號:3253751
【文章來源】:蘇州大學江蘇省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖2-1統(tǒng)計機器翻譯流程圖??
24'25]等人分別實??現(xiàn)了相應(yīng)的完全基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型。這些均屬于經(jīng)典的神經(jīng)機器翻譯模??型,本質(zhì)上是序列到序列的模型,不僅可以用于機器翻譯,還可以用于其他序列任??務(wù),比如:問答、摘要生成等。神經(jīng)機器翻譯采用連續(xù)空間表示詞語、短語以及句??子。在翻譯建模過程中,完全采用神經(jīng)網(wǎng)絡(luò)進行源端句子到目標端句子的映射。目??前,fc流的神經(jīng)機器翻譯系統(tǒng)主要有Google提出的端到端模型%以及蒙特利爾人學??提出的編碼器-解碼器模型|231。本文主要基f編碼器-解碼器模型進行實驗,圖2-2展??示,編碼器-解碼器模型的基本框架圖:??moi?suis?etudiant?〈/s〉??etudiant?^?^????0??1?0??1?0.2?j?I?0.?6??Je?0.3?|?0.?1?0.?1?丨丨?0.?1??Moi?〇.l?0.1?i?0.1??suis?々;丨丨0+6h?4丨々:??H?11?4?il?1??Hi:?I??“?a?ii?“??I?am?a?student?<s>?moi?suis?etudiant??圖2-2編碼器-解碼器模型基本框架圖??編碼器_解碼器模型主要里包含三部分:詞嵌入層、編碼層以及解碼層。如圖2-??2所示,“/麵<7?.vmdC表示源端句子,它上面兩層實線框分別表不源端詞嵌入以及??編碼層;“<s>所仍則以—廣表不目標端句子,它上面兩層實線框分別表亦目標??端詞嵌入以及解碼層。其中,編碼器或者解碼器可以由循環(huán)神經(jīng)網(wǎng)絡(luò)[27】(Recrnrem??11??
的翻譯模型優(yōu)化方法?面向圖片描述翻譯的模態(tài)適應(yīng)性研究??r???,??!?t/閣片描述+: ̄7?? ̄題分布?/?!??I?I??I???I??!?/短語對在描 ̄7????!?/?述中的出現(xiàn)?A-^j?-短語翻譯模型??|/?次^?/?!???:=[=::??!?|短語對在^個七題|?!??|?下的翻譯分布?|??!?L ̄, ̄?!??■?1????!?y閣片描述+:—7紳3丨+:題'巧翻叫??;7?題分布/??I?I??圖3-1融合圖片主題信息的圖片描述翻譯框架圖??題信息的短語特征包含三種,分別是主題相關(guān)的正向翻譯概率(Topic-Based?Positive??Translation?Probability,簡寫為TB-PTP)、主題相關(guān)的反向翻譯概率(Topic-Based??Negative?Translation?Probability,簡寫為TB-NTP)以及主題敏感度(Topic?Sensitivity,??簡寫為TS)。其中,TB-PTP和TB-NTP通過主題信息對傳統(tǒng)的正向以及反向翻譯概率??(即PTP和NTP)進行改進。此外,TS也是一種結(jié)合主題信息的翻譯特征,其對翻譯??消歧的貢獻W己經(jīng)獲得驗證。??表3-1傳統(tǒng)短語特征??PTP? ̄NTP ̄LPTPLNTP??-8.95893 ̄ ̄-2.88915-2.07944 ̄ ̄0.108832??表3-2融入主題信息的短語特征??TB-PTP?TB-NTP?TS??0.0001224?0.1119543?3.3023679??我們借助表3-1和表3-2,對傳統(tǒng)的短語特征和基
本文編號:3253751
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3253751.html
最近更新
教材專著