天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

基于多翻譯引擎的漢語復(fù)述平行語料構(gòu)建方法

發(fā)布時(shí)間:2021-02-04 00:28
  復(fù)述指同一語言內(nèi)相同意思的不同表達(dá),復(fù)述生成指同一種語言內(nèi)意思相同的不同表達(dá)之間的轉(zhuǎn)換,是改進(jìn)信息檢索、機(jī)器翻譯、自動(dòng)問答等自然語言處理任務(wù)不可或缺的基礎(chǔ)技術(shù)。目前,復(fù)述生成模型性能都依賴于大量平行的復(fù)述語料,而很多語言并沒有可用的復(fù)述資源,使得復(fù)述生成任務(wù)的研究無法開展。針對(duì)復(fù)述語料十分匱乏的問題,我們以漢語為研究對(duì)象,提出基于多翻譯引擎的復(fù)述平行語料構(gòu)建方法,將英語復(fù)述平行語料遷移到漢語,構(gòu)建大規(guī)模高質(zhì)量漢語復(fù)述平行語料,同時(shí)構(gòu)建有多個(gè)參考復(fù)述的漢語復(fù)述評(píng)測(cè)數(shù)據(jù)集,為漢語復(fù)述生成的研究提供一定的基礎(chǔ)數(shù)據(jù);跇(gòu)建的漢語復(fù)述語料,我們進(jìn)一步對(duì)漢語復(fù)述現(xiàn)象進(jìn)行總結(jié)和歸納,并進(jìn)行復(fù)述生成研究。我們構(gòu)建基于神經(jīng)網(wǎng)絡(luò)編碼-解碼框架的漢語復(fù)述生成模型,采用注意力機(jī)制、復(fù)制機(jī)制和覆蓋機(jī)制解決漢語復(fù)述生成中的未登錄詞和重復(fù)生成問題。為了緩解復(fù)述語料不足導(dǎo)致的神經(jīng)網(wǎng)絡(luò)復(fù)述生成模型性能不高的問題,我們引入多任務(wù)學(xué)習(xí)框架,設(shè)計(jì)聯(lián)合自編碼任務(wù)的漢語復(fù)述生成模型,通過聯(lián)合學(xué)習(xí)自編碼任務(wù)來增強(qiáng)復(fù)述生成編碼器語義表示學(xué)習(xí)能力,提高復(fù)述生成質(zhì)量。我們利用聯(lián)合自編碼任務(wù)的復(fù)述生成模型進(jìn)行漢語復(fù)述生成實(shí)驗(yàn),在評(píng)測(cè)指標(biāo)... 

【文章來源】:情報(bào)工程. 2020,6(05)

【文章頁數(shù)】:14 頁

【部分圖文】:

基于多翻譯引擎的漢語復(fù)述平行語料構(gòu)建方法


聯(lián)合自編碼任務(wù)的復(fù)述生成模型

譯文,引擎,長(zhǎng)度,漢語


本文采用以上評(píng)分標(biāo)準(zhǔn)對(duì)上述40對(duì)不同長(zhǎng)度的漢語譯文進(jìn)行人工評(píng)分,由五個(gè)翻譯引擎獲得的漢語譯文的人工評(píng)分結(jié)果統(tǒng)計(jì)如圖1所示。其中,縱坐標(biāo)表示不同句長(zhǎng)的句對(duì)譯文評(píng)分結(jié)果在3~5分的個(gè)數(shù)統(tǒng)計(jì)值。對(duì)句長(zhǎng)為5和10的短句子來說,五個(gè)翻譯引擎評(píng)分為3~5分的統(tǒng)計(jì)結(jié)果性能相當(dāng),搜狗和有道翻譯有略微優(yōu)勢(shì)。對(duì)于句長(zhǎng)為15和20的長(zhǎng)句子,搜狗和有道評(píng)分為3~5分的句對(duì)分別有18個(gè)和19個(gè),翻譯性能優(yōu)勢(shì)明顯。綜合不同句長(zhǎng)的評(píng)分統(tǒng)計(jì)結(jié)果,五個(gè)翻譯引擎的綜合排名為:有道、搜狗、百度、必應(yīng)、谷歌,有道和搜狗翻譯引擎可以在Quora數(shù)據(jù)集上取得更好地翻譯性能。


本文編號(hào):3017413

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3017413.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶21930***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com