天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

基于預(yù)訓(xùn)練模型的機(jī)器翻譯譯文檢測方法

發(fā)布時(shí)間:2021-10-24 12:07
  機(jī)器翻譯譯文檢測任務(wù)旨在大規(guī)模文本中判別每句話是機(jī)器翻譯譯文還是人工翻譯譯文,F(xiàn)有的機(jī)器翻譯譯文檢測方法大都采用統(tǒng)計(jì)的方法提取特征,但是基于統(tǒng)計(jì)的方法提取特征能力有限,嚴(yán)重依賴于離散的手工特征,而神經(jīng)網(wǎng)絡(luò)模型使用分布式表示,構(gòu)建代價(jià)較低且能表達(dá)細(xì)粒度的句法、語義特征差別。在本文中,我們提出使用預(yù)訓(xùn)練語言模型和雙向門控循環(huán)單元模型結(jié)合,提取機(jī)器翻譯譯文的語言風(fēng)格、慣用詞等隱層表示作為特征來檢測機(jī)器翻譯譯文,檢測結(jié)果相較之前的統(tǒng)計(jì)方法有很大的提升。本文嘗試使用所提方法過濾混合機(jī)器翻譯譯文的雙語語料,過濾后的語料相較原始的語料規(guī)模減小了,但是模型的性能卻略有提升。 

【文章來源】:情報(bào)工程. 2020,6(05)

【文章頁數(shù)】:12 頁

【部分圖文】:

基于預(yù)訓(xùn)練模型的機(jī)器翻譯譯文檢測方法


人工翻譯譯文和機(jī)器翻譯譯文的回譯差異

示例,句子,密度


Li等[15]只使用目標(biāo)側(cè)提取語言特征且這些特征獨(dú)立于源語言,很多語言特征與句子的句法結(jié)構(gòu)直接相關(guān)。他們在實(shí)驗(yàn)中發(fā)現(xiàn)人工翻譯文本在解析樹的結(jié)構(gòu)上比機(jī)器翻譯文本更加平衡。因此,他們從解析樹中提取一系列基于平衡的特征訓(xùn)練基于線性核的SVM分類器。當(dāng)我們在檢測一個(gè)譯文時(shí),可以提取一系列有效的特征,比如句子結(jié)構(gòu)、所有組成類型和名詞短語的右分支節(jié)點(diǎn)數(shù)、所有組成類型和名詞短語的左分支節(jié)點(diǎn)數(shù)等。該方法還考慮了虛詞和代詞的密度,這是SMT系統(tǒng)通常出錯(cuò)的錯(cuò)誤類型。在密度特征層面,該方法提取了整體功能字密度、限定詞的密度、量詞的密度、代詞的密度、介詞的密度、標(biāo)點(diǎn)符號的密度、助動(dòng)詞的密度等特征。通常,集外詞(Out of Vocabulary,OOV)的出現(xiàn)通常會(huì)使句子結(jié)構(gòu)更加復(fù)雜。而且,像主謂不一致這樣的問題也很容易被識(shí)別,該方法會(huì)融入一些基于詞匯層面的特征,例如集外詞的數(shù)量、根結(jié)點(diǎn)的孩子節(jié)點(diǎn)類型等。另外,我們將句子內(nèi)的情感一致性作為特征進(jìn)行評分,由于一個(gè)合理的句子應(yīng)該在不同的詞語之間具有一致的情感強(qiáng)度。示例插圖(圖3)所示為一個(gè)解析樹的例子。該方法只使用目標(biāo)側(cè)語言充分利用解析樹表示句法結(jié)構(gòu)特征,人工設(shè)計(jì)平衡性、密度、樹的分支節(jié)點(diǎn)比例等多種特征,但是未考慮句子流暢性等特征,且人工設(shè)計(jì)特征復(fù)雜繁瑣,對不同的語言不具有普適性。

示意圖,模型,示意圖,源語言


BERT+Bi-GRU模型示意圖


本文編號:3455257

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3455257.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶df372***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com