基于英漢平行語料庫的雙語詞對齊系統(tǒng)
發(fā)布時間:2021-11-23 03:53
統(tǒng)計機(jī)器翻譯的核心是雙語平行語料庫,需要對大量的平行語料庫進(jìn)行統(tǒng)計分析,從而構(gòu)建出翻譯模型。雙語詞對齊是統(tǒng)計機(jī)器翻譯系統(tǒng)中關(guān)鍵的一步,詞對齊的準(zhǔn)確率將直接影響翻譯系統(tǒng)的性能。此外,經(jīng)過標(biāo)注詞對齊信息的語料具有很大的應(yīng)用價值。它能為詞典編撰、跨語言信息檢索和語義消歧等自然語言處理任務(wù)提供重要的支撐。因此,如何獲取高質(zhì)量的雙語詞對齊信息具有很大的研究價值。現(xiàn)有的詞對齊方法往往通過統(tǒng)計信息進(jìn)行對齊,沒有充分考慮不同語言之間的語言特征。在訓(xùn)練過程中通常需要大量的標(biāo)注好的詞對齊數(shù)據(jù),而人工標(biāo)注的對齊數(shù)據(jù)又太少,不能滿足訓(xùn)練需求。傳統(tǒng)的詞對齊模型考慮的詞匯特征是稀疏的,從而導(dǎo)致語料中低頻詞的對齊效果較差。本文針對以上問題,采用深度學(xué)習(xí)的方法進(jìn)行詞對齊的研究,主要工作如下:(1)研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的詞對齊方法。該方法將傳統(tǒng)的隱馬爾可夫模型融入循環(huán)神經(jīng)網(wǎng)絡(luò)中,并且考慮句子的上下文信息,利用詞匯的相似性,將句子中的低頻詞用意思相近的常用詞代替,通過常用詞找到與目標(biāo)語言詞的對應(yīng)關(guān)系,從而得到低頻詞的詞對齊信息。模型采用無監(jiān)督的學(xué)習(xí)方式,省去了人工標(biāo)注詞對齊語料的成本。實驗結(jié)果表明,該方法改善了詞對齊的質(zhì)...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
詞對齊示例
圖 3.3 詞對齊實例將輸入的詞語映射為低維的詞向量,并且越相這些相似的詞語在向量空間中會聚集在一起,匯之間的相似度。標(biāo)語言的詞匯表中,加入三種特殊符號<s>、<開始、句子的結(jié)束和未登錄詞。為了找到與低頻驟如下:ord2vec 模型進(jìn)行預(yù)訓(xùn)練,得到詞向量表;雙語平行句對中的詞頻信息,將頻率低于 10 輸入的每個句對,先進(jìn)行判斷,如果句子中有記為<unk>,并通過 word2vec 訓(xùn)練好的詞向量
平行雙語句對
本文編號:3513071
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
詞對齊示例
圖 3.3 詞對齊實例將輸入的詞語映射為低維的詞向量,并且越相這些相似的詞語在向量空間中會聚集在一起,匯之間的相似度。標(biāo)語言的詞匯表中,加入三種特殊符號<s>、<開始、句子的結(jié)束和未登錄詞。為了找到與低頻驟如下:ord2vec 模型進(jìn)行預(yù)訓(xùn)練,得到詞向量表;雙語平行句對中的詞頻信息,將頻率低于 10 輸入的每個句對,先進(jìn)行判斷,如果句子中有記為<unk>,并通過 word2vec 訓(xùn)練好的詞向量
平行雙語句對
本文編號:3513071
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3513071.html
最近更新
教材專著