基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對抽取方法
發(fā)布時間:2021-12-31 12:52
構(gòu)建雙語平行語料庫是提升低資源語言機器翻譯質(zhì)量的一種有效方法。該文提出了基于CNN-CorrNet網(wǎng)絡(luò)的漢緬平行句對抽取方法。具體而言,該文首先利用BERT得到漢語、緬語詞向量表征,并將漢語、緬語兩種語言句子用卷積神經(jīng)網(wǎng)絡(luò)進行句子表征,以捕捉句子重要特征信息;然后為了保證兩種語言跨語言表征的最大相關(guān)性,利用已有的漢緬平行句對作為約束條件,使用CorrNet(相關(guān)神經(jīng)網(wǎng)絡(luò))將漢緬的句子表征投影到公共語義空間;最后計算公共語義空間中漢語、緬語句子距離,并根據(jù)距離判斷漢—緬雙語句子是否為平行句子。實驗結(jié)果表明,相比最大熵模型、孿生網(wǎng)絡(luò)模型,該文提出的方法F1值分別提升了13.3%、5.1%。
【文章來源】:中文信息學(xué)報. 2020,34(11)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
基于CNN-CorrNet漢緬平行句對抽取方法框架圖
CorrNet的結(jié)構(gòu)
為了體現(xiàn)不同數(shù)量的平行語料對模型的影響,我們設(shè)計一組語料規(guī)模對比實驗,結(jié)果如圖3所示。從圖3中可以看出,在訓(xùn)練模型時,我們放入不同規(guī)模大小的平行語料,隨著漢緬雙語平行語料規(guī)模的增加,模型在相同測試集上的F1值持續(xù)上升。
【參考文獻】:
期刊論文
[1]基于局部和全局語義融合的跨語言句子語義相似度計算模型[J]. 李霞,劉承標(biāo),章友豪,蔣盛益. 中文信息學(xué)報. 2019(06)
[2]基于樞軸語言的平行語料構(gòu)建方法[J]. 單華,張玉潔,周雯,徐金安,陳鈺楓. 情報工程. 2017(03)
[3]二分圖頂點配對模型下的英漢句子對齊研究[J]. 嚴(yán)燦勛. 中文信息學(xué)報. 2016(05)
本文編號:3560291
【文章來源】:中文信息學(xué)報. 2020,34(11)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
基于CNN-CorrNet漢緬平行句對抽取方法框架圖
CorrNet的結(jié)構(gòu)
為了體現(xiàn)不同數(shù)量的平行語料對模型的影響,我們設(shè)計一組語料規(guī)模對比實驗,結(jié)果如圖3所示。從圖3中可以看出,在訓(xùn)練模型時,我們放入不同規(guī)模大小的平行語料,隨著漢緬雙語平行語料規(guī)模的增加,模型在相同測試集上的F1值持續(xù)上升。
【參考文獻】:
期刊論文
[1]基于局部和全局語義融合的跨語言句子語義相似度計算模型[J]. 李霞,劉承標(biāo),章友豪,蔣盛益. 中文信息學(xué)報. 2019(06)
[2]基于樞軸語言的平行語料構(gòu)建方法[J]. 單華,張玉潔,周雯,徐金安,陳鈺楓. 情報工程. 2017(03)
[3]二分圖頂點配對模型下的英漢句子對齊研究[J]. 嚴(yán)燦勛. 中文信息學(xué)報. 2016(05)
本文編號:3560291
本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3560291.html
最近更新
教材專著