基于神經(jīng)機器翻譯的中文文本糾錯研究

發(fā)布時間：2021-09-28 10:00

　　隨著中國經(jīng)濟的蓬勃發(fā)展,越來越多的外國人開始學習漢語,但是學習漢語對他們來說并不容易,因此檢測并糾正由CSL（Chinese as a Second Language）學習者撰寫的中文文章中的語法錯誤顯得越來越重要,有效的中文語法錯誤糾正（CGEC）系統(tǒng)可以為CSL學習者提供即時反饋,在學習過程中具有重要價值。主流的CGEC模型是基于神經(jīng)機器翻譯（NMT）的糾錯模型,但是并沒有針對CGEC的特點進行優(yōu)化。本文基于CGEC任務的特點,使用了不同的嵌入層參數(shù)初始化方式,并改進了NMT模型,在解碼器中使用多層target-attention計算方式。本文主要工作如下:1.提出不同的嵌入層參數(shù)初始化方式。在基于NMT的CGEC模型中,嵌入層參數(shù)通常使用預訓練的詞向量初始化。但是CSL學習者和母語使用者的語言習慣并不相同,并且預訓練詞向量通常是在大規(guī)模的中文語料上訓練得到的。因此本文提出不同的嵌入層參數(shù)初始化方式,編碼端使用隨機初始化,解碼端使用預訓練詞向量初始化。實驗結(jié)果表明,該初始化方式使模型的糾錯性能提升了1.48 F_0.5。2.在NMT模型的基礎上,提出多層targ...

【文章來源】：武漢大學湖北省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：69 頁

【學位級別】：碩士

【部分圖文】：

文本卷積操作結(jié)構示意圖

基于神經(jīng)機器翻譯的中文文本糾錯研究

seq2seq模型結(jié)構示意圖

基于神經(jīng)機器翻譯的中文文本糾錯研究

AttentionMechanism模塊示意圖

【參考文獻】：
期刊論文
[1]基于規(guī)則與統(tǒng)計相結(jié)合的中文文本自動查錯模型與算法[J]. 張仰森,曹元大,俞士汶. 中文信息學報. 2006(04)
[2]現(xiàn)代漢語熵的計算及語言模型中稀疏事件的概率估計[J]. 黃萱菁,吳立德,郭以昆,劉秉偉. 電子學報. 2000(08)

本文編號：3411695

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3411695.html

上一篇：基于UTXO模型的區(qū)塊鏈交易算法的研究與實現(xiàn)
下一篇：多功能分揀車系統(tǒng)設計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于神經(jīng)機器翻譯的中文文本糾錯研究