基于深度學習的中文語法錯誤診斷方法研究
發(fā)布時間:2021-07-06 12:49
隨著中國國際影響力的日益提高和漢語國際地位的提升,學習和使用漢語的國際學者越來越多。中文文本校對技術有助于各個領域處理所涉及到的文本錯誤,其中中文語法錯誤診斷是中文計算機輔助學習的研究熱點之一。鑒于此,根據(jù)中文語法錯誤診斷的特點,通過分析現(xiàn)有中文語法錯誤診斷方法存在的問題,提出一種基于注意機制的雙向長短期記憶網(wǎng)絡(BI-LASM-ATT)與條件隨機場(CRF)相結(jié)合的模型應用于中文語法錯誤診斷研究。該模型采用jieba分詞技術對數(shù)據(jù)進行分詞和詞性標注等預處理工作,利用Skip-gram模型得到詞向量表示,作為BI-LSTM-ATT模型的詞嵌入層,獲取到兩個方向上的長距離信息提供給CRF模型進行序列標注。在NLPCC2018的TASK2提供的數(shù)據(jù)集上的實驗結(jié)果表明,該模型對比傳統(tǒng)語法錯誤診斷模型,在中文語法錯誤診斷的Accuracy、精確率、召回率和Fmeature方面均有明顯提高。
【文章來源】:計算機技術與發(fā)展. 2020,30(11)
【文章頁數(shù)】:5 頁
【部分圖文】:
基于BI-LSTM-ATT與CRF的中文語法錯誤診斷研究框架
詞嵌入層的作用在于通過大量樣本訓練Word2vec輸入詞向量,提供給下一層使用。應用Skip-gram模型分別將輸入詞和POS標簽作為中心詞,預測出其上下文詞和上下文POS標簽為輸出詞。訓練前,將語料庫中的所有n個詞語進行獨熱編碼為w(i)∈Rn,同時對輸出也進行獨熱編碼。Skip-gram模型結(jié)構(gòu)如圖2所示。Skip-gram模型分為三層:第一層為輸入層(INPUT),w(i)為輸入語句的每個詞語,以此作為輸入詞;第二層為投影層(PROJECTION);第三層為輸出層(OUTPUT),窗口為c,假設c取5,得到目標單詞w(i)上下文中的5c個詞向量(w(i-5),…,w(i-1),w(i+1),…,w(i+5)),即輸入詞的鄰近詞的概率分布。同理,再將每個詞POS標簽p(i)作為輸入,得到其上下文POS標簽向量(p(i-5),…,p(i-1),p(i+1),…,p(i+5)),即輸入詞POS標簽的鄰近POS標簽的概率分布。
1997年,Hochreiter與Schmidhuber提出對遞歸神經(jīng)網(wǎng)絡(recurrent neural network,RNN)進行優(yōu)化,得到了長短期記憶網(wǎng)絡(long short term memory networks,LSTM)[14],解決了長序列學習的梯度消失問題[15]。近年來,很多學者在自然語言處理的研究應用中,針對具體問題,對LSTM模型進行各種形式的改進都取得了不錯的應用效果[16]。該文采用BI-LSTM-ATT模型,通過充分利用序列上下文中所有可能對標記有用的信息,即提取詞過去和未來的特征來提升標簽的準確度,如圖3所示。圖3所用的模型在傳統(tǒng)LSTM模型的基礎上增加了注意機制。向量xi表示一個句子中的每個詞語,使用雙向LSTM模型得到 h i =[ h → i , h ← i ] 的集合表示整個句子樣本的句子向量。模型中的注意機制計算出每個元素的概率權重αit,抽取對整句重要的詞向量構(gòu)成最終特征向量,相關計算公式如式(1)所示。
【參考文獻】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡的個性化學習行為評價方法[J]. 郎波,樊一娜. 計算機技術與發(fā)展. 2019(07)
[2]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計算機與數(shù)字工程. 2018(12)
[3]基于HMM和ANN混合模型的語音情感識別研究[J]. 林巧民,齊柱柱. 計算機技術與發(fā)展. 2018(10)
[4]《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012—2020年)》[J]. 語文建設. 2013(28)
碩士論文
[1]Bi-LSTM-CRF模型在中文語法錯誤診斷中的應用研究[D]. 劉升.華中師范大學 2019
[2]基于神經(jīng)網(wǎng)絡的中文語法糾錯關鍵技術研究[D]. 楊勁男.云南大學 2018
[3]面向問答的中文語法錯誤自動檢測方法研究[D]. 韓文穎.哈爾濱工業(yè)大學 2015
本文編號:3268274
【文章來源】:計算機技術與發(fā)展. 2020,30(11)
【文章頁數(shù)】:5 頁
【部分圖文】:
基于BI-LSTM-ATT與CRF的中文語法錯誤診斷研究框架
詞嵌入層的作用在于通過大量樣本訓練Word2vec輸入詞向量,提供給下一層使用。應用Skip-gram模型分別將輸入詞和POS標簽作為中心詞,預測出其上下文詞和上下文POS標簽為輸出詞。訓練前,將語料庫中的所有n個詞語進行獨熱編碼為w(i)∈Rn,同時對輸出也進行獨熱編碼。Skip-gram模型結(jié)構(gòu)如圖2所示。Skip-gram模型分為三層:第一層為輸入層(INPUT),w(i)為輸入語句的每個詞語,以此作為輸入詞;第二層為投影層(PROJECTION);第三層為輸出層(OUTPUT),窗口為c,假設c取5,得到目標單詞w(i)上下文中的5c個詞向量(w(i-5),…,w(i-1),w(i+1),…,w(i+5)),即輸入詞的鄰近詞的概率分布。同理,再將每個詞POS標簽p(i)作為輸入,得到其上下文POS標簽向量(p(i-5),…,p(i-1),p(i+1),…,p(i+5)),即輸入詞POS標簽的鄰近POS標簽的概率分布。
1997年,Hochreiter與Schmidhuber提出對遞歸神經(jīng)網(wǎng)絡(recurrent neural network,RNN)進行優(yōu)化,得到了長短期記憶網(wǎng)絡(long short term memory networks,LSTM)[14],解決了長序列學習的梯度消失問題[15]。近年來,很多學者在自然語言處理的研究應用中,針對具體問題,對LSTM模型進行各種形式的改進都取得了不錯的應用效果[16]。該文采用BI-LSTM-ATT模型,通過充分利用序列上下文中所有可能對標記有用的信息,即提取詞過去和未來的特征來提升標簽的準確度,如圖3所示。圖3所用的模型在傳統(tǒng)LSTM模型的基礎上增加了注意機制。向量xi表示一個句子中的每個詞語,使用雙向LSTM模型得到 h i =[ h → i , h ← i ] 的集合表示整個句子樣本的句子向量。模型中的注意機制計算出每個元素的概率權重αit,抽取對整句重要的詞向量構(gòu)成最終特征向量,相關計算公式如式(1)所示。
【參考文獻】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡的個性化學習行為評價方法[J]. 郎波,樊一娜. 計算機技術與發(fā)展. 2019(07)
[2]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計算機與數(shù)字工程. 2018(12)
[3]基于HMM和ANN混合模型的語音情感識別研究[J]. 林巧民,齊柱柱. 計算機技術與發(fā)展. 2018(10)
[4]《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012—2020年)》[J]. 語文建設. 2013(28)
碩士論文
[1]Bi-LSTM-CRF模型在中文語法錯誤診斷中的應用研究[D]. 劉升.華中師范大學 2019
[2]基于神經(jīng)網(wǎng)絡的中文語法糾錯關鍵技術研究[D]. 楊勁男.云南大學 2018
[3]面向問答的中文語法錯誤自動檢測方法研究[D]. 韓文穎.哈爾濱工業(yè)大學 2015
本文編號:3268274
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3268274.html