基于神經(jīng)網(wǎng)絡的中文語法糾錯關鍵技術研究
發(fā)布時間:2021-11-14 13:32
現(xiàn)階段中文文本分類研究重點主要集中兩方面,一方面是文本情感分析,一方面是中文計算機輔助學習,其中中文計算機輔助學習的研究熱點主要是中文語法糾錯和中文錯別字訂正。但目前現(xiàn)有模型面臨泛化能力差,需要大量人工標注特征,本地詞語庫詞語較少,模型復雜等問題。所以設計可靠可用的中文輔助學習工具仍然是一項具有挑戰(zhàn)的工作。針對上述問題,本文基于門控遞歸單元與條件隨機場,研究整合字,詞,詞性在中文中的特點,分析句子成分,主要內(nèi)容包括以下兩個方面:(1)針對判定中文語法錯誤,本文提出了一種基于門控遞歸單元與條件隨機場的組合模型(GRUCRF),該模型使用字向量表示句子特征,通過GRU整合句子特征來分類語法錯誤,最終使用CRF判定錯誤發(fā)生的位置。解決了中文句子由于分詞導致歧義,文本特征不好擬合,以及單獨使用CRF模型需要大量人工標注特征的問題。對比實驗結果表明該模型優(yōu)于現(xiàn)有機器學習模型以及其他神經(jīng)網(wǎng)絡模型。(2)針對錯別字訂正,本文使用詞性標注句子,利用CRF模型擬合中文句子詞語搭配特征。解決了現(xiàn)有模型需要制定大量規(guī)則,泛化能力較差的問題,同時在實驗中引入網(wǎng)絡詞語庫,改進了本地詞語庫詞...
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
不同維度下CNN分類器與LSTM分類器在探測級中F1的變化曲線
本文編號:3494727
【文章來源】:云南大學云南省 211工程院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
不同維度下CNN分類器與LSTM分類器在探測級中F1的變化曲線
本文編號:3494727
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3494727.html
最近更新
教材專著