中文文本糾錯算法優(yōu)化研究
發(fā)布時間:2023-03-18 15:41
隨著計算機和互聯(lián)網(wǎng)的高速發(fā)展,在工作和生活中電子文檔的使用越來越頻繁,傳統(tǒng)的人工校對方式已經(jīng)無法滿足人們的需求。中文文本糾錯就是檢查中文文本是否存在錯誤并給予糾正,這種技術(shù)在現(xiàn)實生活中具有廣泛的實用價值,因而成為中文自然語言處理領(lǐng)域中的重要課題之一,研究成果已經(jīng)被廣泛運用于鍵盤輸入法,文檔編輯,搜索引擎以及語音識別等領(lǐng)域。在對國內(nèi)外糾錯研究做了深入調(diào)研之后,本文分別針對字詞錯誤和語義錯誤做了相關(guān)研究。在字詞糾錯方面,本文改進了傳統(tǒng)的序列標注算法,提出一種基于序列標注的CSC-Bi LSTM-CRF算法,該算法將糾錯任務分為查錯和糾正兩個部分。首先通過上下文詞向量對目標詞進行查錯,然后根據(jù)序列標注的輸出用混淆集對可疑字進行替換,最后通過概率統(tǒng)計選出最佳候選字。在語義糾錯方面,本文提出一種基于DAE-Decoder算法,該算法將糾錯任務分為編碼和解碼兩個部分,由基于Bert的預訓練,根據(jù)掩碼語言模型(MLM)來給輸入文本中的每個初始字符產(chǎn)生一組替換字符作為候選字,然后由解碼器根據(jù)字符相似度和語境合適度將正確的字符從多個候選字中篩選出來。在對CSC-Bi LSTM-CRF算法和DAE-Dec...
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外文本糾錯的研究現(xiàn)狀
1.2.2 國內(nèi)文本糾錯的研究現(xiàn)狀
1.3 本文主要研究內(nèi)容及組織框架
1.3.1 本文主要研究內(nèi)容
1.3.2 本文組織框架
1.4 本章小結(jié)
第2章 中文文本糾錯的相關(guān)技術(shù)理論基礎
2.1 詞法分析
2.1.1 分詞
2.1.2 詞向量化
2.2 長短時記憶循環(huán)神經(jīng)網(wǎng)絡
2.3 條件隨機場
2.4 去噪自編碼器
2.5 BERT模型
2.5.1 BERT原理簡述
2.5.2 Transformer
2.5.3 Masked Language Model
2.5.4 Next Sentence Prediction
2.5.5 BERT模型輸入
2.6 本章小結(jié)
第3章 數(shù)據(jù)集和混淆集的構(gòu)建
3.1 中文文本糾錯的定義與分類
3.1.1 中文文本糾錯的定義
3.1.2 中文文本糾錯的分類
3.2 數(shù)據(jù)集介紹
3.2.1 實驗數(shù)據(jù)集
3.2.2 混淆集
3.3 本章小結(jié)
第4章 針對錯誤類型的中文文本糾錯算法
4.1 研究難點及相關(guān)算法分析
4.1.1 研究難點
4.1.2 相關(guān)算法分析
4.2 基于CSC-BiLSTM-CRF模型的中文文本字詞糾錯
4.2.1 BiLSTM-CRF模型
4.2.2 CSC-BiLSTM-CRF模型文本糾錯
4.3 基于DAE-Decoder模型的中文文本語義糾錯
4.3.1 預訓練模型
4.3.2 fine-tuning文本糾錯
4.3.3 基于Masked Language Model模型的編碼器
4.3.4 基于語境合適度和字符的相似度的解碼器
4.4 本章小結(jié)
第5章 中文文本混合糾錯算法
5.1 評價標準與實驗
5.1.1 實驗評估指標
5.1.2 混淆集實驗分析
5.1.3 算法實驗分析
5.1.4 實驗錯誤類型分析
5.2 算法優(yōu)缺點分析
5.2.1 基于CSC-BiLSTM-CRF算法分析
5.2.2 基于DAE-Decoder算法分析
5.3 實驗改進文本糾錯混合模型的構(gòu)建
5.3.1 文本糾錯混合模型的構(gòu)建
5.3.2 混合算法實驗分析
5.4 綜合實驗評估
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 工作總結(jié)
6.2 未來展望
參考文獻
致謝
攻讀學位期間學術(shù)成果及參加科研情況
本文編號:3763406
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外文本糾錯的研究現(xiàn)狀
1.2.2 國內(nèi)文本糾錯的研究現(xiàn)狀
1.3 本文主要研究內(nèi)容及組織框架
1.3.1 本文主要研究內(nèi)容
1.3.2 本文組織框架
1.4 本章小結(jié)
第2章 中文文本糾錯的相關(guān)技術(shù)理論基礎
2.1 詞法分析
2.1.1 分詞
2.1.2 詞向量化
2.2 長短時記憶循環(huán)神經(jīng)網(wǎng)絡
2.3 條件隨機場
2.4 去噪自編碼器
2.5 BERT模型
2.5.1 BERT原理簡述
2.5.2 Transformer
2.5.3 Masked Language Model
2.5.4 Next Sentence Prediction
2.5.5 BERT模型輸入
2.6 本章小結(jié)
第3章 數(shù)據(jù)集和混淆集的構(gòu)建
3.1 中文文本糾錯的定義與分類
3.1.1 中文文本糾錯的定義
3.1.2 中文文本糾錯的分類
3.2 數(shù)據(jù)集介紹
3.2.1 實驗數(shù)據(jù)集
3.2.2 混淆集
3.3 本章小結(jié)
第4章 針對錯誤類型的中文文本糾錯算法
4.1 研究難點及相關(guān)算法分析
4.1.1 研究難點
4.1.2 相關(guān)算法分析
4.2 基于CSC-BiLSTM-CRF模型的中文文本字詞糾錯
4.2.1 BiLSTM-CRF模型
4.2.2 CSC-BiLSTM-CRF模型文本糾錯
4.3 基于DAE-Decoder模型的中文文本語義糾錯
4.3.1 預訓練模型
4.3.2 fine-tuning文本糾錯
4.3.3 基于Masked Language Model模型的編碼器
4.3.4 基于語境合適度和字符的相似度的解碼器
4.4 本章小結(jié)
第5章 中文文本混合糾錯算法
5.1 評價標準與實驗
5.1.1 實驗評估指標
5.1.2 混淆集實驗分析
5.1.3 算法實驗分析
5.1.4 實驗錯誤類型分析
5.2 算法優(yōu)缺點分析
5.2.1 基于CSC-BiLSTM-CRF算法分析
5.2.2 基于DAE-Decoder算法分析
5.3 實驗改進文本糾錯混合模型的構(gòu)建
5.3.1 文本糾錯混合模型的構(gòu)建
5.3.2 混合算法實驗分析
5.4 綜合實驗評估
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 工作總結(jié)
6.2 未來展望
參考文獻
致謝
攻讀學位期間學術(shù)成果及參加科研情況
本文編號:3763406
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3763406.html
最近更新
教材專著