天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

中文文本的詞語糾錯方法研究

發(fā)布時間:2021-05-23 21:39
  當(dāng)今世界,中國經(jīng)濟蓬勃發(fā)展、國際競爭力不斷提高,漢語的語言魅力吸引了越來越多的外國學(xué)習(xí)者進行學(xué)習(xí),本文針對外國學(xué)習(xí)者學(xué)習(xí)漢語這一主題展開中文文本糾錯的探究。中文文本的詞語糾錯方法研究是確保學(xué)習(xí)者在學(xué)習(xí)和交流時準確性的重要探究,是預(yù)估文本中錯誤存在與否并選取正確糾錯字的關(guān)鍵技術(shù)手段,是中文自然語言處理研究領(lǐng)域中的重要課題。本文旨在輔助學(xué)習(xí)者糾正其在學(xué)習(xí)過程中產(chǎn)生的錯誤,同時也為減輕漢語教師的輔導(dǎo)壓力。中文文本糾錯研究從利于模型構(gòu)建的角度出發(fā),將糾錯任務(wù)分成兩大類:中文拼寫糾錯和中文語法糾錯,分別構(gòu)建模型進行糾錯。在經(jīng)由一系列詳實的調(diào)查,概括了文本拼寫問題的形成因素和類別,在N-gram語言模型基礎(chǔ)上采用基于字的N元切分文本并統(tǒng)計其概率,引入混淆集和動態(tài)規(guī)劃提高模型糾錯效率,并使用平滑技術(shù)應(yīng)對數(shù)據(jù)稀疏問題,提出了結(jié)合中文分詞、二元模型和三元模型的算法,構(gòu)建了基于N-gram的中文拼寫糾錯組合模型。針對中文語法糾錯,本文將語法問題分為四大類:用詞冗余、缺少詞語、用詞錯誤、詞序錯誤。針對傳統(tǒng)的基于統(tǒng)計的N元語言模型無法應(yīng)對鄰接詞未登錄以及長距離語法錯誤的問題,本文采用神經(jīng)語言模型雙向長短期記憶... 

【文章來源】:江西財經(jīng)大學(xué)江西省

【文章頁數(shù)】:63 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 課題背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀分析
        1.2.1 英文糾錯研究現(xiàn)狀
        1.2.2 中文糾錯研究現(xiàn)狀
    1.3 本文主要工作及研究框架
        1.3.1 主要工作
        1.3.2 研究框架
2 相關(guān)原理闡述與技術(shù)介紹
    2.1 中文文本錯誤分類
    2.2 中文分詞
    2.3 語言模型
        2.3.1 語言模型分類
        2.3.2 數(shù)據(jù)平滑
    2.4 序列標注
        2.4.1 詞向量化
        2.4.2 CRF模型在序列標注中的應(yīng)用
    2.5 本章小結(jié)
3 基于N-gram的中文拼寫糾錯組合模型設(shè)計
    3.1 問題描述
    3.2 N-gram模型概述
    3.3 N值的選定
    3.4 基于N-gram的拼寫糾錯組合模型設(shè)計
        3.4.1 模型建立
        3.4.2 數(shù)據(jù)平滑
        3.4.3 動態(tài)規(guī)劃
        3.4.4 定義得分函數(shù)
    3.5 基于N-gram的組合模型構(gòu)建
    3.6 實驗與分析
        3.6.1 實驗環(huán)境
        3.6.2 實驗數(shù)據(jù)集
        3.6.3 評測標準
        3.6.4 實驗結(jié)果與分析
        3.6.5 實驗錯誤分析
    3.7 本章小結(jié)
4 基于BiLSTM-CRF的中文語法糾錯模型設(shè)計
    4.1 問題描述
    4.2 BiLSTM-CRF模型介紹
    4.3 基于BiLSTM-CRF的模型設(shè)計
        4.3.1 嵌入層
        4.3.2 BiLSTM中間層
        4.3.3 CRF層
        4.3.4 BiLSTM-CRF模型構(gòu)建
    4.4 實驗與分析
        4.4.1 實驗環(huán)境
        4.4.2 實驗數(shù)據(jù)集
        4.4.3 數(shù)據(jù)預(yù)處理
        4.4.4 錯誤類型與評估
        4.4.5 實驗結(jié)果與分析
    4.5 本章小結(jié)
5 全文總結(jié)與研究展望
    5.1 全文總結(jié)
    5.2 展望
參考文獻
攻讀碩士學(xué)位期間的主要研究成果
致謝


【參考文獻】:
期刊論文
[1]基于CRF和BI-LSTM的命名實體識別方法[J]. 柏兵,侯霞,石松.  北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[2]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的測井曲線生成方法[J]. 張東曉,陳云天,孟晉.  石油勘探與開發(fā). 2018(04)
[3]基于序列標注算法比較的醫(yī)學(xué)文獻風(fēng)險事件抽取研究[J]. 喻鑫,張矩,邱武松,王飛.  計算機應(yīng)用與軟件. 2017(12)
[4]基于深度學(xué)習(xí)的智能中文文本檢校方法[J]. 任柏青.  現(xiàn)代電信科技. 2017(04)
[5]基于局部上下文特征的組合的中文真詞錯誤自動校對研究[J]. 劉亮亮,曹存根.  計算機科學(xué). 2016(12)
[6]基于相關(guān)性及語義的n-grams特征加權(quán)算法[J]. 邱云飛,劉世興,林明明,邵良杉.  模式識別與人工智能. 2015(11)
[7]基于N-gram的哈薩克語文本校對系統(tǒng)的設(shè)計與實現(xiàn)[J]. 瑪依來·哈帕爾,古麗拉·阿東別克.  計算機應(yīng)用與軟件. 2012(04)
[8]人工神經(jīng)網(wǎng)絡(luò)的基本模型[J]. 沈榮.  中國科技信息. 2012(08)
[9]中文分詞技術(shù)的研究現(xiàn)狀與困難[J]. 孫鐵利,劉延吉.  信息技術(shù). 2009(07)
[10]基于N-gram統(tǒng)計模型的搜索引擎中文糾錯[J]. 陳智鵬,呂玉琴,劉華生,劉剛,屠輝.  中國電子科學(xué)研究院學(xué)報. 2009(03)

碩士論文
[1]中文拼寫檢錯和糾錯算法的優(yōu)化及實現(xiàn)[D]. 張松磊.華中科技大學(xué) 2019
[2]結(jié)合N-gram模型與句法分析的語法糾錯[D]. 沈濤.東南大學(xué) 2017
[3]搜索引擎糾錯算法研究與糾錯Bad Case挖掘[D]. 孫善祿.大連理工大學(xué) 2013
[4]問答系統(tǒng)中文輸入糾錯技術(shù)研究[D]. 秦英.山東大學(xué) 2012
[5]基于統(tǒng)計的搜索引擎中文輸入糾錯技術(shù)研究[D]. 陳智鵬.北京郵電大學(xué) 2010



本文編號:3203017

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3203017.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8042f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com