基于機(jī)器學(xué)習(xí)的漢語(yǔ)作文語(yǔ)法錯(cuò)誤檢測(cè)方法研究及其應(yīng)用
發(fā)布時(shí)間:2021-09-15 14:55
漢語(yǔ)作為一種重要的交際工具逐步被世界各國(guó)人民所認(rèn)可,在學(xué)習(xí)漢語(yǔ)的過(guò)程中,寫(xiě)作被許多研究者認(rèn)為是評(píng)價(jià)語(yǔ)言學(xué)習(xí)者學(xué)習(xí)效果最有效的工具之一,但人工批改漢語(yǔ)作文需要大量的人力,且需要耗費(fèi)較長(zhǎng)時(shí)間,不能給語(yǔ)言學(xué)習(xí)者及時(shí)有效的反饋和分析。而且,漢語(yǔ)本身的復(fù)雜性也給人工批改增加了難度。本文旨在構(gòu)建能夠檢測(cè)出漢語(yǔ)語(yǔ)法錯(cuò)誤的機(jī)器學(xué)習(xí)算法模型,并將所訓(xùn)練出的模型應(yīng)用于漢語(yǔ)作文語(yǔ)法檢測(cè)系統(tǒng)中,以節(jié)約大量人工批閱作文的時(shí)間和人力成本,將教師從繁重而重復(fù)的評(píng)價(jià)活動(dòng)中解放,與此同時(shí)使學(xué)習(xí)者能較快地得到及時(shí)客觀的反饋,清晰地了解到自己在漢語(yǔ)學(xué)習(xí)中易犯的語(yǔ)法錯(cuò)誤,對(duì)漢語(yǔ)學(xué)習(xí)者的自主學(xué)習(xí)起到了一定輔助作用。本文以理論和實(shí)踐相結(jié)合,探索基于機(jī)器學(xué)習(xí)的漢語(yǔ)語(yǔ)法檢測(cè)方法及其應(yīng)用。具體工作包括(1)通過(guò)對(duì)文獻(xiàn)進(jìn)行定性數(shù)據(jù)分析,揭示近年來(lái)教育領(lǐng)域中不同機(jī)器學(xué)習(xí)模型的使用頻次和變化趨勢(shì)。(2)通過(guò)國(guó)內(nèi)外研究綜述,對(duì)語(yǔ)法檢測(cè)的常用策略進(jìn)行了歸納分類(lèi)。(3)構(gòu)建了條件隨機(jī)場(chǎng)模型、LSTM-CRF模型和多任務(wù)學(xué)習(xí)模型這三個(gè)不同的機(jī)器學(xué)習(xí)算法模型進(jìn)行漢語(yǔ)語(yǔ)法檢測(cè),并對(duì)三個(gè)模型進(jìn)行評(píng)估分析,選出了效果最優(yōu)的模型。(4)設(shè)計(jì)并開(kāi)發(fā)了漢語(yǔ)作文語(yǔ)...
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NVivo編碼表
華東師范大學(xué)碩士學(xué)位論文4圖1-1NVivo編碼表使用上述編碼系統(tǒng)對(duì)這三年NLPTEA的所有的文章統(tǒng)一進(jìn)行分析后,生成了如圖1-2所示的層次圖,從圖中我們可以清晰地發(fā)現(xiàn),從主節(jié)點(diǎn)來(lái)看,機(jī)器學(xué)習(xí)方法的比例遠(yuǎn)高于基于統(tǒng)計(jì)的方法和基于規(guī)則的方法。在分析子節(jié)點(diǎn)后可以發(fā)現(xiàn)在機(jī)器學(xué)習(xí)的方法中,基于神經(jīng)網(wǎng)絡(luò)的算法模型占比明顯高于其他方法,且能捕捉更多上下文信息的LSTM(LongShortTimeMemory)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理的教育應(yīng)用中得到最廣泛的使用。圖1-2NVivo各結(jié)點(diǎn)層次圖
華東師范大學(xué)碩士學(xué)位論文81.漢語(yǔ)語(yǔ)法檢測(cè)系統(tǒng)或工具目前對(duì)于漢語(yǔ)的語(yǔ)法檢測(cè)基本還停留在研究階段,阿里巴巴、百度等科技公司都在此任務(wù)上進(jìn)行了研究嘗試,其中百度提供了開(kāi)放API接口,但暫時(shí)并無(wú)可視化界面供學(xué)習(xí)者體驗(yàn)。還有一些研究者自行開(kāi)發(fā)的開(kāi)源項(xiàng)目,如pycorrector、Cn_Speck_Checker、Chinese“spelling”errorcorrection等,大多也沒(méi)有可視化界面,返回值均為代碼,且實(shí)際使用效果也不佳,對(duì)于沒(méi)有技術(shù)基礎(chǔ)的學(xué)習(xí)者來(lái)說(shuō)很難使用。從現(xiàn)有的系統(tǒng)分析來(lái)看,漢語(yǔ)語(yǔ)法檢測(cè)系統(tǒng)確實(shí)有一定的難度,且還處于起步階段。本節(jié)選取了百度文本糾錯(cuò)和中文糾錯(cuò)開(kāi)源項(xiàng)目Pycorrector為例進(jìn)行了具體分析。(1)百度文本糾錯(cuò)(僅提供開(kāi)放API接口,無(wú)可視化界面)百度的文本糾錯(cuò)屬于百度AI開(kāi)放平臺(tái)自然語(yǔ)言處理應(yīng)用API接口中的一個(gè)一個(gè),暫無(wú)可視化界面。該接口可以識(shí)別輸入文本中有錯(cuò)誤的片段,提示錯(cuò)誤并給出正確的文本結(jié)果。支持短文本、長(zhǎng)文本、語(yǔ)音等內(nèi)容的錯(cuò)誤識(shí)別。接口返回示例如所示。返回的參數(shù)包括語(yǔ)法錯(cuò)誤的開(kāi)始和結(jié)束位置、錯(cuò)誤的詞、替換的詞、原句和替換的句子,還有模型置信度的打分,但并沒(méi)有對(duì)語(yǔ)法錯(cuò)誤進(jìn)行分類(lèi)。這類(lèi)接口僅適合開(kāi)發(fā)人員或研究者使用,不適用于普通學(xué)習(xí)者。圖1-3百度文本糾錯(cuò)接口返回示例(2)中文糾錯(cuò)開(kāi)源項(xiàng)目PycorrectorPycorrector是一個(gè)開(kāi)源項(xiàng)目,同時(shí)配有簡(jiǎn)單的可視化文本糾錯(cuò)體驗(yàn)區(qū),支持用戶在輸入框內(nèi)輸入長(zhǎng)文本。但返回結(jié)果依舊是代碼形式,如所示,返回的內(nèi)容
【參考文獻(xiàn)】:
期刊論文
[1]基于自動(dòng)作文評(píng)分系統(tǒng)的數(shù)字化寫(xiě)作平臺(tái)的構(gòu)建及應(yīng)用效果探究[J]. 宋毅寧. 英語(yǔ)廣場(chǎng). 2019(10)
[2]漢語(yǔ)作文自動(dòng)評(píng)價(jià)及其關(guān)鍵技術(shù)——來(lái)自作文自動(dòng)評(píng)價(jià)(AEE)的經(jīng)驗(yàn)[J]. 吳恩慈,田俊華. 教育測(cè)量與評(píng)價(jià). 2019(08)
[3]基于CRF和BI-LSTM的命名實(shí)體識(shí)別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[4]人工智能教育應(yīng)用的新發(fā)展[J]. 馮翔,王亞飛,吳永和. 現(xiàn)代教育技術(shù). 2018(12)
[5]深度學(xué)習(xí)研究綜述[J]. 張榮,李偉平,莫同. 信息與控制. 2018(04)
[6]基于深度學(xué)習(xí)的代碼分析研究綜述[J]. 張峰逸,彭鑫,陳馳,趙文耘. 計(jì)算機(jī)應(yīng)用與軟件. 2018(06)
[7]人工智能教育應(yīng)用的現(xiàn)狀分析、典型特征與發(fā)展趨勢(shì)[J]. 梁迎麗,劉陳. 中國(guó)電化教育. 2018(03)
[8]構(gòu)筑“人工智能+教育”的生態(tài)系統(tǒng)[J]. 吳永和,劉博文,馬曉玲. 遠(yuǎn)程教育雜志. 2017(05)
[9]面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周?chē)?guó)棟. 自動(dòng)化學(xué)報(bào). 2016(10)
[10]基于語(yǔ)料庫(kù)的英語(yǔ)專(zhuān)業(yè)高年級(jí)學(xué)生口語(yǔ)詞塊結(jié)構(gòu)特征研究[J]. 胡元江. 外語(yǔ)研究. 2015(05)
碩士論文
[1]作文自動(dòng)評(píng)價(jià)系統(tǒng)在高中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用研究[D]. 鄒思琦.江蘇大學(xué) 2019
[2]Bi-LSTM-CRF模型在中文語(yǔ)法錯(cuò)誤診斷中的應(yīng)用研究[D]. 劉升.華中師范大學(xué) 2019
[3]面向問(wèn)答的中文語(yǔ)法錯(cuò)誤自動(dòng)檢測(cè)方法研究[D]. 韓文穎.哈爾濱工業(yè)大學(xué) 2015
[4]基于實(shí)例語(yǔ)境的語(yǔ)音識(shí)別后文本檢錯(cuò)與糾錯(cuò)研究[D]. 龍麗霞.北京郵電大學(xué) 2010
[5]漢語(yǔ)作為第二語(yǔ)言測(cè)試的作文自動(dòng)評(píng)分研究[D]. 李亞男.北京語(yǔ)言大學(xué) 2006
本文編號(hào):3396284
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NVivo編碼表
華東師范大學(xué)碩士學(xué)位論文4圖1-1NVivo編碼表使用上述編碼系統(tǒng)對(duì)這三年NLPTEA的所有的文章統(tǒng)一進(jìn)行分析后,生成了如圖1-2所示的層次圖,從圖中我們可以清晰地發(fā)現(xiàn),從主節(jié)點(diǎn)來(lái)看,機(jī)器學(xué)習(xí)方法的比例遠(yuǎn)高于基于統(tǒng)計(jì)的方法和基于規(guī)則的方法。在分析子節(jié)點(diǎn)后可以發(fā)現(xiàn)在機(jī)器學(xué)習(xí)的方法中,基于神經(jīng)網(wǎng)絡(luò)的算法模型占比明顯高于其他方法,且能捕捉更多上下文信息的LSTM(LongShortTimeMemory)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理的教育應(yīng)用中得到最廣泛的使用。圖1-2NVivo各結(jié)點(diǎn)層次圖
華東師范大學(xué)碩士學(xué)位論文81.漢語(yǔ)語(yǔ)法檢測(cè)系統(tǒng)或工具目前對(duì)于漢語(yǔ)的語(yǔ)法檢測(cè)基本還停留在研究階段,阿里巴巴、百度等科技公司都在此任務(wù)上進(jìn)行了研究嘗試,其中百度提供了開(kāi)放API接口,但暫時(shí)并無(wú)可視化界面供學(xué)習(xí)者體驗(yàn)。還有一些研究者自行開(kāi)發(fā)的開(kāi)源項(xiàng)目,如pycorrector、Cn_Speck_Checker、Chinese“spelling”errorcorrection等,大多也沒(méi)有可視化界面,返回值均為代碼,且實(shí)際使用效果也不佳,對(duì)于沒(méi)有技術(shù)基礎(chǔ)的學(xué)習(xí)者來(lái)說(shuō)很難使用。從現(xiàn)有的系統(tǒng)分析來(lái)看,漢語(yǔ)語(yǔ)法檢測(cè)系統(tǒng)確實(shí)有一定的難度,且還處于起步階段。本節(jié)選取了百度文本糾錯(cuò)和中文糾錯(cuò)開(kāi)源項(xiàng)目Pycorrector為例進(jìn)行了具體分析。(1)百度文本糾錯(cuò)(僅提供開(kāi)放API接口,無(wú)可視化界面)百度的文本糾錯(cuò)屬于百度AI開(kāi)放平臺(tái)自然語(yǔ)言處理應(yīng)用API接口中的一個(gè)一個(gè),暫無(wú)可視化界面。該接口可以識(shí)別輸入文本中有錯(cuò)誤的片段,提示錯(cuò)誤并給出正確的文本結(jié)果。支持短文本、長(zhǎng)文本、語(yǔ)音等內(nèi)容的錯(cuò)誤識(shí)別。接口返回示例如所示。返回的參數(shù)包括語(yǔ)法錯(cuò)誤的開(kāi)始和結(jié)束位置、錯(cuò)誤的詞、替換的詞、原句和替換的句子,還有模型置信度的打分,但并沒(méi)有對(duì)語(yǔ)法錯(cuò)誤進(jìn)行分類(lèi)。這類(lèi)接口僅適合開(kāi)發(fā)人員或研究者使用,不適用于普通學(xué)習(xí)者。圖1-3百度文本糾錯(cuò)接口返回示例(2)中文糾錯(cuò)開(kāi)源項(xiàng)目PycorrectorPycorrector是一個(gè)開(kāi)源項(xiàng)目,同時(shí)配有簡(jiǎn)單的可視化文本糾錯(cuò)體驗(yàn)區(qū),支持用戶在輸入框內(nèi)輸入長(zhǎng)文本。但返回結(jié)果依舊是代碼形式,如所示,返回的內(nèi)容
【參考文獻(xiàn)】:
期刊論文
[1]基于自動(dòng)作文評(píng)分系統(tǒng)的數(shù)字化寫(xiě)作平臺(tái)的構(gòu)建及應(yīng)用效果探究[J]. 宋毅寧. 英語(yǔ)廣場(chǎng). 2019(10)
[2]漢語(yǔ)作文自動(dòng)評(píng)價(jià)及其關(guān)鍵技術(shù)——來(lái)自作文自動(dòng)評(píng)價(jià)(AEE)的經(jīng)驗(yàn)[J]. 吳恩慈,田俊華. 教育測(cè)量與評(píng)價(jià). 2019(08)
[3]基于CRF和BI-LSTM的命名實(shí)體識(shí)別方法[J]. 柏兵,侯霞,石松. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[4]人工智能教育應(yīng)用的新發(fā)展[J]. 馮翔,王亞飛,吳永和. 現(xiàn)代教育技術(shù). 2018(12)
[5]深度學(xué)習(xí)研究綜述[J]. 張榮,李偉平,莫同. 信息與控制. 2018(04)
[6]基于深度學(xué)習(xí)的代碼分析研究綜述[J]. 張峰逸,彭鑫,陳馳,趙文耘. 計(jì)算機(jī)應(yīng)用與軟件. 2018(06)
[7]人工智能教育應(yīng)用的現(xiàn)狀分析、典型特征與發(fā)展趨勢(shì)[J]. 梁迎麗,劉陳. 中國(guó)電化教育. 2018(03)
[8]構(gòu)筑“人工智能+教育”的生態(tài)系統(tǒng)[J]. 吳永和,劉博文,馬曉玲. 遠(yuǎn)程教育雜志. 2017(05)
[9]面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周?chē)?guó)棟. 自動(dòng)化學(xué)報(bào). 2016(10)
[10]基于語(yǔ)料庫(kù)的英語(yǔ)專(zhuān)業(yè)高年級(jí)學(xué)生口語(yǔ)詞塊結(jié)構(gòu)特征研究[J]. 胡元江. 外語(yǔ)研究. 2015(05)
碩士論文
[1]作文自動(dòng)評(píng)價(jià)系統(tǒng)在高中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用研究[D]. 鄒思琦.江蘇大學(xué) 2019
[2]Bi-LSTM-CRF模型在中文語(yǔ)法錯(cuò)誤診斷中的應(yīng)用研究[D]. 劉升.華中師范大學(xué) 2019
[3]面向問(wèn)答的中文語(yǔ)法錯(cuò)誤自動(dòng)檢測(cè)方法研究[D]. 韓文穎.哈爾濱工業(yè)大學(xué) 2015
[4]基于實(shí)例語(yǔ)境的語(yǔ)音識(shí)別后文本檢錯(cuò)與糾錯(cuò)研究[D]. 龍麗霞.北京郵電大學(xué) 2010
[5]漢語(yǔ)作為第二語(yǔ)言測(cè)試的作文自動(dòng)評(píng)分研究[D]. 李亞男.北京語(yǔ)言大學(xué) 2006
本文編號(hào):3396284
本文鏈接:http://sikaile.net/jiaoyulunwen/ktjx/3396284.html
最近更新
教材專(zhuān)著