基于N-gram語法檢查系統(tǒng)的改進和實現(xiàn)
發(fā)布時間:2017-04-20 12:02
本文關鍵詞:基于N-gram語法檢查系統(tǒng)的改進和實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:英語作文體現(xiàn)了英語的書寫能力,是英語能力中的重要一部分,在作文的學習過程中,需要進行大量的寫作練習,而產(chǎn)生的大量練習作文同英語老師數(shù)量相對較少形成了矛盾,很多練習作文由于無法得到及時的批閱而使得英語學習效果減弱。為此利用計算機輔助進行作文批閱顯得非常必要。語法檢查是作文批閱中的重要部分,在此之前,王全斌就基于N元語法的語法檢查系統(tǒng)做了如下工作:對N元語法模型的調研,對系統(tǒng)的實現(xiàn)流程和基礎算法的設計、對語料庫的訓練和對系統(tǒng)的實現(xiàn)以及對語法檢查效果的驗證,該系統(tǒng)只是實現(xiàn)了單詞的二元語法檢查,而且檢查算法較為簡單。本文的目標是在已有的基礎上對基于N元語法的語法檢查系統(tǒng)進行改進。 為了能夠進一步提高N元語法檢查系統(tǒng)的檢查效果,本文對N元語法模型和語法檢查的算法做了進一步的研究,并在原系統(tǒng)的基礎上從以下三個方面對原系統(tǒng)進行了改進:1.在訓練階段添加了對詞性標注的N元語法訓練;2.對訓練后的數(shù)據(jù)進行了平滑處理;3.優(yōu)化了語法檢查算法,添加了對單詞的三元語法以及詞性標注的二元至五元語法的檢查,并優(yōu)化了判錯機制。本文的工作主要是對訓練系統(tǒng)和檢查系統(tǒng)兩大模塊進行改進和實現(xiàn)。其中訓練系統(tǒng)的改進和實現(xiàn)包括了語料庫的選擇、訓練算法的改進和實現(xiàn)、數(shù)據(jù)庫的表和字段的重新設計、核心類的改進和實現(xiàn)。檢查系統(tǒng)的改進和實現(xiàn)包括了核心算法的改進和實現(xiàn)、核心類的改進和實現(xiàn)。 在系統(tǒng)實現(xiàn)之后,本文以CLEC語料庫為基礎對系統(tǒng)的準確率和召回率進行了驗證,實驗的結果表明系統(tǒng)的準確度提高了2%,而系統(tǒng)的召回率提高了10%。較之前的系統(tǒng)整體效果提升明顯。
【關鍵詞】:英語 語法檢查 N元語法
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:H319;G434
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-15
- 1.1 問題提出9-10
- 1.2 國內外研究現(xiàn)狀10-12
- 1.3 本文主要工作和章節(jié)結構12-15
- 1.3.1 本文研究問題及主要工作12-13
- 1.3.2 本文章節(jié)結構13-15
- 第二章 相關理論和技術分析15-33
- 2.1 語料處理理論技術15-24
- 2.1.1 英文分詞15-16
- 2.1.2 詞性標注技術16-18
- 2.1.3 語料庫18-19
- 2.1.4 平滑算法19-22
- 2.1.5 句法分析22-24
- 2.2 語法檢查基本理論技術24-30
- 2.2.1 馬爾科夫模型24-25
- 2.2.2 N元語法模型25-27
- 2.2.3 語法檢查基本算法27-30
- 2.3 本章小結30-33
- 第三章 系統(tǒng)改進的設計與實現(xiàn)33-57
- 3.1 語法檢查系統(tǒng)概述33-34
- 3.2 訓練模塊改進與實現(xiàn)34-48
- 3.2.1 訓練模塊流程34-35
- 3.2.2 數(shù)據(jù)庫的設計35-39
- 3.2.3 核心類的改進與實現(xiàn)39-42
- 3.2.4 訓練模塊中的核心算法改進42-45
- 3.2.5 改進后的訓練過程的實現(xiàn)45-48
- 3.2.6 訓練結果48
- 3.3 語法檢查模塊的改進與實現(xiàn)48-54
- 3.3.1 改進的語法檢查模塊的基本流程48-49
- 3.3.2 核心類的改進與實現(xiàn)49-50
- 3.3.3 檢查模塊中的核心算法設計50-53
- 3.3.4 改進的語法檢查過程的實現(xiàn)53-54
- 3.4 本章小結54-57
- 第四章 系統(tǒng)的效果和驗證57-61
- 4.1 語法檢查效果的評測標準57-58
- 4.2 系統(tǒng)檢查效果驗證58-59
- 4.3 實驗結果分析59-60
- 4.4 本章小結60-61
- 第五章 總結和展望61-65
- 5.1 結論和總結61-62
- 5.2 后續(xù)的工作展望62-63
- 5.3 本章小結63-65
- 參考文獻65-67
- 致謝67-69
- 在讀期間發(fā)表的學術論文與取得的其他研究成果69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 謝坤武;;基于實例的語法檢查研究[J];湖北民族學院學報(自然科學版);2009年01期
2 呂威;林文昶;姚正安;李磊;;基于String Kernel和KPCA的負實例語法特征提取算法[J];計算機工程與應用;2009年20期
3 吳應中;朱華勇;李杰;;基于n元語法模型的領域語音指令識別[J];微計算機信息;2009年14期
4 吳夙慧;成穎;鄭彥寧;潘云濤;;基于N元語法的英文學術文獻聚類標簽抽取算法[J];現(xiàn)代圖書情報技術;2011年Z1期
本文關鍵詞:基于N-gram語法檢查系統(tǒng)的改進和實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:318607
本文鏈接:http://sikaile.net/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/318607.html