基于多維度特征與隨機森林的對外漢語文本可讀性評估
發(fā)布時間:2021-09-17 04:15
隨著漢語國際推廣事業(yè)的蓬勃發(fā)展,將漢語作為第二語言學習的人數(shù)與日俱增,對外漢語基礎研究事業(yè)隨之興起,對外漢語文本可讀性評估就是其中一個重要且不可或缺的研究方向?勺x性指文本易于閱讀的程度或性質,為第二語言學習者提供可讀性與其語言掌握水平相匹配的閱讀文本十分重要:難度過高的閱讀文本會使其困頓不前從而受到打擊,難度較低的閱讀文本則會讓學習者很快失去閱讀興趣并且不能使其學習到新的語言知識從而提高閱讀水平。然而人工評估對外漢語文本可讀性無論是對教師還是對學習者而言都費時費力且常常帶有很強的主觀性。本文針對此問題展開研究,主要貢獻如下:(1)綜述了國內外相關研究的發(fā)展、現(xiàn)狀及研究成果:首先總結了國外可讀性研究的三個階段,分別是可讀性公式、基于認知理論的可讀性研究和基于機器學習的可讀性分析。接著綜述了對外漢語文本可讀性研究的兩個階段:前期的基于傳統(tǒng)文本特征的可讀性公式,以及現(xiàn)階段的基于機器學習的文本可讀性評估。(2)提出了一種“基于多維度特征與隨機森林的對外漢語文本可讀性評估”(以下簡稱:Multi-D RF-CFLE)方法:隨機森林是一種以決策樹為基學習器的集成學習算法,因結構簡單、泛化能力強在...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
圖1.1可讀性、第二語言可讀性、對外漢語可讀性關系圖??發(fā)展閱讀能力是學習語言的重要組成部分閱讀文本對發(fā)展閱讀能力的重要??
于分析句子語法結構。簡單地說,語法樹就是依照某一規(guī)則進行推導后生成的樹狀??圖,樹狀圖的層級指的是將語法分析的結果轉換為樹狀圖后樹的層次結構,以此類??推[681,語法分析樹的結構層次如圖3.2所示。接下來我們根據(jù)語法樹的分析結果提??取了語法特征12個,如表3.5所示。??k?‘?-?n?>??ROOT?^??I??IP??????—??????NP?VP??一—???????MP?NP?PP?VP??I?!????— ̄????NR?NN?P?NP?MSP?VP??I?I?I?一一^??I?I??炅林S茺祥柙?;?CP?NP?Pfi?W???—^?I?I??IP?DEC?NN??I?I?I??vp?tn?脅圩??ADVP?VP??AD?W?DER?VP??
C值過小且訓練數(shù)據(jù)信息也過小,就失去了建模的意義I71]。高斯核SVM受核參數(shù)gamma的影響。綜上,懲罰系數(shù)C和核函數(shù)參數(shù)gamma是影響器性能的關鍵參數(shù),所以文中調參就以C、gamma為對象。??下面先介紹參數(shù)選擇過程中常用到的兩種方法:??(1)網(wǎng)格搜索法(Grid?Search):?SVM參數(shù)選擇的常用方法,即將待調數(shù)在一定區(qū)間內按照一定的步長策略劃分成網(wǎng)格,網(wǎng)格搜索法通網(wǎng)格中所有的點來尋找最優(yōu)參數(shù),是一種窮舉搜索機制。在尋優(yōu)區(qū)夠大且步長足夠小的情況下網(wǎng)格搜索法可以找出全局最優(yōu)解[7G]。??(2)?k折交叉驗證(k-foldCross-Validation):使用網(wǎng)格搜索法進行參數(shù)尋將各個網(wǎng)格點對應參數(shù)值輸入SVM分類器進行訓練,每次訓練完需要進行性能評估,我們不能使用測試集,只能使用訓練集數(shù)據(jù)。的性能評估方法有留出法、自助法和k折交叉驗證法,其中k折交證法可以從有限的數(shù)據(jù)中盡可能獲取多的有效信息,且當k取值合計算開銷也是可以承受的。k折交叉驗證使用的抽樣為無重復抽樣即每次迭代過程中每個樣本點只有一次被劃入訓練集或測試集的以5折交叉驗證為例,k折交叉驗證的流程如圖3.3所示:??Training?set??
本文編號:3397943
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
圖1.1可讀性、第二語言可讀性、對外漢語可讀性關系圖??發(fā)展閱讀能力是學習語言的重要組成部分閱讀文本對發(fā)展閱讀能力的重要??
于分析句子語法結構。簡單地說,語法樹就是依照某一規(guī)則進行推導后生成的樹狀??圖,樹狀圖的層級指的是將語法分析的結果轉換為樹狀圖后樹的層次結構,以此類??推[681,語法分析樹的結構層次如圖3.2所示。接下來我們根據(jù)語法樹的分析結果提??取了語法特征12個,如表3.5所示。??k?‘?-?n?>??ROOT?^??I??IP??????—??????NP?VP??一—???????MP?NP?PP?VP??I?!????— ̄????NR?NN?P?NP?MSP?VP??I?I?I?一一^??I?I??炅林S茺祥柙?;?CP?NP?Pfi?W???—^?I?I??IP?DEC?NN??I?I?I??vp?tn?脅圩??ADVP?VP??AD?W?DER?VP??
C值過小且訓練數(shù)據(jù)信息也過小,就失去了建模的意義I71]。高斯核SVM受核參數(shù)gamma的影響。綜上,懲罰系數(shù)C和核函數(shù)參數(shù)gamma是影響器性能的關鍵參數(shù),所以文中調參就以C、gamma為對象。??下面先介紹參數(shù)選擇過程中常用到的兩種方法:??(1)網(wǎng)格搜索法(Grid?Search):?SVM參數(shù)選擇的常用方法,即將待調數(shù)在一定區(qū)間內按照一定的步長策略劃分成網(wǎng)格,網(wǎng)格搜索法通網(wǎng)格中所有的點來尋找最優(yōu)參數(shù),是一種窮舉搜索機制。在尋優(yōu)區(qū)夠大且步長足夠小的情況下網(wǎng)格搜索法可以找出全局最優(yōu)解[7G]。??(2)?k折交叉驗證(k-foldCross-Validation):使用網(wǎng)格搜索法進行參數(shù)尋將各個網(wǎng)格點對應參數(shù)值輸入SVM分類器進行訓練,每次訓練完需要進行性能評估,我們不能使用測試集,只能使用訓練集數(shù)據(jù)。的性能評估方法有留出法、自助法和k折交叉驗證法,其中k折交證法可以從有限的數(shù)據(jù)中盡可能獲取多的有效信息,且當k取值合計算開銷也是可以承受的。k折交叉驗證使用的抽樣為無重復抽樣即每次迭代過程中每個樣本點只有一次被劃入訓練集或測試集的以5折交叉驗證為例,k折交叉驗證的流程如圖3.3所示:??Training?set??
本文編號:3397943
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3397943.html
最近更新
教材專著