基于文本特征提取的漢語L2作文電子評分系統(tǒng)初探
發(fā)布時間:2018-04-09 04:02
本文選題:電子評分 切入點:漢語L2作文 出處:《南京大學》2013年碩士論文
【摘要】:二語習得方面的很多研究都指出大規(guī)模的寫作測試是必然要與高科技相結合的.這是不可避免的潮流和趨勢。國際上,許多作文電子評分系統(tǒng)已經被開發(fā)出來并商業(yè)運作了很多年。但在中國,漢語作文的電子評分系統(tǒng)這一領域還很少有人涉足。由于中英文有著非常大的差異,直接借用外國的作文電子評分系統(tǒng)是不現(xiàn)實的。全世界學習漢語的人越來越多,參加漢語水平考試HSK的人也越來越多。如果在足夠多的數(shù)據(jù)基礎上研發(fā)出一個漢語作文電子評分系統(tǒng),就可以大大減輕閱卷老師的負擔,也可通過避免人工評分的評分員效應來提高作文分數(shù)的有效性和可靠性,還可以應用于網上的自助學習。這個研究的主要目的是提取和發(fā)掘出更多的能有效測量漢語作文水平的文本特征變量,以構建一個能為大規(guī)模漢語作文考試進行電子評分的統(tǒng)計模型。構建這樣一個模型,不僅需要豐富的相關理論知識和概念模型,也需要強大的技術支持貫穿模型的始終。由于時間、資源和專業(yè)知識的限制,本研究并不構建一個能測量作文各方面水平的完整模型,只是給出一個完整的概念模型,主要研究概念模型中的其中一個模塊——作文語言質量方面的統(tǒng)計模型。更詳細地說,是盡量挖掘能反映漢語L2作文的語言質量的文本特征變量,并驗證其預測能力。本文的第二章主要回顧了二語習得以及作文評分方面的國內外文獻并簡單介紹了國外四個有代表性且已廣泛應用于大型考試的電子評分系統(tǒng):Project Essay Grade (PEG), Intelligent Essay Assessor (IEA), Electronic Essay Rater (E-rater)和IntelliMetric。文章主要從三方面對這些研究進行概述和整理,分別是:語言質量、內容質量和結構質量。在語言流利性方面,經國外實驗證明比較有效的指標主要有:文章長度、文章長度的四次方根、不重復字數(shù)和句子數(shù);在文章準確性方面主要指標是介詞數(shù)和冠詞數(shù)。文章復雜性又可分為詞匯復雜性和語法復雜性。前者的主要指標有:類符一形符比、長詞個數(shù)、詞頻分布、常用詞個數(shù)與不常用詞個數(shù)、常用詞個數(shù)與不常用詞個數(shù)之比、單詞長度的平均值、單詞長度的標準差和名詞化個數(shù);后者的主要指標有:平均句長、長句百分比和短句百分比、從句個數(shù)、簡單句百分比、可讀性指數(shù)和T單位。奇異值分解(SVD)相似度指標可用來測量話題相關度,即測量內容質量;段落數(shù)、代詞數(shù)和連詞數(shù)常用來測試結構質量。國內學者曹亦薇和楊晨(2007)是第一個使用潛在語義分析技術對漢語作文進行電子評分研究的學者。李亞男以中國少數(shù)民族漢語水平考試三級作文為研究樣本,研究了漢語作為第二語言測試的作文電子評分要提取哪些客觀性指標,得到了8個回歸方程并進行了比較。張晉軍、任杰也用這樣的文本做過漢語電子評分系統(tǒng)的研究,得到一個有5個變量的回歸方程。第三章主要討論了構建漢語L2電子評分系統(tǒng)時所需要使用的理論和技術。經過討論,筆者認為漢語電子評分系統(tǒng)的模型建構可以學習E-rater的框架,框架中的語言分析模塊可以學習PEG的語言質量分析方法和技術;而內容分析模塊作為E_rater的弱點,需要向IEA學習,使用潛在語義分析技術,同時結合自然語言處理技術兼顧語言質量評分。待中國的人工智能發(fā)展到比較高的水平時,也可以借鑒IntelliMetric的分析技術。在選取文本特征方面,則可以借鑒英語作文評分研究中的某些可適用于漢語的文本特征指標,如T單位、總字數(shù)的四次方根等,并增加一些漢語特有的文本特征指標。第四章的第一部分主要從語言質量的流利性、準確性、復雜性和多樣性,以及內容質量、結構質量幾個方面討論了在本研究中采用和提取的各項文本指標,建議提取和使用128個文本特征指標,并創(chuàng)新性地提出了一些新的文本特征指標。第四章的第二部分是實證研究部分的數(shù)據(jù)處理和分析。在閱讀了大量國內外相關文獻以及研究分析已有的幾大國外的作文電子評分系統(tǒng)的基礎上,嘗試提取了128個文本特征,進行多元線性回歸分析。分析時運用了兩種多元回歸的變量選取方法:“順向選擇法”和“逐步法”。最后得到兩個具有較高的有效性且擬合度較好的多元線性回歸方程和11個能夠有效預測漢語作文質量的文本特征項。在文章的最后,作者總結了本文的創(chuàng)新之處,并提出了今后中國漢語電子評分系統(tǒng)研究方向的一些建議。雖然本文還存在很多不足,但就其創(chuàng)新性而言,仍然是一個對漢語電子評分的研究有啟發(fā)和借鑒意義的探索性研究。
[Abstract]:......
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:H195
【參考文獻】
相關期刊論文 前1條
1 桂詩春;潛伏語義分析的理論及其應用[J];現(xiàn)代外語;2003年01期
相關碩士學位論文 前1條
1 趙亮;作為第二語言的漢語寫作能力測驗方式的實驗研究[D];北京語言大學;2004年
,本文編號:1724740
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/1724740.html