綜合寫作測試的效度驗證：提示特征的影響研究

發(fā)布時間：2018-02-09 12:17

本文關鍵詞： 綜合寫作任務提示考生評分員評估使用論證　出處：《浙江大學》2016年博士論文　論文類型：學位論文

【摘要】：從語言測試與評估的發(fā)展階段來看,當前語言測試的研究重點已從分離測試轉(zhuǎn)向行為測試(GrabeKaplan 1996;Hamp-Lyons 2001),綜合寫作任務則是行為測試的一個典范。較之傳統(tǒng)的獨立寫作任務,綜合寫作任務提供了有意義的語言背景(LeeAnderson 2007),即寫作提示,其形式一般為聽力提示、閱讀提示或兩者兼有,因而更具真實性(Cumming et al.2000)和公平性(Weigle 2004),能夠真實有效地測量考生的寫作能力,即綜合寫作任務更符合現(xiàn)實生活中的聽、讀、寫相結合的寫作任務,且綜合寫作中提供了均等的背景信息以供考生參考。針對此類背景提示,國內(nèi)外許多研究就其固有特征展開,如從提示特征對綜合寫作測試得分影響的角度進行探討(如 Lee 2004;LeeAnderson 2007;Wiseman 2012),但未能取得共識;亦有從提示特征對綜合寫作文本的影響角度進行探討(如Cumming et al.2005;Kormos 2011;PlakansGebril2012),但較囿于表層文本特征。然而,因提示特征并非其本身固有的屬性,尤其是試題難度,需參考參加考試的不同考生的能力(Bachman 2002),可引入考生視角以明確提示的認知維度特征,但相關研究較少且結果迥異(如 PowersFowles 1998;Cho,RijmenNovak 2013)。此外,評分員對寫作測試效度的作用也不容小覷,寫作的評分效度往往受評分員的認知與態(tài)度差異影響,也受寫作評分培訓影響(Hamp-Lyons 1991),許多研究圍繞評分員的評分行為進行探討(如 Milanovic,SavilleShenl996;Weiglel999;Cumming et al.2002;Lumley 2006;Baker 2010;Knoch 2011;Lim 2011;WinkeLim 2015;Zhang 2016),但并未涉及綜合寫作中評分員對提示特征的認知差異。綜上,提示特征不僅涉及其本身固有的特征,還涉及考生與評分員的認知維度特征。然而,已有的國內(nèi)外研究尚未涵括三個維度的提示特征及其對綜合寫作測試的影響;對國內(nèi)新興的綜合寫作測試而言,有關提示特征的研究則幾乎是空白。因此,本研究希望涵括這三個維度的提示特征,考查提示特征對綜合寫作測試的影響,以提高綜合寫作測試的效度。結合文獻回顧與中國語言測試實踐,本研究針對新近推出的"外研社杯"全國英語寫作大賽的議論文綜合寫作任務展開研究,對該寫作任務進行效度驗證,將提示特征定義為三個維度(提示固有特征維度、考生認知維度、評分員認知維度),旨在考查不同維度的提示特征對考生寫作表現(xiàn)和評分員評分決策的影響。其中提示固有特征維度指提示本身所固有的特征,包括話題域、任務說明等;考生認知維度指基于考生認知的提示特征,包括考生所認知的提示難易度、熟悉度、趣味度、表達欲、有用性等;評分員認知維度指基于評分員認知的提示特征,包括評分員所認知的提示難易度、熟悉度、趣味度、有用性等,以及評分員在此認知下的評分關注點。鑒于此,本研究旨在回答以下三個層面的問題:1)提示固有特征對綜合寫作表現(xiàn)的影響研究,即提示固有特征是否會對綜合寫作任務的文本特征產(chǎn)生影響?若存在影響,不同提示下的文本特征差異體現(xiàn)在哪些方面?2)基于考生認知的提示特征對綜合寫作表現(xiàn)的影響研究,即基于考生認知的提示特征是否會對其寫作表現(xiàn)產(chǎn)生影響?若存在影響,具體是哪些考生認知的提示特征,影響程度如何?3)基于評分員認知的提示特征對綜合寫作評分的影響研究,即基于評分員認知的提示特征是否會對其評分產(chǎn)生影響?若存在影響,具體是怎樣的影響?本研究的效度驗證框架采用BachmanPalmer(2010)的"評估使用論證"(Assessment Use Argument,簡稱 AUA)框架和 Toulmin(1958/2003)的論證框架,所要論證的是AUA框架中考生表現(xiàn)與評估記錄/分數(shù)的評價過程以及基于評估記錄所作出的有關考生語言能力的解釋,具體為提示因素與考生綜合寫作表現(xiàn)及評分信度的關系,主要涉及AUA框架中評估記錄/分數(shù)的一致性(consistency)和語言能力解釋富有意義(meaningfulness),旨在系統(tǒng)地驗證綜合寫作任務的測試效度。本研究根據(jù)三個不同層面的研究問題進行數(shù)據(jù)收集,所用實驗數(shù)據(jù)來自2013年和2014年"外研社杯"全國大學生英語寫作大賽省級復賽的議論文綜合寫作任務的實考作文與得分,以及2014年實考后考生與評分員的即時問卷調(diào)查。參賽考生為全國各高校的在校本科生,專業(yè)不限;評分員為英語寫作教學經(jīng)驗豐富的中外籍英語教師。根據(jù)不同研究問題采用不同的數(shù)據(jù)收集與分析處理方法。針對第一個研究問題,所用數(shù)據(jù)來自2013年和2014年"外研社杯"全國大學生英語寫作大賽省級復賽的議論文綜合寫作任務的實考作文與得分,數(shù)據(jù)覆蓋20多個省、市、自治區(qū)(其中2013年為26個,2014年為29個),涉及8個提示,共1354篇作文�？紤]到語料中的拼寫錯誤等因素,所用評分為大賽的人工評閱平均分,每篇文章均有2-3位具有豐富閱卷經(jīng)驗的中外籍評委進行分項評分,最終取其綜合后的平均分,以保證評分信度。同時依據(jù)專家判斷和方差分析,提取提示固有特征,將其分為話題域(包括社會、教育、商業(yè)和個人話題)和任務說明(包括顯性和隱性對立觀點說明);并用最新的自然語言處理工具Coh-Metrix 3.0,提取108項表層和深層的量化文本特征指標。因此,本研究分析的數(shù)據(jù)包括考生在綜合寫作任務中的平均得分、提示固有特征和各文本特征指標,數(shù)據(jù)分析工具為SPSS 18.0。對提示固有特征下寫作得分與文本特征的回歸分析顯示,不同提示固有特征會不同程度地影響考生的綜合寫作任務表現(xiàn),具體如下:第一,不同話題域的寫作提示使文本顯現(xiàn)出不同的文本特征影響因素。在各文本特征中,詞數(shù)是共有的文本特征,這是保證議論文充分論證的基礎。其他不同的文本特征表明不同話題下作文文本中的語言表達有所不同:社會話題提示下的文本顯現(xiàn)了實詞熟悉度、詞匯最小編輯距離和連詞使用頻率等文本特征;教育話題提示下的文本顯現(xiàn)了實詞習得順序、動詞重疊率、LSA(潛伏語義分析)段落間語義承襲性、詞匯多樣性和時間連接詞使用頻率等文本特征;商業(yè)話題提示下的文本顯現(xiàn)了實詞句間重疊率、實詞熟悉度和介詞短語密度等文本特征;個人話題提示下的文本則顯現(xiàn)了詞匯多樣性和句間詞干重疊率等文本特征。第二,不同任務說明導致考生在寫作中采用不同的論證模式。不同任務說明的提示特征下,各文本具有兩項相似的文本特征,即詞數(shù)和詞匯多樣性,兩者是影響議論文的觀點得到多角度充分論證的主要因素。雖然前者在評分細則中并未明確涉及,但這表明詞數(shù)是議論文充分論證的基礎,而詞匯多樣性又是多方面、多角度論證的必然結果。就不同的文本特征而言,顯性對立觀點的提示中,實詞習得順序和LSA段落間語義承襲性具有重要影響;而隱性對立觀點的提示中,文本敘述性、動詞重疊率和實詞句間重疊率具有突出影響。以上文本差異主要源于提示的任務說明差異,即顯性對立觀點的提示引導考生在議論文寫作中從單一角度或多角度進行觀點論證,而隱性對立觀點的提示則引導考生在議論文寫作中運用事例敘述和觀點進行論證。在效度驗證方面,定量分析結果表明不同提示影響下所顯現(xiàn)的不同文本特征反映了考生的英語寫作能力,符合綜合寫作測試的構念效度。具體而言,該研究問題聚焦于"評估使用論證"框架中有關語言能力解釋應該富有意義,即議論文綜合寫作測試所測量的構念是考生的語言能力。主要的理據(jù)是在提示固有特征的影響下,影響考生寫作得分的文本特征均包括在所測構念的范圍之內(nèi),提示固有特征的影響并非"構念無關因素",不構成反駁。針對第二個研究問題,所用數(shù)據(jù)來自2014年"外研社杯"全國大學生英語寫作大賽省級復賽的議論文綜合寫作任務的實考得分和考生的考后即時問卷。如前所述,本研究將綜合寫作任務的人工評閱平均分作為考生的綜合寫作表現(xiàn);因省級復賽要求考生在規(guī)定時間內(nèi)同時完成一篇議論文綜合寫作和一篇說明文寫作,兩者具有共時性,因此在本研究中將考生在說明文寫作上的人工評閱平均分作為考生的英語語言能力。此外,考生問卷采用李克特五級量表,要求考生判斷各提示特征描述與自己實際情況的符合程度,旨在探知考生認知的綜合寫作提示特征,如考生所認知的提示難易度、熟悉度、趣味度、表達欲、有用性等,共10個問題。問題設計參考已有的考生訪談和問卷調(diào)查(如 PolioGlew 1996;PowersFowles 1998;Cho,RijmenNovak 2013;Li 2014),并根據(jù)本研究實際進行改編,再經(jīng)專家評判和小范圍試測后進行修正,在此基礎上確定最終問卷版本。來自13個省、市、自治區(qū)的371名高�？忌峁┝擞行柧�,分屬3個提示。因此,本研究分析的數(shù)據(jù)包括考生的綜合寫作表現(xiàn)、考生的英語語言能力和考生認知的提示特征。因數(shù)據(jù)具有層次結構的特點,即考生嵌套于地區(qū),而不同地區(qū)采用不同提示,本研究采用多層線性模型(multilevel linear modeling,簡稱MLM)以檢驗多個層次間的相互關系。在MLM分析結果的基礎上,采用結構方程模型(structural equation modeling,簡稱SEM)更清晰準確地驗證了各層次間的相互關系。數(shù)據(jù)分析工具為SPSS 18.0和AMOS 20.0。通過MLM和SEM模擬考生語言能力、考生認知的提示特征與考生綜合寫作表現(xiàn)之間的關系,發(fā)現(xiàn)英語語言能力是影響考生綜合寫作表現(xiàn)的主要因素,而考生所認知的提示特征對其綜合寫作表現(xiàn)的影響則較為復雜微妙,具體簡述如下。多層線性模型分析顯示:1)不同地區(qū)采用不同提示的情況下,考生的綜合寫作得分并無顯著差異;2)考生認知的各個提示特征和綜合寫作得分及各個分項得分(內(nèi)容、結構、語言)之間不存在顯著關系。如上兩項發(fā)現(xiàn)表明提示的地區(qū)差異可忽略不計,可將提示視為一個統(tǒng)一概念(即概化為統(tǒng)一的提示及其考生認知的提示特征)。采用探索性因子分析提取出3個考生所認知的提示特征的高階特征因子,即提示知識(Prompt Knowledge)、提示難度(Prompt Difficulty)、提示認同(Prompt Identification)。進一步的多層線性模型分析結果表明:1)英語語言能力是影響考生綜合寫作得分的主要因素;2)考生認知的提示知識對綜合寫作得分具有顯著影響。結構方程模型分析顯示:在反復驗證與修正基礎上確立的最終模型擬合指數(shù)較好(χ2(41)=80.594,SRMR=0.470,RMSEA=.051,CFI=.973,TLI=.963)。該模型清晰地模擬了考生認知的提示特征與綜合寫作表現(xiàn)之間的影響關系,具體如下:考生認知的提示知識有助于提升其綜合寫作表現(xiàn),而考生認知的提示難度阻礙其綜合寫作水平的發(fā)揮;提示知識雖有顯著正面影響,但力度偏弱(β=.22,p.05),而提示難度的負面影響則力度更弱,幾乎不顯著(β=-.15,p.05),兩者之間存在良性互動關系(β=.48),即考生認知的提示知識會中和其認知的提示難度的負面影響,并最終直接影響其綜合寫作表現(xiàn)。在效度驗證方面,定量分析結果表明考生認知的提示特征對其綜合寫作表現(xiàn)的影響相對復雜微妙,而英語語言能力是決定考生綜合寫作表現(xiàn)的關鍵因素,符合綜合寫作測試的構念效度。具體而言,該研究問題主要觀察"評估使用論證"框架中有關語言能力解釋富有意義這一主張,即綜合寫作測試的構念是測量考生的語言能力。主要的理據(jù)是綜合寫作任務讓考生展現(xiàn)了其英語語言能力,測試結果可以用來推斷考生的語言能力。主要的反駁是考生認知的提示知識屬于"構念無關因素",但因其影響微弱,對構念效度影響較小,說明反駁不成立。針對第三個研究問題,所用數(shù)據(jù)來自2014年"外研社杯"全國大學生英語寫作大賽省級復賽的議論文綜合寫作任務的實考評分和評分員的即時問卷。評分員的問卷設計與考生問卷相類似,參考以往研究(Hamp-LyonsMathias 1994;ffeigle 1999;Wiseman 2012;Trace,JanssenMeier 2015),并結合專家判斷和小規(guī)模試測,確定最終的問卷版本。該問卷采用李克特五級量表,要求評分員提供他們對各提示特征的態(tài)度或觀點,旨在探知評分員認知的綜合寫作提示特征,如評分員所認知的提示難易度、熟悉度、趣味度、有用性等,共6個問題;另附上評分員對評分關注點的評價或看法,涉及內(nèi)容、結構、語言、提示使用(source use)等四個方面,共19個問題,目的在于佐證評分員的評分表現(xiàn)。來自10個省、市、自治區(qū)的30名評分員提供了有效問卷。同時使用多層面Rasch模型(multi-faceted Rasch measurement,簡稱MFRM)分析這30名評分員在綜合寫作評分中的實際評分表現(xiàn),涉及評分員嚴厲度、評分難易度、評分員與考生偏差交互。數(shù)據(jù)分析工具為SPSS 18.0和 FACETS 3.71.3。通過多層面Rasch模型測量評分員的評分表現(xiàn),結合系其認知的提示特征,發(fā)現(xiàn)評分員認知的提示特征會不同程度地影響其評分表現(xiàn),具體如下:第一,評分員對提示特征的不同認知會影響其評分嚴厲度。依據(jù)MFRM的評分員嚴厲度分析,將評分員分為寬松和嚴厲兩個等級,采用二元邏輯回歸分析,探索影響評分員嚴厲度的提示認知因素,結果發(fā)現(xiàn)兩者關系雖不具有統(tǒng)計學意義上的顯著性,但存在一定的趨向性。具體表現(xiàn)在:1)評分員認為提示越難或?qū)μ崾驹礁信d趣,評分越寬松,反之亦然;2)評分員認為提示越熟悉或越清晰或越有用,評分就越嚴厲,反之亦然。第二,評分員對提示難度的不同認知會影響其對內(nèi)容標準評判的嚴厲度。根據(jù)MFRM統(tǒng)計的評分難易度,結合評分員對評分關注點和提示特征的認知調(diào)查,定性探討兩兩之間的可能聯(lián)系。首先,MFRM的分析結果表明評分員在實際評分操作中對評分標準評判的難易度由難/嚴到易/松的順序依次是內(nèi)容、結構、語言。其次,對評分員的認知調(diào)查表明評分員對評分標準重要性評判的排序依次是內(nèi)容、結構、語言、提示使用;與MFRM的分析結果相呼應,說明評分員在評分標準的評判上受一定認知影響,即評分員認為某評分標準越重要,評分越嚴厲,反之亦然。基于如上分析,結合評分員認知的提示特征,推斷評分員認為提示越難,對內(nèi)容標準的評判越嚴厲,反之亦然。第三,評分員對提示特征的認知使得評分員對不同水平考生的評判出現(xiàn)偏差。MFRM的評分員與考生的交互分析顯示,評分員在評判不同能力值的考生時呈現(xiàn)出顯著的偏差交互模式:1)評分員對高水平考生的評分出現(xiàn)偏差比例高于對低水平考生的評分;2)嚴厲的評分員比寬松的評分員出現(xiàn)更多偏差;3)嚴厲的評分員對高水平及較高水平考生評分偏嚴,寬松的評分員對低水平及較低水平考生評分偏松;4)在對較高水平和較低水平考生進行評分時,嚴厲的評分員比寬松的評分員出現(xiàn)更多偏差。以上偏差模式可能與評分員對提示特征的認知有關�；谏鲜鎏崾菊J知與評分松嚴度的趨向性關系,引入評分期望作為中介變量以合理解釋其中聯(lián)系,即評分員認為提示越容易,對考生期望越高,則評分越嚴厲,更易低估考生水平;反之,評分員認為提示越難,對考生期望越低,則評分越寬松,更易高估考生水平。在提示認知影響下,嚴厲的評分員對高水平及較高水平的考生期望偏高,更易給出較低的評分;而寬松的評分員對低水平及較低水平的考生期望偏低,更易給出較高的評分,而總體上因為寫作大賽省級復賽中以高水平考生為多,且評分員中偏嚴厲人員(18)多于偏寬松人員(12),嚴厲的評分員比寬松的評分員有更多偏差,尤其是對高水平的考生群體。在效度驗證方面,如上分析表明評分員認知的提示特征對其評分決策的影響較為微潛,其認知-偏差關系屬于趨向性影響,并不具有統(tǒng)計學上的顯著性,因此符合綜合寫作測試的評分效度。具體而言,該研究問題主要涉及"評估使用論證"框架中評估分數(shù)的一致性,即綜合寫作測試的評分不受評分員認知的提示特征影響,具有較高信度。主要的理據(jù)是評分員認知的提示特征的影響力較為微弱,幾乎不影響其評分決策,這說明從評分員認知的提示特征角度來看,評分員的評分具有一致性。綜上所述,本研究考查了不同維度的提示特征對考生的綜合寫作表現(xiàn)和評分員評分決策的影響,涉及提示固有特征維度、提示的考生認知維度和評分員認知維度,填補了國內(nèi)外綜合寫作測試領域的研究不足,其研究發(fā)現(xiàn)在理論、方法和實踐上均具有一定的啟示意義。從理論層面而言,本研究首次運用"評估使用論證"框架對大規(guī)模賽事中綜合寫作任務進行較為系統(tǒng)的效度驗證,從評分與分數(shù)解釋環(huán)節(jié)入手,論證了評分與基于測試分數(shù)的解釋具有一致性并富有意義,有利于推動基于論據(jù)的效度驗證模型在語言測試領域的廣泛應用。從研究方法而言,本研究采用不同定量研究方法并結合定性探討來分析研究結果,為全方位了解提示特征與考生寫作表現(xiàn)及評分員評分決策的關系提供了充分的實證依據(jù),也為大規(guī)模語言測試的效度驗證提供了方法參考。此外,本研究對綜合寫作測試的任務設計、教學、評分和自動評分具有一定的啟示:第一,通過將提示影響具體化,明確了不同提示特征對寫作表現(xiàn)和評分決策的影響,有利于試題設計人員在編寫試題時規(guī)避考試偏頗,盡可能地弱化提示影響,也為評分標準的制定提供新的參考。第二,通過揭示提示特征與文本特征之間的關系、考生認知的提示特征與其寫作表現(xiàn)之間的關系,有望為教師選材與教學提供新的啟示,但并非趨利避害,而是因材施教,旨在有效地提高考生的寫作水平。第三,通過評分員層面、評分量表層面及其交互作用來評估評分員表現(xiàn),發(fā)現(xiàn)評分員認知的提示特征與其評分偏頗之間的聯(lián)系,有利于加強評分員培訓,避免評分偏頗。第四,基于提示固有特征與文本顯現(xiàn)的聯(lián)系、考生/評分員與提示的認知互動,有望為不同維度提示特征下的評分模型提供新的啟示;現(xiàn)有自動評分研究主要以寫作文本特征為參數(shù)(如 Attali 2007;Knoch 2009;Sawaki,QuinlanLee 2013),而鮮有對不同提示固有特征下的文本特征、考生與評分員的認知加以考查,從而忽視了這三者在綜合寫作任務結果解讀中的交互作用。然而,本研究仍有一定的局限性,具體表現(xiàn)在以下六個方面:第一,本研究所用的考生樣本與綜合寫作任務均具有一定的局限性,其中考生總體偏好,為全國各高校選拔參加省賽的選手;綜合寫作任務則局限于議論文文體,其提示固有特征僅涉及話題域和任務說明兩個類別,也限于實考數(shù)據(jù)(即省級復賽中各省自主開展寫作大賽)未能涉及各個寫作任務的提示難度,從而使得結果的概推性受到影響。第二,本研究未將拼寫錯誤納入文本特征,原因是Coh-Metrix軟件只能識別拼寫正確的單詞,未來研究可包括拼寫錯誤以更全面地探討文本特征。第三,本研究未涉及綜合寫作中的提示使用問題,而提示使用是綜合寫作測試中必不可少的一部分,未來研究可探討考生對提示的理解與使用。第四,本研究中評分員認知的提示特征受條件限制,僅涉及30名評分員,未來研究可考慮增加樣本數(shù)量,或許會有更進一步的發(fā)現(xiàn)。第五,本研究主要采用定量方法對大樣本進行分析,未采用定性方法,未來研究可采用多種定性方法對考生的寫作過程和評分員的評分過程進行分析,從而更好地探討提示特征的影響。第六,本研究利用多層面Rasch模型分析評分員差異,評分員認知的提示特征可在一定程度上解釋該差異,有必要對其他導致差異的原因進行探索,以期對改進評分員培訓方法和提高評分信度提供實證證據(jù)與有效反饋。
[Abstract]:......
【學位授予單位】：浙江大學
【學位級別】：博士
【學位授予年份】：2016
【分類號】：H319.3
，

本文編號：1497911

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/rwkxbs/1497911.html

上一篇：不同運動鍛煉方式老年人的視空間工作記憶的特征
下一篇：美國堪薩斯大學孔子學院遠程互動式教學模式研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

綜合寫作測試的效度驗證：提示特征的影響研究