天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 教育論文 > 初中教育論文 >

基于決策樹(shù)的英語(yǔ)文本難度評(píng)估研究

發(fā)布時(shí)間:2020-03-25 16:09
【摘要】:提高英語(yǔ)學(xué)習(xí)最好的辦法是閱讀。隨著互聯(lián)網(wǎng)技術(shù)和教育信息化的快速發(fā)展,網(wǎng)上可供選擇的英語(yǔ)閱讀材料越來(lái)越多,但問(wèn)題是,海量的網(wǎng)絡(luò)閱讀材料容易讓學(xué)習(xí)者迷失在資源的選擇過(guò)濾中,無(wú)法準(zhǔn)確高效地獲取適合自己的閱讀資源。因此,如何為學(xué)習(xí)者提供即符合其能力水平又滿(mǎn)足其學(xué)習(xí)需求的個(gè)性化閱讀材料逐漸成為教育技術(shù)研究領(lǐng)域關(guān)注的重點(diǎn)。而要為學(xué)習(xí)者提供符合其能力水平的閱讀材料,首先要對(duì)閱讀材料的難度進(jìn)行評(píng)估。本文從影響英語(yǔ)閱讀材料難度的最主要因素文本因素出發(fā)展開(kāi)研究。關(guān)于文本難度(又稱(chēng)文本易讀性或可讀性)的研究已經(jīng)有近一百年的歷史了,但關(guān)于文本難度測(cè)量的方法卻并不多,從已有文獻(xiàn)中的研究成果來(lái)看,用于文本難度測(cè)量的主要方法有水平評(píng)估法,文本易讀性公式法和機(jī)器學(xué)習(xí)。水平評(píng)估法的主觀性太強(qiáng),公式法雖可以客觀量化文本可讀性,但測(cè)量變量少且缺少科學(xué)的推理建模過(guò)程。機(jī)器學(xué)習(xí)是一種比較科學(xué)的研究方法,但目前使用的較少,且沒(méi)有具體的研究成果。機(jī)器學(xué)習(xí)算法中,決策樹(shù)可以在相對(duì)比較短的時(shí)間內(nèi)對(duì)比較大型的數(shù)據(jù)集做出可行并且效果還不錯(cuò)的結(jié)果,而且易于理解和解釋。因此,本文試圖提出一種基于決策樹(shù)的文本難度評(píng)估方法,以期提高英語(yǔ)文本難度評(píng)估的準(zhǔn)確性和科學(xué)性。論文的主要工作內(nèi)容包括:首先,介紹了本文所使用的研究方法,主要包括文獻(xiàn)研究法,數(shù)理統(tǒng)計(jì)法和機(jī)器學(xué)習(xí)中的決策樹(shù)分類(lèi)法。并通過(guò)實(shí)驗(yàn)從26種可能影響文本難度的因素中選出了八個(gè)影響最大的因素來(lái)表征文本難度,作為決策樹(shù)訓(xùn)練數(shù)據(jù)集中的屬性。這八個(gè)影響因素分別是:篇幅/總詞數(shù),詞族,全國(guó)英語(yǔ)等級(jí)考試1級(jí)詞匯數(shù)量,最常用詞匯數(shù)量,全國(guó)英語(yǔ)等級(jí)考試2級(jí)詞匯數(shù)量,平均句子長(zhǎng)度,全國(guó)英語(yǔ)等級(jí)考試3級(jí)詞匯數(shù)量和從句數(shù)量。并將文本難度定義為Junior-middle(初中上),Junior-high(初中下),Senior-middle(高中上),Senior-high(高中下),College-1(大一)和 College-2(大二)6個(gè)等級(jí)。然后,選取人教版初的初中和高中教材,21世紀(jì)大學(xué)英語(yǔ)及新視野大學(xué)英語(yǔ)(第二版)這4套教材原文中的360篇課文文本作為訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)建決策樹(shù),并進(jìn)行決策樹(shù)的剪枝。最后,選取魯教版初中教材和新世紀(jì)版本的高中教材以及大學(xué)精讀英語(yǔ)和新視野大學(xué)英語(yǔ)的第三版這4套教材課文中的120篇文本作為測(cè)試數(shù)據(jù)集,對(duì)生成的決策樹(shù)模型進(jìn)行驗(yàn)證。由訓(xùn)練數(shù)據(jù)集構(gòu)建的決策樹(shù)模型對(duì)測(cè)試數(shù)據(jù)集的分類(lèi)正確率是92.50%,基本證明了生成的決策樹(shù)模型的有效性。論文的創(chuàng)新之處在于:(1)相較于傳統(tǒng)的水平評(píng)估法主要依賴(lài)專(zhuān)家人為的主觀判斷來(lái)說(shuō),本文的研究方法更客觀更科學(xué)。(2)傳統(tǒng)公式法中的測(cè)量變量較少且基本是通過(guò)線性關(guān)系來(lái)量化文本難度,而決策樹(shù)可以從多方面評(píng)估文本難度。(3)在其他使用機(jī)器學(xué)習(xí)算法評(píng)估文本難度的研究中,沒(méi)有使用過(guò)決策樹(shù)分類(lèi)算法的,并且他們研究中的影響因素是根據(jù)以往經(jīng)驗(yàn)主觀定義的,本研究中的影響因素是通過(guò)機(jī)器學(xué)習(xí)算挑選得出的。
【圖文】:

結(jié)構(gòu)圖,決策樹(shù),結(jié)構(gòu)圖


決策樹(shù)是一種歸納分類(lèi)算法,通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),挖掘出有用的規(guī)則,用新數(shù)據(jù)集進(jìn)行預(yù)測(cè),是一種非參數(shù)學(xué)習(xí)算法,會(huì)對(duì)每個(gè)輸入使用由該區(qū)域的訓(xùn)據(jù)計(jì)算得到對(duì)應(yīng)的局部模型。逡逑決策樹(shù)是一個(gè)樹(shù)狀結(jié)構(gòu),如圖2.1所示,其中的每個(gè)內(nèi)部節(jié)點(diǎn)(非葉子節(jié)都可以表示一個(gè)屬性上的測(cè)試,根據(jù)樣本在該屬性上的不同取值將其劃分成若子集分支,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別,從決策樹(shù)節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就形成了對(duì)相應(yīng)對(duì)象的類(lèi)別預(yù)測(cè)%。對(duì)于非純的葉節(jié)選擇到達(dá)這個(gè)節(jié)點(diǎn)的概率最大的類(lèi)別作為最后的預(yù)測(cè)分類(lèi)結(jié)果。逡逑決策樹(shù)的基本算法是貪心算法,即總是做出在當(dāng)前看來(lái)最好的選擇,是在意義上的局部最優(yōu)選擇,,不從整體考慮最優(yōu)133]。構(gòu)造決策樹(shù)的核心問(wèn)題是在每如何選擇適當(dāng)?shù)膶傩詫?duì)樣本做拆分,因此要慎重選擇測(cè)試屬性的依據(jù),通常選是基于一個(gè)啟發(fā)式規(guī)則或統(tǒng)計(jì)的度量,如gain_ratio邋(增益比率)和information邋g(信息增益)以及ginijndex邋(基尼指數(shù))等。對(duì)于一個(gè)分類(lèi)問(wèn)題,從己知目性(具有標(biāo)簽label角色或是類(lèi)class角色的屬性)的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出樹(shù)是一個(gè)自上而下,分而治之的過(guò)程。逡逑1邐?(root邋node

詞表,詞匯,尖括號(hào),詞族


個(gè)“mrk”的文件,其中會(huì)標(biāo)記出來(lái)文本的單詞是來(lái)自哪個(gè)基礎(chǔ)詞匯表。“Ignore’o”’逡逑表示檢索過(guò)程中忽視待測(cè)文本中的尖括號(hào)0。逡逑表3.1邋Range中三個(gè)基礎(chǔ)詞表逡逑Wordlist邐Word邋Family邐Type邐Frequency逡逑basewrdl邐998邐4119邐最常用逡逑basewrd2邐988邐3708邐常用逡逑basewrd3邐570邐3107邐次常用逡逑Range中的基礎(chǔ)詞表也可以是自制的詞表,但選取的詞匯表標(biāo)準(zhǔn)必須是很有權(quán)逡逑威性的。本研宄中除了量化Range中自帶的基礎(chǔ)詞匯表之外,又另自制了邋5個(gè)詞匯逡逑表,依據(jù)的基礎(chǔ)是全國(guó)英語(yǔ)等級(jí)考試(PETS)中的各級(jí)詞匯標(biāo)準(zhǔn),然后將詞匯轉(zhuǎn)化逡逑為純文本格式的文檔,并制作成詞族形式的基礎(chǔ)詞匯表,形如圖3.2所示。詞族轉(zhuǎn)逡逑化可以使用免費(fèi)軟件Familizer來(lái)進(jìn)行。轉(zhuǎn)化為基礎(chǔ)詞表后,命名為basewrdl,逡逑basewrd2,邋basewrd3,邋basewrd4,邋basewrd5,然后將制作完成的基礎(chǔ)詞匯表和Range逡逑軟件放在同一個(gè)文件夾下。逡逑basewrdl.txt邋-記事本 ̄…:邐jwigSliiij逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:G633.41;G434

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期

2 易樹(shù)鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

3 婁道國(guó);李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期

4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期

5 李柯;佐々木勇和;;基于多維小波聚類(lèi)的空間文本數(shù)據(jù)情感分布分析[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2019年07期

6 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

7 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期

8 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期

9 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類(lèi)算法研究[J];電子科技;2018年10期

10 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類(lèi)方法[J];計(jì)算機(jī)科學(xué);2016年12期

相關(guān)會(huì)議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 陳光強(qiáng);楊樹(shù)強(qiáng);張曉輝;李潤(rùn)恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年

3 周純潔;黎]

本文編號(hào):2600111


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/2600111.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d9837***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com