天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 教育論文 > 初中教育論文 >

基于決策樹的英語文本難度評估研究

發(fā)布時(shí)間:2020-03-25 16:09
【摘要】:提高英語學(xué)習(xí)最好的辦法是閱讀。隨著互聯(lián)網(wǎng)技術(shù)和教育信息化的快速發(fā)展,網(wǎng)上可供選擇的英語閱讀材料越來越多,但問題是,海量的網(wǎng)絡(luò)閱讀材料容易讓學(xué)習(xí)者迷失在資源的選擇過濾中,無法準(zhǔn)確高效地獲取適合自己的閱讀資源。因此,如何為學(xué)習(xí)者提供即符合其能力水平又滿足其學(xué)習(xí)需求的個(gè)性化閱讀材料逐漸成為教育技術(shù)研究領(lǐng)域關(guān)注的重點(diǎn)。而要為學(xué)習(xí)者提供符合其能力水平的閱讀材料,首先要對閱讀材料的難度進(jìn)行評估。本文從影響英語閱讀材料難度的最主要因素文本因素出發(fā)展開研究。關(guān)于文本難度(又稱文本易讀性或可讀性)的研究已經(jīng)有近一百年的歷史了,但關(guān)于文本難度測量的方法卻并不多,從已有文獻(xiàn)中的研究成果來看,用于文本難度測量的主要方法有水平評估法,文本易讀性公式法和機(jī)器學(xué)習(xí)。水平評估法的主觀性太強(qiáng),公式法雖可以客觀量化文本可讀性,但測量變量少且缺少科學(xué)的推理建模過程。機(jī)器學(xué)習(xí)是一種比較科學(xué)的研究方法,但目前使用的較少,且沒有具體的研究成果。機(jī)器學(xué)習(xí)算法中,決策樹可以在相對比較短的時(shí)間內(nèi)對比較大型的數(shù)據(jù)集做出可行并且效果還不錯(cuò)的結(jié)果,而且易于理解和解釋。因此,本文試圖提出一種基于決策樹的文本難度評估方法,以期提高英語文本難度評估的準(zhǔn)確性和科學(xué)性。論文的主要工作內(nèi)容包括:首先,介紹了本文所使用的研究方法,主要包括文獻(xiàn)研究法,數(shù)理統(tǒng)計(jì)法和機(jī)器學(xué)習(xí)中的決策樹分類法。并通過實(shí)驗(yàn)從26種可能影響文本難度的因素中選出了八個(gè)影響最大的因素來表征文本難度,作為決策樹訓(xùn)練數(shù)據(jù)集中的屬性。這八個(gè)影響因素分別是:篇幅/總詞數(shù),詞族,全國英語等級考試1級詞匯數(shù)量,最常用詞匯數(shù)量,全國英語等級考試2級詞匯數(shù)量,平均句子長度,全國英語等級考試3級詞匯數(shù)量和從句數(shù)量。并將文本難度定義為Junior-middle(初中上),Junior-high(初中下),Senior-middle(高中上),Senior-high(高中下),College-1(大一)和 College-2(大二)6個(gè)等級。然后,選取人教版初的初中和高中教材,21世紀(jì)大學(xué)英語及新視野大學(xué)英語(第二版)這4套教材原文中的360篇課文文本作為訓(xùn)練數(shù)據(jù)集來構(gòu)建決策樹,并進(jìn)行決策樹的剪枝。最后,選取魯教版初中教材和新世紀(jì)版本的高中教材以及大學(xué)精讀英語和新視野大學(xué)英語的第三版這4套教材課文中的120篇文本作為測試數(shù)據(jù)集,對生成的決策樹模型進(jìn)行驗(yàn)證。由訓(xùn)練數(shù)據(jù)集構(gòu)建的決策樹模型對測試數(shù)據(jù)集的分類正確率是92.50%,基本證明了生成的決策樹模型的有效性。論文的創(chuàng)新之處在于:(1)相較于傳統(tǒng)的水平評估法主要依賴專家人為的主觀判斷來說,本文的研究方法更客觀更科學(xué)。(2)傳統(tǒng)公式法中的測量變量較少且基本是通過線性關(guān)系來量化文本難度,而決策樹可以從多方面評估文本難度。(3)在其他使用機(jī)器學(xué)習(xí)算法評估文本難度的研究中,沒有使用過決策樹分類算法的,并且他們研究中的影響因素是根據(jù)以往經(jīng)驗(yàn)主觀定義的,本研究中的影響因素是通過機(jī)器學(xué)習(xí)算挑選得出的。
【圖文】:

結(jié)構(gòu)圖,決策樹,結(jié)構(gòu)圖


決策樹是一種歸納分類算法,通過對訓(xùn)練集的學(xué)習(xí),挖掘出有用的規(guī)則,用新數(shù)據(jù)集進(jìn)行預(yù)測,是一種非參數(shù)學(xué)習(xí)算法,會(huì)對每個(gè)輸入使用由該區(qū)域的訓(xùn)據(jù)計(jì)算得到對應(yīng)的局部模型。逡逑決策樹是一個(gè)樹狀結(jié)構(gòu),如圖2.1所示,其中的每個(gè)內(nèi)部節(jié)點(diǎn)(非葉子節(jié)都可以表示一個(gè)屬性上的測試,根據(jù)樣本在該屬性上的不同取值將其劃分成若子集分支,每個(gè)分支代表一個(gè)測試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別,從決策樹節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就形成了對相應(yīng)對象的類別預(yù)測%。對于非純的葉節(jié)選擇到達(dá)這個(gè)節(jié)點(diǎn)的概率最大的類別作為最后的預(yù)測分類結(jié)果。逡逑決策樹的基本算法是貪心算法,即總是做出在當(dāng)前看來最好的選擇,是在意義上的局部最優(yōu)選擇,,不從整體考慮最優(yōu)133]。構(gòu)造決策樹的核心問題是在每如何選擇適當(dāng)?shù)膶傩詫颖咀霾鸱郑虼艘髦剡x擇測試屬性的依據(jù),通常選是基于一個(gè)啟發(fā)式規(guī)則或統(tǒng)計(jì)的度量,如gain_ratio邋(增益比率)和information邋g(信息增益)以及ginijndex邋(基尼指數(shù))等。對于一個(gè)分類問題,從己知目性(具有標(biāo)簽label角色或是類class角色的屬性)的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出樹是一個(gè)自上而下,分而治之的過程。逡逑1邐?(root邋node

詞表,詞匯,尖括號,詞族


個(gè)“mrk”的文件,其中會(huì)標(biāo)記出來文本的單詞是來自哪個(gè)基礎(chǔ)詞匯表!埃桑纾睿铮颍濉铩薄义媳硎緳z索過程中忽視待測文本中的尖括號0。逡逑表3.1邋Range中三個(gè)基礎(chǔ)詞表逡逑Wordlist邐Word邋Family邐Type邐Frequency逡逑basewrdl邐998邐4119邐最常用逡逑basewrd2邐988邐3708邐常用逡逑basewrd3邐570邐3107邐次常用逡逑Range中的基礎(chǔ)詞表也可以是自制的詞表,但選取的詞匯表標(biāo)準(zhǔn)必須是很有權(quán)逡逑威性的。本研宄中除了量化Range中自帶的基礎(chǔ)詞匯表之外,又另自制了邋5個(gè)詞匯逡逑表,依據(jù)的基礎(chǔ)是全國英語等級考試(PETS)中的各級詞匯標(biāo)準(zhǔn),然后將詞匯轉(zhuǎn)化逡逑為純文本格式的文檔,并制作成詞族形式的基礎(chǔ)詞匯表,形如圖3.2所示。詞族轉(zhuǎn)逡逑化可以使用免費(fèi)軟件Familizer來進(jìn)行。轉(zhuǎn)化為基礎(chǔ)詞表后,命名為basewrdl,逡逑basewrd2,邋basewrd3,邋basewrd4,邋basewrd5,然后將制作完成的基礎(chǔ)詞匯表和Range逡逑軟件放在同一個(gè)文件夾下。逡逑basewrdl.txt邋-記事本 ̄…:邐jwigSliiij逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:G633.41;G434

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期

2 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

3 婁道國;李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期

4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期

5 李柯;佐々木勇和;;基于多維小波聚類的空間文本數(shù)據(jù)情感分布分析[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2019年07期

6 王珊珊;馮利鑫;;基于新詞識別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

7 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識與技術(shù);2004年13期

8 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期

9 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期

10 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類方法[J];計(jì)算機(jī)科學(xué);2016年12期

相關(guān)會(huì)議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年

3 周純潔;黎]

本文編號:2600111


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/2600111.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d9837***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com