基于決策樹(shù)的英語(yǔ)文本難度評(píng)估研究
【圖文】:
決策樹(shù)是一種歸納分類(lèi)算法,通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),挖掘出有用的規(guī)則,用新數(shù)據(jù)集進(jìn)行預(yù)測(cè),是一種非參數(shù)學(xué)習(xí)算法,會(huì)對(duì)每個(gè)輸入使用由該區(qū)域的訓(xùn)據(jù)計(jì)算得到對(duì)應(yīng)的局部模型。逡逑決策樹(shù)是一個(gè)樹(shù)狀結(jié)構(gòu),如圖2.1所示,其中的每個(gè)內(nèi)部節(jié)點(diǎn)(非葉子節(jié)都可以表示一個(gè)屬性上的測(cè)試,根據(jù)樣本在該屬性上的不同取值將其劃分成若子集分支,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別,從決策樹(shù)節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就形成了對(duì)相應(yīng)對(duì)象的類(lèi)別預(yù)測(cè)%。對(duì)于非純的葉節(jié)選擇到達(dá)這個(gè)節(jié)點(diǎn)的概率最大的類(lèi)別作為最后的預(yù)測(cè)分類(lèi)結(jié)果。逡逑決策樹(shù)的基本算法是貪心算法,即總是做出在當(dāng)前看來(lái)最好的選擇,是在意義上的局部最優(yōu)選擇,,不從整體考慮最優(yōu)133]。構(gòu)造決策樹(shù)的核心問(wèn)題是在每如何選擇適當(dāng)?shù)膶傩詫?duì)樣本做拆分,因此要慎重選擇測(cè)試屬性的依據(jù),通常選是基于一個(gè)啟發(fā)式規(guī)則或統(tǒng)計(jì)的度量,如gain_ratio邋(增益比率)和information邋g(信息增益)以及ginijndex邋(基尼指數(shù))等。對(duì)于一個(gè)分類(lèi)問(wèn)題,從己知目性(具有標(biāo)簽label角色或是類(lèi)class角色的屬性)的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出樹(shù)是一個(gè)自上而下,分而治之的過(guò)程。逡逑1邐?(root邋node
個(gè)“mrk”的文件,其中會(huì)標(biāo)記出來(lái)文本的單詞是來(lái)自哪個(gè)基礎(chǔ)詞匯表。“Ignore’o”’逡逑表示檢索過(guò)程中忽視待測(cè)文本中的尖括號(hào)0。逡逑表3.1邋Range中三個(gè)基礎(chǔ)詞表逡逑Wordlist邐Word邋Family邐Type邐Frequency逡逑basewrdl邐998邐4119邐最常用逡逑basewrd2邐988邐3708邐常用逡逑basewrd3邐570邐3107邐次常用逡逑Range中的基礎(chǔ)詞表也可以是自制的詞表,但選取的詞匯表標(biāo)準(zhǔn)必須是很有權(quán)逡逑威性的。本研宄中除了量化Range中自帶的基礎(chǔ)詞匯表之外,又另自制了邋5個(gè)詞匯逡逑表,依據(jù)的基礎(chǔ)是全國(guó)英語(yǔ)等級(jí)考試(PETS)中的各級(jí)詞匯標(biāo)準(zhǔn),然后將詞匯轉(zhuǎn)化逡逑為純文本格式的文檔,并制作成詞族形式的基礎(chǔ)詞匯表,形如圖3.2所示。詞族轉(zhuǎn)逡逑化可以使用免費(fèi)軟件Familizer來(lái)進(jìn)行。轉(zhuǎn)化為基礎(chǔ)詞表后,命名為basewrdl,逡逑basewrd2,邋basewrd3,邋basewrd4,邋basewrd5,然后將制作完成的基礎(chǔ)詞匯表和Range逡逑軟件放在同一個(gè)文件夾下。逡逑basewrdl.txt邋-記事本 ̄…:邐jwigSliiij逡逑
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:G633.41;G434
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
2 易樹(shù)鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
3 婁道國(guó);李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期
4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期
5 李柯;佐々木勇和;;基于多維小波聚類(lèi)的空間文本數(shù)據(jù)情感分布分析[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2019年07期
6 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期
7 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期
8 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期
9 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類(lèi)算法研究[J];電子科技;2018年10期
10 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類(lèi)方法[J];計(jì)算機(jī)科學(xué);2016年12期
相關(guān)會(huì)議論文 前10條
1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
2 陳光強(qiáng);楊樹(shù)強(qiáng);張曉輝;李潤(rùn)恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
3 周純潔;黎]
本文編號(hào):2600111
本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/2600111.html