C4.5決策樹(shù)算法優(yōu)化及其應(yīng)用
本文關(guān)鍵詞:C4.5決策樹(shù)算法優(yōu)化及其應(yīng)用
更多相關(guān)文章: C4.5算法 泰勒級(jí)數(shù) GINI指數(shù) 屬性依賴度 PCA
【摘要】:C4.5算法是一種分類(lèi)預(yù)測(cè)算法,是數(shù)據(jù)挖掘算法中的十大經(jīng)典算法之一。C4.5算法的優(yōu)化與應(yīng)用廣泛存在于各個(gè)領(lǐng)域,如商業(yè)決策、醫(yī)學(xué)領(lǐng)域的病癥預(yù)測(cè)以及生物學(xué)領(lǐng)域的基因識(shí)別等。為了改進(jìn)C4.5算法的特征選擇正確性和數(shù)據(jù)處理能力,將C4.5算法與粒子群算法和模糊算法等相結(jié)合是目前比較流行的改進(jìn)方法。本文主要針對(duì)C4.5算法的對(duì)數(shù)運(yùn)算、屬性間相關(guān)性影響以及冗余計(jì)算等問(wèn)題進(jìn)行優(yōu)化,并將改進(jìn)后算法應(yīng)用于學(xué)生英語(yǔ)統(tǒng)考成績(jī)預(yù)測(cè)中。針對(duì)C4.5算法計(jì)算時(shí)間長(zhǎng)、屬性間相關(guān)性影響的問(wèn)題,提出了一種基于屬性間GINI指數(shù)均值的C4.5算法(GC4.5)。首先,運(yùn)用泰勒級(jí)數(shù)和等價(jià)無(wú)窮小的原理對(duì)信息增益率的公式進(jìn)行簡(jiǎn)化,用“加”,“減”,“乘”,“除”來(lái)代替對(duì)數(shù)運(yùn)算,目的是減少調(diào)用對(duì)數(shù)運(yùn)算函數(shù)的時(shí)間;其次,在簡(jiǎn)化后的信息增益率公式中引入條件屬性間的GINI指數(shù)均值,用于調(diào)整因條件屬性間相關(guān)性導(dǎo)致的誤差。通過(guò)大量的UCI數(shù)據(jù)集進(jìn)行分析預(yù)測(cè)實(shí)驗(yàn),結(jié)果驗(yàn)證,GC4.5算法較現(xiàn)有的一些C4.5改進(jìn)算法擁有相對(duì)較高的分類(lèi)正確率和較短計(jì)算時(shí)間。針對(duì)C4.5算法的無(wú)關(guān)屬性的影響和相關(guān)性的問(wèn)題,提出了基于屬性依賴度計(jì)算和PCA算法的C4.5算法(RPC4.5)。首先,根據(jù)屬性依賴度的計(jì)算公式計(jì)算出數(shù)據(jù)集中條件屬性與類(lèi)屬性依賴度,刪除依賴度很小的條件屬性,避免無(wú)關(guān)計(jì)算;其次,運(yùn)用PCA算法的壓縮原理處理數(shù)據(jù)集,經(jīng)PCA處理后數(shù)據(jù)集屬性組合的主成分相互獨(dú)立,從而解決屬性間相關(guān)性的影響問(wèn)題。通過(guò)對(duì)大量的UCI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果證明,RPC4.5算法與C4.5算法以及其它一些C4.5的改進(jìn)算法相比,在分類(lèi)正確率上有一定提高,建模時(shí)間有相對(duì)優(yōu)勢(shì)。成績(jī)預(yù)測(cè)是當(dāng)前數(shù)據(jù)挖掘研究的熱門(mén)應(yīng)用。由于C4.5算法的簡(jiǎn)單易懂,建模時(shí)間短,分類(lèi)正確率相對(duì)較高的特點(diǎn),成為成績(jī)預(yù)測(cè)所用算法的首選。本文將GC4.5和RPC4.5算法應(yīng)用于學(xué)校的英語(yǔ)統(tǒng)考成績(jī)預(yù)測(cè)中,借助JAVA開(kāi)發(fā)平臺(tái)Eclipse和數(shù)據(jù)挖掘分析工具WEKA進(jìn)行應(yīng)用實(shí)驗(yàn),結(jié)果表明,與改進(jìn)之前的C4.5算法相比較,GC4.5算法和RPC4.5算法的分類(lèi)預(yù)測(cè)結(jié)果具有較高的正確率,建模時(shí)間更短,因此,本文對(duì)于C4.5算法的改進(jìn)應(yīng)用于成績(jī)預(yù)測(cè)系統(tǒng)中是可行的,并具有一定的實(shí)用性。
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測(cè)繪科學(xué)技術(shù)學(xué)報(bào);2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對(duì)關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報(bào);2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡(jiǎn)單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報(bào);2001年02期
6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動(dòng)態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫(xiě)算法的改進(jìn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國(guó)光學(xué)學(xué)會(huì)2010年光學(xué)大會(huì)論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對(duì)稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測(cè)算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵(lì)金祥;;基于棱邊方向檢測(cè)的運(yùn)動(dòng)自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 國(guó)泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類(lèi)算法研究[D];大連海事大學(xué);2014年
3 李琰;基于貓群算法的高光譜遙感森林類(lèi)型識(shí)別研究[D];東北林業(yè)大學(xué);2015年
4 陳加順;海洋環(huán)境下聚類(lèi)算法的研究[D];南京航空航天大學(xué);2014年
5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
6 雷雨;面向考試時(shí)間表問(wèn)題的啟發(fā)式進(jìn)化算法研究[D];西安電子科技大學(xué);2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年
8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測(cè)與分割算法研究[D];上海交通大學(xué);2014年
9 王冰;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年
10 蔣亦樟;多視角和遷移學(xué)習(xí)識(shí)別方法和智能建模研究[D];江南大學(xué);2015年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年
2 陸進(jìn);面向含噪數(shù)據(jù)聚類(lèi)相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年
3 李家昌;基于能量約束的超聲圖像自動(dòng)分割算法[D];華南理工大學(xué);2015年
4 陳堅(jiān);基于密度和約束的數(shù)據(jù)流聚類(lèi)算法研究[D];蘭州大學(xué);2015年
5 高健;基于Zynq7000平臺(tái)的去霧算法研究及實(shí)現(xiàn)[D];南京理工大學(xué);2015年
6 顧磊;基于Hadoop的聚類(lèi)算法的數(shù)據(jù)優(yōu)化及其應(yīng)用研究[D];南京信息工程大學(xué);2015年
7 楊燕霞;基于Hadoop平臺(tái)的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學(xué);2015年
8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2015年
9 許振佳;流式數(shù)據(jù)的并行聚類(lèi)算法研究[D];曲阜師范大學(xué);2015年
10 董琴;人工蜂群算法的改進(jìn)與應(yīng)用[D];大連海事大學(xué);2015年
,本文編號(hào):1289037
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1289037.html