基于K-means的改進(jìn)C4.5算法研究
發(fā)布時(shí)間:2021-08-13 07:15
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)所蘊(yùn)藏的價(jià)值逐漸凸顯,各行業(yè)多年來(lái)所累積的數(shù)據(jù)都具有巨大的挖掘潛力,于是數(shù)據(jù)挖掘技術(shù)飛速發(fā)展,每一個(gè)精準(zhǔn)的數(shù)據(jù)分析結(jié)果都能帶來(lái)巨大的行業(yè)收益。為了能更快更準(zhǔn)確地得到數(shù)據(jù)分析的結(jié)果,數(shù)據(jù)挖掘算法就成為了我們的重點(diǎn)研究對(duì)象。針對(duì)傳統(tǒng)C4.5算法面對(duì)大量多維連續(xù)型屬性值時(shí),傳統(tǒng)離散化方法易造成分類準(zhǔn)確度不高、算法運(yùn)行效率低下的問(wèn)題,本文提出了兩種連續(xù)型屬性值離散化的方法,第一種是十等分離散化方法,將連續(xù)型屬性值進(jìn)行排序后取十等分點(diǎn)處的值作為候選分裂點(diǎn)進(jìn)行計(jì)算;另一種是由K-means算法進(jìn)行連續(xù)屬性數(shù)據(jù)離散化的方式,首先通過(guò)將無(wú)特征標(biāo)志的連續(xù)型數(shù)據(jù)與對(duì)應(yīng)類標(biāo)號(hào)結(jié)合生成數(shù)據(jù)子集,通過(guò)K-means算法生成若干簇,再取簇的近似邊界點(diǎn)作為連續(xù)型屬性的候選分類點(diǎn)進(jìn)行信息增益率的計(jì)算。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)C4.5算法相比,在十等分離散化模式下的C4.5算法具有更高的執(zhí)行效率,基于K-means算法的離散化模式使C4.5決策樹模型擁有更高的分類準(zhǔn)確度。
【文章來(lái)源】:內(nèi)蒙古農(nóng)業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2?ID3算法流程圖??Fig.2?ID3?algorithm?flow?chart??總體說(shuō)來(lái)ID3算法是一個(gè)簡(jiǎn)單易用,可以支持多分類的決策樹算法,但是也由??
?個(gè)分裂點(diǎn)都將數(shù)據(jù)集劃分成更小的數(shù)據(jù)子集,參與計(jì)算的屬性、屬性值越來(lái)越少,??肖.到每個(gè)子集的數(shù)據(jù)元組都屬于同一類別,則停止分裂,決策樹也建立完成。??下圖3為C4.5決策樹算法的算法流程圖,我們首先需要做的是將已經(jīng)進(jìn)行清洗??整理的訓(xùn)練數(shù)據(jù)導(dǎo)入,并創(chuàng)建一個(gè)初始節(jié)點(diǎn)N。若輸入的待處理數(shù)據(jù)都在同一類別??屮,那么我們就可以將N作為一個(gè)葉子節(jié)點(diǎn),并將這個(gè)類別最為最后的計(jì)算結(jié)果返??丨"丨。若待處理數(shù)據(jù)不在同一類別,那么我們就進(jìn)行下一步的判斷,即判斷輸入的數(shù)??據(jù)是否為連續(xù)型數(shù)據(jù),若是連續(xù)型數(shù)據(jù),那么就要進(jìn)行離散化處理,經(jīng)過(guò)離散化處??理的數(shù)據(jù)才能進(jìn)行信息熵、信息增益等數(shù)值的計(jì)算。非連續(xù)型屬性值和經(jīng)過(guò)離散化??處理的連續(xù)型屬性值經(jīng)過(guò)信息增益率的計(jì)算后,選擇增益率最高的點(diǎn)作為分裂點(diǎn),??這個(gè)分裂點(diǎn)將數(shù)據(jù)集分為兩個(gè)部分,構(gòu)成2個(gè)分裂子集,進(jìn)行分類類別的判斷,若??經(jīng)過(guò)分裂后的數(shù)據(jù)集屬于同一類,那么就返回節(jié)點(diǎn)N作為葉子節(jié)點(diǎn),并標(biāo)記為對(duì)應(yīng)??的類別。若輸出的數(shù)據(jù)集并不是同一類
分別可將屬性A劃分為兩個(gè)部分,將這些點(diǎn)作為候選分裂點(diǎn)進(jìn)行信息增益率的計(jì)??算,選擇增益率最大的點(diǎn)作為該屬性的最佳分裂點(diǎn)。??下圖4為原始C4.5算法的離散化方法流程圖,描述了原始C4.5算法的離散化??處理步驟。??(開(kāi)始)??將此列屬性值升序排序???????計(jì)算兩兩相鄰的屬性值的中點(diǎn)作為候選分裂???I??? ̄計(jì)算候選劃分點(diǎn)處的信息增益????J???選擇信息增益率最高¥點(diǎn)作為決策樹分裂點(diǎn)??(結(jié)k?)??圖4?C4.?5算法離散化方法流程圖??Fig.4?C4.5?algorithm?flow?chart?of?discretization??最后,為了解決ID3算法對(duì)噪聲數(shù)據(jù)敏感及與數(shù)據(jù)集過(guò)擬合的問(wèn)題,C4.5算法??引入了?“剪枝”操作,剪枝方法共分為兩種:先剪枝與后剪枝。??先剪枝顧名思義就是指在決策樹模型建立之前預(yù)定義分類模型建立規(guī)則,使決??策樹在生長(zhǎng)到一定閾值時(shí)停止生長(zhǎng)。有時(shí),通過(guò)限制最大增益的上限,使信息增益??不超過(guò)最大增益閾值時(shí),停止生長(zhǎng):還可以對(duì)決策樹的深度加以限制,從而抑制決??策樹的規(guī)模;最后,限制結(jié)點(diǎn)的分支數(shù)目同樣可以起到限制決策樹規(guī)模的目的。但??是先剪枝的方法不易進(jìn)行,對(duì)于不同的數(shù)據(jù)集,提前設(shè)定的閾值不盡相同,對(duì)于每??一個(gè)數(shù)據(jù)都需要找到恰當(dāng)?shù)拈撝祬?shù)
【參考文獻(xiàn)】:
期刊論文
[1]決策樹C4.5算法的改進(jìn)與分析[J]. 安葳鵬,尚家澤. 計(jì)算機(jī)工程與應(yīng)用. 2019(12)
[2]決策樹C4.5算法改進(jìn)與應(yīng)用[J]. 陳杰,鄔春學(xué). 軟件導(dǎo)刊. 2018(10)
[3]基于粗糙集理論與CAIM準(zhǔn)則的C4.5改進(jìn)算法[J]. 于宏濤,賈宇波. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[4]基于余弦相似度的改進(jìn)C4.5決策樹算法[J]. 夏修臣,王秀英. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[5]決策樹C4.5算法的優(yōu)化與應(yīng)用[J]. 苗煜飛,張霄宏. 計(jì)算機(jī)工程與應(yīng)用. 2015(13)
[6]應(yīng)用簡(jiǎn)易決策樹模型在骨科擇期手術(shù)患者中實(shí)施針對(duì)性的護(hù)理[J]. 肖黎. 現(xiàn)代醫(yī)學(xué). 2015(06)
[7]一種基于屬性相關(guān)的C4.5決策樹改進(jìn)算法[J]. 魏浩,丁要軍. 中北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[8]基于分類規(guī)則的C4.5決策樹改進(jìn)算法[J]. 李孝偉,陳福才,李邵梅. 計(jì)算機(jī)工程與設(shè)計(jì). 2013(12)
[9]大數(shù)據(jù)研究綜述[J]. 陶雪嬌,胡曉峰,劉洋. 系統(tǒng)仿真學(xué)報(bào). 2013(S1)
博士論文
[1]面向數(shù)據(jù)挖掘的分類器集成研究[D]. 陳海霞.吉林大學(xué) 2006
碩士論文
[1]基于樸素貝葉斯的入侵檢測(cè)關(guān)鍵技術(shù)研究[D]. 王玉棟.北京工業(yè)大學(xué) 2017
本文編號(hào):3339992
【文章來(lái)源】:內(nèi)蒙古農(nóng)業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2?ID3算法流程圖??Fig.2?ID3?algorithm?flow?chart??總體說(shuō)來(lái)ID3算法是一個(gè)簡(jiǎn)單易用,可以支持多分類的決策樹算法,但是也由??
?個(gè)分裂點(diǎn)都將數(shù)據(jù)集劃分成更小的數(shù)據(jù)子集,參與計(jì)算的屬性、屬性值越來(lái)越少,??肖.到每個(gè)子集的數(shù)據(jù)元組都屬于同一類別,則停止分裂,決策樹也建立完成。??下圖3為C4.5決策樹算法的算法流程圖,我們首先需要做的是將已經(jīng)進(jìn)行清洗??整理的訓(xùn)練數(shù)據(jù)導(dǎo)入,并創(chuàng)建一個(gè)初始節(jié)點(diǎn)N。若輸入的待處理數(shù)據(jù)都在同一類別??屮,那么我們就可以將N作為一個(gè)葉子節(jié)點(diǎn),并將這個(gè)類別最為最后的計(jì)算結(jié)果返??丨"丨。若待處理數(shù)據(jù)不在同一類別,那么我們就進(jìn)行下一步的判斷,即判斷輸入的數(shù)??據(jù)是否為連續(xù)型數(shù)據(jù),若是連續(xù)型數(shù)據(jù),那么就要進(jìn)行離散化處理,經(jīng)過(guò)離散化處??理的數(shù)據(jù)才能進(jìn)行信息熵、信息增益等數(shù)值的計(jì)算。非連續(xù)型屬性值和經(jīng)過(guò)離散化??處理的連續(xù)型屬性值經(jīng)過(guò)信息增益率的計(jì)算后,選擇增益率最高的點(diǎn)作為分裂點(diǎn),??這個(gè)分裂點(diǎn)將數(shù)據(jù)集分為兩個(gè)部分,構(gòu)成2個(gè)分裂子集,進(jìn)行分類類別的判斷,若??經(jīng)過(guò)分裂后的數(shù)據(jù)集屬于同一類,那么就返回節(jié)點(diǎn)N作為葉子節(jié)點(diǎn),并標(biāo)記為對(duì)應(yīng)??的類別。若輸出的數(shù)據(jù)集并不是同一類
分別可將屬性A劃分為兩個(gè)部分,將這些點(diǎn)作為候選分裂點(diǎn)進(jìn)行信息增益率的計(jì)??算,選擇增益率最大的點(diǎn)作為該屬性的最佳分裂點(diǎn)。??下圖4為原始C4.5算法的離散化方法流程圖,描述了原始C4.5算法的離散化??處理步驟。??(開(kāi)始)??將此列屬性值升序排序???????計(jì)算兩兩相鄰的屬性值的中點(diǎn)作為候選分裂???I??? ̄計(jì)算候選劃分點(diǎn)處的信息增益????J???選擇信息增益率最高¥點(diǎn)作為決策樹分裂點(diǎn)??(結(jié)k?)??圖4?C4.?5算法離散化方法流程圖??Fig.4?C4.5?algorithm?flow?chart?of?discretization??最后,為了解決ID3算法對(duì)噪聲數(shù)據(jù)敏感及與數(shù)據(jù)集過(guò)擬合的問(wèn)題,C4.5算法??引入了?“剪枝”操作,剪枝方法共分為兩種:先剪枝與后剪枝。??先剪枝顧名思義就是指在決策樹模型建立之前預(yù)定義分類模型建立規(guī)則,使決??策樹在生長(zhǎng)到一定閾值時(shí)停止生長(zhǎng)。有時(shí),通過(guò)限制最大增益的上限,使信息增益??不超過(guò)最大增益閾值時(shí),停止生長(zhǎng):還可以對(duì)決策樹的深度加以限制,從而抑制決??策樹的規(guī)模;最后,限制結(jié)點(diǎn)的分支數(shù)目同樣可以起到限制決策樹規(guī)模的目的。但??是先剪枝的方法不易進(jìn)行,對(duì)于不同的數(shù)據(jù)集,提前設(shè)定的閾值不盡相同,對(duì)于每??一個(gè)數(shù)據(jù)都需要找到恰當(dāng)?shù)拈撝祬?shù)
【參考文獻(xiàn)】:
期刊論文
[1]決策樹C4.5算法的改進(jìn)與分析[J]. 安葳鵬,尚家澤. 計(jì)算機(jī)工程與應(yīng)用. 2019(12)
[2]決策樹C4.5算法改進(jìn)與應(yīng)用[J]. 陳杰,鄔春學(xué). 軟件導(dǎo)刊. 2018(10)
[3]基于粗糙集理論與CAIM準(zhǔn)則的C4.5改進(jìn)算法[J]. 于宏濤,賈宇波. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(07)
[4]基于余弦相似度的改進(jìn)C4.5決策樹算法[J]. 夏修臣,王秀英. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[5]決策樹C4.5算法的優(yōu)化與應(yīng)用[J]. 苗煜飛,張霄宏. 計(jì)算機(jī)工程與應(yīng)用. 2015(13)
[6]應(yīng)用簡(jiǎn)易決策樹模型在骨科擇期手術(shù)患者中實(shí)施針對(duì)性的護(hù)理[J]. 肖黎. 現(xiàn)代醫(yī)學(xué). 2015(06)
[7]一種基于屬性相關(guān)的C4.5決策樹改進(jìn)算法[J]. 魏浩,丁要軍. 中北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[8]基于分類規(guī)則的C4.5決策樹改進(jìn)算法[J]. 李孝偉,陳福才,李邵梅. 計(jì)算機(jī)工程與設(shè)計(jì). 2013(12)
[9]大數(shù)據(jù)研究綜述[J]. 陶雪嬌,胡曉峰,劉洋. 系統(tǒng)仿真學(xué)報(bào). 2013(S1)
博士論文
[1]面向數(shù)據(jù)挖掘的分類器集成研究[D]. 陳海霞.吉林大學(xué) 2006
碩士論文
[1]基于樸素貝葉斯的入侵檢測(cè)關(guān)鍵技術(shù)研究[D]. 王玉棟.北京工業(yè)大學(xué) 2017
本文編號(hào):3339992
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3339992.html
最近更新
教材專著