天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于K-means的改進C4.5算法研究

發(fā)布時間:2021-08-13 07:15
  隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)所蘊藏的價值逐漸凸顯,各行業(yè)多年來所累積的數(shù)據(jù)都具有巨大的挖掘潛力,于是數(shù)據(jù)挖掘技術飛速發(fā)展,每一個精準的數(shù)據(jù)分析結果都能帶來巨大的行業(yè)收益。為了能更快更準確地得到數(shù)據(jù)分析的結果,數(shù)據(jù)挖掘算法就成為了我們的重點研究對象。針對傳統(tǒng)C4.5算法面對大量多維連續(xù)型屬性值時,傳統(tǒng)離散化方法易造成分類準確度不高、算法運行效率低下的問題,本文提出了兩種連續(xù)型屬性值離散化的方法,第一種是十等分離散化方法,將連續(xù)型屬性值進行排序后取十等分點處的值作為候選分裂點進行計算;另一種是由K-means算法進行連續(xù)屬性數(shù)據(jù)離散化的方式,首先通過將無特征標志的連續(xù)型數(shù)據(jù)與對應類標號結合生成數(shù)據(jù)子集,通過K-means算法生成若干簇,再取簇的近似邊界點作為連續(xù)型屬性的候選分類點進行信息增益率的計算。實驗結果表明,與傳統(tǒng)C4.5算法相比,在十等分離散化模式下的C4.5算法具有更高的執(zhí)行效率,基于K-means算法的離散化模式使C4.5決策樹模型擁有更高的分類準確度。 

【文章來源】:內蒙古農業(yè)大學內蒙古自治區(qū)

【文章頁數(shù)】:54 頁

【學位級別】:碩士

【部分圖文】:

基于K-means的改進C4.5算法研究


圖2?ID3算法流程圖??Fig.2?ID3?algorithm?flow?chart??總體說來ID3算法是一個簡單易用,可以支持多分類的決策樹算法,但是也由??

連續(xù)型屬性,連續(xù)屬性離散化,算法流程圖,算法


?個分裂點都將數(shù)據(jù)集劃分成更小的數(shù)據(jù)子集,參與計算的屬性、屬性值越來越少,??肖.到每個子集的數(shù)據(jù)元組都屬于同一類別,則停止分裂,決策樹也建立完成。??下圖3為C4.5決策樹算法的算法流程圖,我們首先需要做的是將已經(jīng)進行清洗??整理的訓練數(shù)據(jù)導入,并創(chuàng)建一個初始節(jié)點N。若輸入的待處理數(shù)據(jù)都在同一類別??屮,那么我們就可以將N作為一個葉子節(jié)點,并將這個類別最為最后的計算結果返??丨"丨。若待處理數(shù)據(jù)不在同一類別,那么我們就進行下一步的判斷,即判斷輸入的數(shù)??據(jù)是否為連續(xù)型數(shù)據(jù),若是連續(xù)型數(shù)據(jù),那么就要進行離散化處理,經(jīng)過離散化處??理的數(shù)據(jù)才能進行信息熵、信息增益等數(shù)值的計算。非連續(xù)型屬性值和經(jīng)過離散化??處理的連續(xù)型屬性值經(jīng)過信息增益率的計算后,選擇增益率最高的點作為分裂點,??這個分裂點將數(shù)據(jù)集分為兩個部分,構成2個分裂子集,進行分類類別的判斷,若??經(jīng)過分裂后的數(shù)據(jù)集屬于同一類,那么就返回節(jié)點N作為葉子節(jié)點,并標記為對應??的類別。若輸出的數(shù)據(jù)集并不是同一類

流程圖,離散化方法,流程圖,算法


分別可將屬性A劃分為兩個部分,將這些點作為候選分裂點進行信息增益率的計??算,選擇增益率最大的點作為該屬性的最佳分裂點。??下圖4為原始C4.5算法的離散化方法流程圖,描述了原始C4.5算法的離散化??處理步驟。??(開始)??將此列屬性值升序排序???????計算兩兩相鄰的屬性值的中點作為候選分裂???I??? ̄計算候選劃分點處的信息增益????J???選擇信息增益率最高¥點作為決策樹分裂點??(結k?)??圖4?C4.?5算法離散化方法流程圖??Fig.4?C4.5?algorithm?flow?chart?of?discretization??最后,為了解決ID3算法對噪聲數(shù)據(jù)敏感及與數(shù)據(jù)集過擬合的問題,C4.5算法??引入了?“剪枝”操作,剪枝方法共分為兩種:先剪枝與后剪枝。??先剪枝顧名思義就是指在決策樹模型建立之前預定義分類模型建立規(guī)則,使決??策樹在生長到一定閾值時停止生長。有時,通過限制最大增益的上限,使信息增益??不超過最大增益閾值時,停止生長:還可以對決策樹的深度加以限制,從而抑制決??策樹的規(guī)模;最后,限制結點的分支數(shù)目同樣可以起到限制決策樹規(guī)模的目的。但??是先剪枝的方法不易進行,對于不同的數(shù)據(jù)集,提前設定的閾值不盡相同,對于每??一個數(shù)據(jù)都需要找到恰當?shù)拈撝祬?shù)

【參考文獻】:
期刊論文
[1]決策樹C4.5算法的改進與分析[J]. 安葳鵬,尚家澤.  計算機工程與應用. 2019(12)
[2]決策樹C4.5算法改進與應用[J]. 陳杰,鄔春學.  軟件導刊. 2018(10)
[3]基于粗糙集理論與CAIM準則的C4.5改進算法[J]. 于宏濤,賈宇波.  計算機系統(tǒng)應用. 2018(07)
[4]基于余弦相似度的改進C4.5決策樹算法[J]. 夏修臣,王秀英.  計算機工程與設計. 2018(01)
[5]決策樹C4.5算法的優(yōu)化與應用[J]. 苗煜飛,張霄宏.  計算機工程與應用. 2015(13)
[6]應用簡易決策樹模型在骨科擇期手術患者中實施針對性的護理[J]. 肖黎.  現(xiàn)代醫(yī)學. 2015(06)
[7]一種基于屬性相關的C4.5決策樹改進算法[J]. 魏浩,丁要軍.  中北大學學報(自然科學版). 2014(04)
[8]基于分類規(guī)則的C4.5決策樹改進算法[J]. 李孝偉,陳福才,李邵梅.  計算機工程與設計. 2013(12)
[9]大數(shù)據(jù)研究綜述[J]. 陶雪嬌,胡曉峰,劉洋.  系統(tǒng)仿真學報. 2013(S1)

博士論文
[1]面向數(shù)據(jù)挖掘的分類器集成研究[D]. 陳海霞.吉林大學 2006

碩士論文
[1]基于樸素貝葉斯的入侵檢測關鍵技術研究[D]. 王玉棟.北京工業(yè)大學 2017



本文編號:3339992

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3339992.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f36f9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com