一種基于密度的改進(jìn)決策樹算法

發(fā)布時間：2017-09-15 06:28

本文關(guān)鍵詞：一種基于密度的改進(jìn)決策樹算法

更多相關(guān)文章： 決策樹 集成算法 密度 過擬合

【摘要】：分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究內(nèi)容,分類是指對已知類別的數(shù)據(jù)集進(jìn)行高度抽象,提取規(guī)則,構(gòu)建預(yù)測模型,從而使用該模型對未知類別的樣本數(shù)據(jù)進(jìn)行歸類。決策樹是各種分類算法中最常見的算法,它相對于其他算法模式簡單、分類速度快、準(zhǔn)確率高,且生成的規(guī)則可以用語意表示,具有更強(qiáng)的可解釋性。然而實(shí)際數(shù)據(jù)集中常常伴隨著噪聲或者孤立點(diǎn),這會使決策樹出現(xiàn)只包含極少量樣本的葉子節(jié)點(diǎn),產(chǎn)生不必要的分支,進(jìn)而使決策樹規(guī)模變大。針對這一問題,本文提出了基于密度的決策樹構(gòu)建思想,即在決策樹的構(gòu)建過程中將劃分區(qū)域內(nèi)的樣本密度作為一個衡量標(biāo)準(zhǔn),使生成的決策樹中不存在或者僅少量存在上述不必要分支,精簡了決策樹規(guī)模,同時在一定程度上避免了過擬合現(xiàn)象,提高了預(yù)測精度。同時,本文將基于密度的構(gòu)建思想推廣到了以RandomForest、Bagging和AdaBoost為代表的集成算法中,這三種算法雖然相較于單個決策樹已經(jīng)可以表現(xiàn)出較強(qiáng)的分類能力,但是同樣面臨基分類器在訓(xùn)練結(jié)果中存在不必要分支的問題,而基于密度的集成學(xué)習(xí)算法則表現(xiàn)出了更強(qiáng)的分類能力,可以明顯縮小建樹規(guī)模,提高分類準(zhǔn)確性。本文在多組UCI數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn),將本文方法與傳統(tǒng)方法在樹的平均節(jié)點(diǎn)個數(shù)和分類準(zhǔn)確性上進(jìn)行了對比。實(shí)驗(yàn)表明,本文方法可以普遍減小決策樹節(jié)點(diǎn)個數(shù),同時降低過擬合程度,提高預(yù)測準(zhǔn)確性,使得由本文方法構(gòu)建的分類器具有更佳的分類性能,而且結(jié)構(gòu)簡單,語義明了,泛化能力強(qiáng)。
【關(guān)鍵詞】：決策樹 集成算法 密度 過擬合
【學(xué)位授予單位】：大連理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP181
【目錄】：

摘要4-5
Abstract5-7
1 緒論7-13
1.1 研究背景及意義7
1.2 常見分類算法介紹7-10
1.3 機(jī)器學(xué)習(xí)研究現(xiàn)狀10-12
1.4 本文主要內(nèi)容12-13
2 決策樹算法簡介13-28
2.1 C4.5算法介紹16-20
2.2 相關(guān)集成學(xué)習(xí)算法介紹20-28
2.2.1 RandomForest算法20-22
2.2.2 Bagging算法22-24
2.2.3 AdaBoost算法24-28
3 基于密度的C4.5算法28-36
3.1 基于密度的C4.5算法介紹28-31
3.2 與傳統(tǒng)C4.5算法的對比31-35
3.2.1 實(shí)驗(yàn)背景介紹31-32
3.2.2 實(shí)驗(yàn)分析32-35
3.3 本章小結(jié)35-36
4 基于密度的集成決策樹算法36-43
4.1 基于密度的RandomForest算法37-39
4.2 基于密度的Bagging算法39-41
4.3 基于密度的AdaBoost算法41-42
4.4 本章小結(jié)42-43
結(jié)論43-44
參考文獻(xiàn)44-47
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況47-48
致謝48-49

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 郭志高;高曉光;邸若海;;小數(shù)據(jù)集條件下基于雙重約束的BN參數(shù)學(xué)習(xí)[J];自動化學(xué)報(bào);2014年07期

2 董隴軍;李夕兵;彭康;;巖爆等級預(yù)測的隨機(jī)森林模型及應(yīng)用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期

3 張欣;梁宗保;;多分類器融合算法研究與應(yīng)用[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2011年02期

4 李明方;張化祥;;針對不平衡數(shù)據(jù)集的Bagging改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年30期

5 王艷秋;徐傳飛;于戈;谷峪;陳默;;一種面向不確定對象的可見k近鄰查詢算法[J];計(jì)算機(jī)學(xué)報(bào);2010年10期

6 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期

7 阮錦新;尹俊勛;;基于人臉特征和AdaBoost算法的多姿態(tài)人臉檢測[J];計(jì)算機(jī)應(yīng)用;2010年04期

8 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學(xué)報(bào);2009年10期

9 李闖;丁曉青;吳佑壽;;一種改進(jìn)的AdaBoost算法——AD AdaBoost[J];計(jì)算機(jī)學(xué)報(bào);2007年01期

10 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期

，

本文編號：854852

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/854852.html

上一篇：多能域過約束并聯(lián)機(jī)器人系統(tǒng)動力學(xué)建模方法
下一篇：基于密度控制的傳感器網(wǎng)絡(luò)能量空洞避免策略

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于密度的改進(jìn)決策樹算法