一種基于密度的改進(jìn)決策樹算法
本文關(guān)鍵詞:一種基于密度的改進(jìn)決策樹算法
【摘要】:分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究內(nèi)容,分類是指對已知類別的數(shù)據(jù)集進(jìn)行高度抽象,提取規(guī)則,構(gòu)建預(yù)測模型,從而使用該模型對未知類別的樣本數(shù)據(jù)進(jìn)行歸類。決策樹是各種分類算法中最常見的算法,它相對于其他算法模式簡單、分類速度快、準(zhǔn)確率高,且生成的規(guī)則可以用語意表示,具有更強(qiáng)的可解釋性。然而實(shí)際數(shù)據(jù)集中常常伴隨著噪聲或者孤立點(diǎn),這會使決策樹出現(xiàn)只包含極少量樣本的葉子節(jié)點(diǎn),產(chǎn)生不必要的分支,進(jìn)而使決策樹規(guī)模變大。針對這一問題,本文提出了基于密度的決策樹構(gòu)建思想,即在決策樹的構(gòu)建過程中將劃分區(qū)域內(nèi)的樣本密度作為一個衡量標(biāo)準(zhǔn),使生成的決策樹中不存在或者僅少量存在上述不必要分支,精簡了決策樹規(guī)模,同時在一定程度上避免了過擬合現(xiàn)象,提高了預(yù)測精度。同時,本文將基于密度的構(gòu)建思想推廣到了以RandomForest、Bagging和AdaBoost為代表的集成算法中,這三種算法雖然相較于單個決策樹已經(jīng)可以表現(xiàn)出較強(qiáng)的分類能力,但是同樣面臨基分類器在訓(xùn)練結(jié)果中存在不必要分支的問題,而基于密度的集成學(xué)習(xí)算法則表現(xiàn)出了更強(qiáng)的分類能力,可以明顯縮小建樹規(guī)模,提高分類準(zhǔn)確性。本文在多組UCI數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn),將本文方法與傳統(tǒng)方法在樹的平均節(jié)點(diǎn)個數(shù)和分類準(zhǔn)確性上進(jìn)行了對比。實(shí)驗(yàn)表明,本文方法可以普遍減小決策樹節(jié)點(diǎn)個數(shù),同時降低過擬合程度,提高預(yù)測準(zhǔn)確性,使得由本文方法構(gòu)建的分類器具有更佳的分類性能,而且結(jié)構(gòu)簡單,語義明了,泛化能力強(qiáng)。
【關(guān)鍵詞】:決策樹 集成算法 密度 過擬合
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181
【目錄】:
- 摘要4-5
- Abstract5-7
- 1 緒論7-13
- 1.1 研究背景及意義7
- 1.2 常見分類算法介紹7-10
- 1.3 機(jī)器學(xué)習(xí)研究現(xiàn)狀10-12
- 1.4 本文主要內(nèi)容12-13
- 2 決策樹算法簡介13-28
- 2.1 C4.5算法介紹16-20
- 2.2 相關(guān)集成學(xué)習(xí)算法介紹20-28
- 2.2.1 RandomForest算法20-22
- 2.2.2 Bagging算法22-24
- 2.2.3 AdaBoost算法24-28
- 3 基于密度的C4.5算法28-36
- 3.1 基于密度的C4.5算法介紹28-31
- 3.2 與傳統(tǒng)C4.5算法的對比31-35
- 3.2.1 實(shí)驗(yàn)背景介紹31-32
- 3.2.2 實(shí)驗(yàn)分析32-35
- 3.3 本章小結(jié)35-36
- 4 基于密度的集成決策樹算法36-43
- 4.1 基于密度的RandomForest算法37-39
- 4.2 基于密度的Bagging算法39-41
- 4.3 基于密度的AdaBoost算法41-42
- 4.4 本章小結(jié)42-43
- 結(jié)論43-44
- 參考文獻(xiàn)44-47
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況47-48
- 致謝48-49
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭志高;高曉光;邸若海;;小數(shù)據(jù)集條件下基于雙重約束的BN參數(shù)學(xué)習(xí)[J];自動化學(xué)報(bào);2014年07期
2 董隴軍;李夕兵;彭康;;巖爆等級預(yù)測的隨機(jī)森林模型及應(yīng)用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期
3 張欣;梁宗保;;多分類器融合算法研究與應(yīng)用[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2011年02期
4 李明方;張化祥;;針對不平衡數(shù)據(jù)集的Bagging改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年30期
5 王艷秋;徐傳飛;于戈;谷峪;陳默;;一種面向不確定對象的可見k近鄰查詢算法[J];計(jì)算機(jī)學(xué)報(bào);2010年10期
6 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期
7 阮錦新;尹俊勛;;基于人臉特征和AdaBoost算法的多姿態(tài)人臉檢測[J];計(jì)算機(jī)應(yīng)用;2010年04期
8 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學(xué)報(bào);2009年10期
9 李闖;丁曉青;吳佑壽;;一種改進(jìn)的AdaBoost算法——AD AdaBoost[J];計(jì)算機(jī)學(xué)報(bào);2007年01期
10 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期
,本文編號:854852
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/854852.html