天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

一種基于密度的改進(jìn)決策樹算法

發(fā)布時間:2017-09-15 06:28

  本文關(guān)鍵詞:一種基于密度的改進(jìn)決策樹算法


  更多相關(guān)文章: 決策樹 集成算法 密度 過擬合


【摘要】:分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究內(nèi)容,分類是指對已知類別的數(shù)據(jù)集進(jìn)行高度抽象,提取規(guī)則,構(gòu)建預(yù)測模型,從而使用該模型對未知類別的樣本數(shù)據(jù)進(jìn)行歸類。決策樹是各種分類算法中最常見的算法,它相對于其他算法模式簡單、分類速度快、準(zhǔn)確率高,且生成的規(guī)則可以用語意表示,具有更強(qiáng)的可解釋性。然而實(shí)際數(shù)據(jù)集中常常伴隨著噪聲或者孤立點(diǎn),這會使決策樹出現(xiàn)只包含極少量樣本的葉子節(jié)點(diǎn),產(chǎn)生不必要的分支,進(jìn)而使決策樹規(guī)模變大。針對這一問題,本文提出了基于密度的決策樹構(gòu)建思想,即在決策樹的構(gòu)建過程中將劃分區(qū)域內(nèi)的樣本密度作為一個衡量標(biāo)準(zhǔn),使生成的決策樹中不存在或者僅少量存在上述不必要分支,精簡了決策樹規(guī)模,同時在一定程度上避免了過擬合現(xiàn)象,提高了預(yù)測精度。同時,本文將基于密度的構(gòu)建思想推廣到了以RandomForest、Bagging和AdaBoost為代表的集成算法中,這三種算法雖然相較于單個決策樹已經(jīng)可以表現(xiàn)出較強(qiáng)的分類能力,但是同樣面臨基分類器在訓(xùn)練結(jié)果中存在不必要分支的問題,而基于密度的集成學(xué)習(xí)算法則表現(xiàn)出了更強(qiáng)的分類能力,可以明顯縮小建樹規(guī)模,提高分類準(zhǔn)確性。本文在多組UCI數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn),將本文方法與傳統(tǒng)方法在樹的平均節(jié)點(diǎn)個數(shù)和分類準(zhǔn)確性上進(jìn)行了對比。實(shí)驗(yàn)表明,本文方法可以普遍減小決策樹節(jié)點(diǎn)個數(shù),同時降低過擬合程度,提高預(yù)測準(zhǔn)確性,使得由本文方法構(gòu)建的分類器具有更佳的分類性能,而且結(jié)構(gòu)簡單,語義明了,泛化能力強(qiáng)。
【關(guān)鍵詞】:決策樹 集成算法 密度 過擬合
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP181
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 1 緒論7-13
  • 1.1 研究背景及意義7
  • 1.2 常見分類算法介紹7-10
  • 1.3 機(jī)器學(xué)習(xí)研究現(xiàn)狀10-12
  • 1.4 本文主要內(nèi)容12-13
  • 2 決策樹算法簡介13-28
  • 2.1 C4.5算法介紹16-20
  • 2.2 相關(guān)集成學(xué)習(xí)算法介紹20-28
  • 2.2.1 RandomForest算法20-22
  • 2.2.2 Bagging算法22-24
  • 2.2.3 AdaBoost算法24-28
  • 3 基于密度的C4.5算法28-36
  • 3.1 基于密度的C4.5算法介紹28-31
  • 3.2 與傳統(tǒng)C4.5算法的對比31-35
  • 3.2.1 實(shí)驗(yàn)背景介紹31-32
  • 3.2.2 實(shí)驗(yàn)分析32-35
  • 3.3 本章小結(jié)35-36
  • 4 基于密度的集成決策樹算法36-43
  • 4.1 基于密度的RandomForest算法37-39
  • 4.2 基于密度的Bagging算法39-41
  • 4.3 基于密度的AdaBoost算法41-42
  • 4.4 本章小結(jié)42-43
  • 結(jié)論43-44
  • 參考文獻(xiàn)44-47
  • 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況47-48
  • 致謝48-49

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 郭志高;高曉光;邸若海;;小數(shù)據(jù)集條件下基于雙重約束的BN參數(shù)學(xué)習(xí)[J];自動化學(xué)報(bào);2014年07期

2 董隴軍;李夕兵;彭康;;巖爆等級預(yù)測的隨機(jī)森林模型及應(yīng)用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期

3 張欣;梁宗保;;多分類器融合算法研究與應(yīng)用[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2011年02期

4 李明方;張化祥;;針對不平衡數(shù)據(jù)集的Bagging改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年30期

5 王艷秋;徐傳飛;于戈;谷峪;陳默;;一種面向不確定對象的可見k近鄰查詢算法[J];計(jì)算機(jī)學(xué)報(bào);2010年10期

6 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期

7 阮錦新;尹俊勛;;基于人臉特征和AdaBoost算法的多姿態(tài)人臉檢測[J];計(jì)算機(jī)應(yīng)用;2010年04期

8 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學(xué)報(bào);2009年10期

9 李闖;丁曉青;吳佑壽;;一種改進(jìn)的AdaBoost算法——AD AdaBoost[J];計(jì)算機(jī)學(xué)報(bào);2007年01期

10 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期

,

本文編號:854852

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/854852.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8001e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com