天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

決策樹(shù)誤差降低剪枝算法的改進(jìn)研究

發(fā)布時(shí)間:2021-10-11 00:45
  決策樹(shù)是數(shù)據(jù)挖掘中常用的分類和回歸方法之一。本文主要討論分類決策樹(shù)。顧名思義,決策樹(shù)為樹(shù)狀結(jié)構(gòu),從根結(jié)點(diǎn)開(kāi)始逐漸開(kāi)枝散葉,長(zhǎng)成一棵具有多個(gè)分支和結(jié)點(diǎn)的大樹(shù)。決策樹(shù)遵循的是“分而治之”的策略,在分類問(wèn)題中,每次劃分選擇一個(gè)特征變量將樣本的集合分為若干部分,然后再對(duì)各部分進(jìn)行相同的操作,直到特征變量全部選取完畢,每個(gè)樣本都落入某個(gè)葉子結(jié)點(diǎn)中,這個(gè)葉子結(jié)點(diǎn)的類別由多數(shù)原則來(lái)決定。決策樹(shù)具有計(jì)算復(fù)雜度不高、輸出結(jié)果易于理解、對(duì)中間值的缺失不敏感、可以處理不相關(guān)特征數(shù)據(jù)等優(yōu)點(diǎn),因此在分類問(wèn)題中應(yīng)用較為廣泛。一般來(lái)說(shuō),決策樹(shù)的訓(xùn)練過(guò)程包括特征選擇、樹(shù)的生長(zhǎng)、剪枝三個(gè)步驟。其中根據(jù)特征選擇的不同標(biāo)準(zhǔn),決策樹(shù)可分為ID3、C4.5、CART三類,在實(shí)踐中這三種標(biāo)準(zhǔn)生成的樹(shù)的性能差異較小,幾乎可以忽略不計(jì)。由于實(shí)際問(wèn)題中變量的個(gè)數(shù)較多,由這些數(shù)據(jù)得到的決策樹(shù)往往會(huì)變得大而復(fù)雜。然而,經(jīng)驗(yàn)表明,大而復(fù)雜的決策樹(shù)不僅解釋起來(lái)較為困難,而且往往并不意味著可以得到更準(zhǔn)確的分類結(jié)果,這說(shuō)明決策樹(shù)的生長(zhǎng)具有過(guò)擬合的傾向。因此對(duì)決策樹(shù)進(jìn)行剪枝是很有必要的。剪枝可以簡(jiǎn)化決策樹(shù),提高泛化性能,避免對(duì)訓(xùn)練集的過(guò)擬合,是決策... 

【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:46 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

決策樹(shù)誤差降低剪枝算法的改進(jìn)研究


圖1.2:分類規(guī)則舉例??

平面圖,二維,平面,分類規(guī)則


?山東大學(xué)碩士學(xué)位論文???x<0.42??'?\?(?\??y<0.47?y<0.33??jT'h??圖1.2:分類規(guī)則舉例??下圖是按照決策樹(shù)對(duì)應(yīng)的分類規(guī)則對(duì)于二維平面的劃分。??厶??4????£>■_???------------------------------0??2?-?|?。??!?a??〇?〇?!?^??o?;??0?0?0_2?0?4?〇e?0.8??X??圖1.3:二維平面的劃分??-3-??

示意圖,決策樹(shù),示意圖,結(jié)點(diǎn)


?山東大學(xué)碩士學(xué)位論文???3.剪枝決策樹(shù)容易產(chǎn)生過(guò)擬合的傾向,一般來(lái)說(shuō),過(guò)擬合的原因主要有以??下幾個(gè):(1)建模樣本抽取錯(cuò)誤,包括(但不限于)樣本數(shù)量太少,抽樣方法錯(cuò)??誤,抽樣時(shí)沒(méi)有足夠正確地考慮業(yè)務(wù)場(chǎng)景或業(yè)務(wù)特點(diǎn),導(dǎo)致抽出的樣本數(shù)據(jù)??不能有效代表業(yè)務(wù)邏輯或業(yè)務(wù)場(chǎng)景;(2)樣本里的噪聲數(shù)據(jù)干擾過(guò)大,大到??模型過(guò)分記住了噪聲特征,反而忽略了真實(shí)的輸入輸出間的關(guān)系;(3)訓(xùn)練??模型過(guò)度導(dǎo)致模型非常復(fù)雜、參數(shù)多;(4)建模時(shí)的“邏輯假設(shè)”到了模型應(yīng)??用時(shí)己經(jīng)不能成立了。任何預(yù)測(cè)模型都是在假設(shè)的基礎(chǔ)上才可以搭建和應(yīng)用??的,常用的假設(shè)包括:假設(shè)歷史數(shù)據(jù)可以推測(cè)未來(lái),假設(shè)業(yè)務(wù)環(huán)節(jié)沒(méi)有發(fā)生??顯著變化,假設(shè)建模數(shù)據(jù)與后來(lái)的應(yīng)用數(shù)據(jù)是相似的,等等。如果上述假設(shè)??違反了業(yè)務(wù)場(chǎng)景的話,根據(jù)這些假設(shè)搭建的模型當(dāng)然就無(wú)法有效應(yīng)用了。??基于上述原因,需要對(duì)決策樹(shù)進(jìn)行剪枝以縮小樹(shù)結(jié)構(gòu)的規(guī)模、緩解過(guò)??擬合。對(duì)于某個(gè)結(jié)點(diǎn)進(jìn)行剪枝操作,就是把該結(jié)點(diǎn)延伸出的子樹(shù)全部“刪??除”掉,僅保留該結(jié)點(diǎn)本身。顯然,經(jīng)過(guò)剪枝操作的結(jié)點(diǎn)會(huì)變成葉子結(jié)點(diǎn),??該結(jié)點(diǎn)內(nèi)的樣本類別由多數(shù)原則確定。??下圖給出剪枝的示意圖。??「???!?!?〇??^?V?\????\??I⑦〇I〇?〇??/?\!??!?〇?〇??L?1??圖1.4:決策樹(shù)剪枝示意圖??剪枝方法和程度對(duì)決策樹(shù)泛化能力的影響相當(dāng)顯著,Mingers111進(jìn)行??的實(shí)驗(yàn)研究表明,在數(shù)據(jù)帶有噪聲時(shí)通過(guò)剪枝可將決策樹(shù)的泛化性能提??高25%,因此對(duì)剪枝技術(shù)進(jìn)行研究是很有必要的。??一?7-??


本文編號(hào):3429463

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3429463.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d8362***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com