模型決策樹方法研究

發(fā)布時(shí)間：2021-06-13 00:16

　　信息時(shí)代的快速發(fā)展使得數(shù)據(jù)的采集、傳輸變得更加容易,數(shù)據(jù)規(guī)模也呈現(xiàn)指數(shù)式增長的趨勢(shì)。這樣龐大的數(shù)據(jù)中蘊(yùn)藏著巨大的價(jià)值,所以對(duì)大數(shù)據(jù)的分析和利用便顯得尤為重要。對(duì)數(shù)據(jù)進(jìn)行分類是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要任務(wù),比如垃圾郵件識(shí)別、圖像識(shí)別、人臉識(shí)別、語音識(shí)別等。決策樹（Decision Tree,DT）憑借其優(yōu)秀的數(shù)據(jù)分析效率和易理解的輸出結(jié)果在分類問題中得到了廣泛的應(yīng)用,然而因?yàn)闆Q策樹采用遞歸方法構(gòu)建,在數(shù)據(jù)規(guī)模較大的情況下,訓(xùn)練效率較低,并且過度分類的決策樹可能會(huì)產(chǎn)生過擬合現(xiàn)象。因此研究高效的決策樹構(gòu)建算法仍然具有重要的應(yīng)用價(jià)值。本文針對(duì)上述問題開展研究,具體內(nèi)容包括:（1）提出模型決策樹方法。針對(duì)決策樹遞歸構(gòu)建造成算法時(shí)間變長、效率變低的問題,本文提出一種模型決策樹算法（Model Decision Tree,MDT）。MDT算法在訓(xùn)練數(shù)據(jù)集上采用基尼指數(shù)生成一棵不完全決策樹,然后用一個(gè)簡單分類模型對(duì)其中的非純偽葉結(jié)點(diǎn)（非葉結(jié)點(diǎn)且結(jié)點(diǎn)包含的樣本不屬于同一類）進(jìn)行分類,進(jìn)而生成最終的決策樹。這樣產(chǎn)生的模型決策樹與原始的決策樹算法相比,能夠在算法精度不損失或者損失較小的情況下,提高決策樹的訓(xùn)...

【文章來源】：山西大學(xué)山西省

【文章頁數(shù)】：56 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

模型決策樹方法研究

不完全決策樹的構(gòu)造示意圖

折線圖,數(shù)據(jù)集,決策樹算法

可以看出，表現(xiàn)最好的是 MDT_SVM(rbf)算法，其次是 MDTFS_SVM(rbf)算法、DT 算法和 MDT_LIB 算法，排在第三位的是 MDTFS_SVM(linear)算法，排在最后一位的是 LIBLINEAR 算法。綜上所述，本文提出的 MDT 算法在精度方面的表現(xiàn)也具有一定的優(yōu)勢(shì)。(4) 抗過擬合性分析因?yàn)楸疚奶岢龅哪Ｐ蜎Q策樹并沒有像傳統(tǒng)決策樹一樣在非純偽葉結(jié)點(diǎn)上繼續(xù)分裂，所以模型決策樹算法可能在一定程度上減弱決策樹算法因?yàn)榻Y(jié)點(diǎn)完全分裂而造成的過擬合現(xiàn)象。為說明這一結(jié)論，本文在幾個(gè)數(shù)據(jù)集上分別統(tǒng)計(jì)了決策樹算法和模型決策樹算法在測(cè)試集上的誤差和在訓(xùn)練集上的誤差，用以觀察這兩類算法的過擬合現(xiàn)象。圖 3.2(a)給出了 Credit Card Cliet 數(shù)據(jù)集上未使用屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10％的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測(cè)試誤差折線圖；圖 3.2(b)給出了 Credit Card Cliet 數(shù)據(jù)集上使用了屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10％的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測(cè)試誤差折線圖，其中模型決策樹算法的 t 全部取 0.1。

錯(cuò)誤率,指標(biāo),分類錯(cuò)誤

_rna 12.32 12.21 12.19 12.46 12.27 12.24 12.32 12.31 12tralian 15.64 15.89 16.41 16.64 16.87 16.80 17.02 16.69 16guide1 4.87 5.19 5.28 4.97 5.10 5.02 4.96 5.08 5ice 0.91 1.03 1.26 1.14 1.23 1.21 1.24 1.19 1ast_cancer 2.45 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2e_solar 31.47 31.46 31.47 31.48 31.49 31.47 31.48 31.49 31最后一列給出了 10 個(gè)數(shù)據(jù)集在不同 L 下錯(cuò)誤率的平均值。來看，在這 10 個(gè)數(shù)據(jù)集上 MDF 算法的分類錯(cuò)誤率隨著 L有些數(shù)據(jù)集上 MDF 算法的分類錯(cuò)誤率會(huì)隨著 L 的增加而集上會(huì)先增大后減小，剩下一些則隨著 L 的增大變化不明率隨著 L 的變化情況不一樣且錯(cuò)誤率的最小值分布在不同小值與表中其它錯(cuò)誤率值的差距也較小。的說明不同 L 下的 MDF 算法錯(cuò)誤率的變化情況，選取了每察，具體如圖 4.1 所示。

【參考文獻(xiàn)】：
期刊論文
[1]模型決策樹:一種決策樹加速算法[J]. 尹儒,門昌騫,王文劍,劉澍澤. 模式識(shí)別與人工智能. 2018(07)
[2]決策樹技術(shù)及其當(dāng)前研究方向[J]. John Durkin,蔡競(jìng)峰,蔡自興. 控制工程. 2005(01)

本文編號(hào)：3226593

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3226593.html

上一篇：基于RFID的殘疾人定位系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
下一篇：面向大服務(wù)的知識(shí)圖譜管理平臺(tái)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

模型決策樹方法研究