模型決策樹方法研究
發(fā)布時間:2021-06-13 00:16
信息時代的快速發(fā)展使得數(shù)據(jù)的采集、傳輸變得更加容易,數(shù)據(jù)規(guī)模也呈現(xiàn)指數(shù)式增長的趨勢。這樣龐大的數(shù)據(jù)中蘊(yùn)藏著巨大的價值,所以對大數(shù)據(jù)的分析和利用便顯得尤為重要。對數(shù)據(jù)進(jìn)行分類是機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要任務(wù),比如垃圾郵件識別、圖像識別、人臉識別、語音識別等。決策樹(Decision Tree,DT)憑借其優(yōu)秀的數(shù)據(jù)分析效率和易理解的輸出結(jié)果在分類問題中得到了廣泛的應(yīng)用,然而因為決策樹采用遞歸方法構(gòu)建,在數(shù)據(jù)規(guī)模較大的情況下,訓(xùn)練效率較低,并且過度分類的決策樹可能會產(chǎn)生過擬合現(xiàn)象。因此研究高效的決策樹構(gòu)建算法仍然具有重要的應(yīng)用價值。本文針對上述問題開展研究,具體內(nèi)容包括:(1)提出模型決策樹方法。針對決策樹遞歸構(gòu)建造成算法時間變長、效率變低的問題,本文提出一種模型決策樹算法(Model Decision Tree,MDT)。MDT算法在訓(xùn)練數(shù)據(jù)集上采用基尼指數(shù)生成一棵不完全決策樹,然后用一個簡單分類模型對其中的非純偽葉結(jié)點(非葉結(jié)點且結(jié)點包含的樣本不屬于同一類)進(jìn)行分類,進(jìn)而生成最終的決策樹。這樣產(chǎn)生的模型決策樹與原始的決策樹算法相比,能夠在算法精度不損失或者損失較小的情況下,提高決策樹的訓(xùn)...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
不完全決策樹的構(gòu)造示意圖
可以看出,表現(xiàn)最好的是 MDT_SVM(rbf)算法,其次是 MDTFS_SVM(rbf)算法、DT 算法和 MDT_LIB 算法,排在第三位的是 MDTFS_SVM(linear)算法,排在最后一位的是 LIBLINEAR 算法。綜上所述,本文提出的 MDT 算法在精度方面的表現(xiàn)也具有一定的優(yōu)勢。(4) 抗過擬合性分析因為本文提出的模型決策樹并沒有像傳統(tǒng)決策樹一樣在非純偽葉結(jié)點上繼續(xù)分裂,所以模型決策樹算法可能在一定程度上減弱決策樹算法因為結(jié)點完全分裂而造成的過擬合現(xiàn)象。為說明這一結(jié)論,本文在幾個數(shù)據(jù)集上分別統(tǒng)計了決策樹算法和模型決策樹算法在測試集上的誤差和在訓(xùn)練集上的誤差,用以觀察這兩類算法的過擬合現(xiàn)象。圖 3.2(a)給出了 Credit Card Cliet 數(shù)據(jù)集上未使用屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10%的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測試誤差折線圖;圖 3.2(b)給出了 Credit Card Cliet 數(shù)據(jù)集上使用了屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10%的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測試誤差折線圖,其中模型決策樹算法的 t 全部取 0.1。
_rna 12.32 12.21 12.19 12.46 12.27 12.24 12.32 12.31 12tralian 15.64 15.89 16.41 16.64 16.87 16.80 17.02 16.69 16guide1 4.87 5.19 5.28 4.97 5.10 5.02 4.96 5.08 5ice 0.91 1.03 1.26 1.14 1.23 1.21 1.24 1.19 1ast_cancer 2.45 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2e_solar 31.47 31.46 31.47 31.48 31.49 31.47 31.48 31.49 31最后一列給出了 10 個數(shù)據(jù)集在不同 L 下錯誤率的平均值。來看,在這 10 個數(shù)據(jù)集上 MDF 算法的分類錯誤率隨著 L有些數(shù)據(jù)集上 MDF 算法的分類錯誤率會隨著 L 的增加而集上會先增大后減小,剩下一些則隨著 L 的增大變化不明率隨著 L 的變化情況不一樣且錯誤率的最小值分布在不同小值與表中其它錯誤率值的差距也較小。的說明不同 L 下的 MDF 算法錯誤率的變化情況,選取了每察,具體如圖 4.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]模型決策樹:一種決策樹加速算法[J]. 尹儒,門昌騫,王文劍,劉澍澤. 模式識別與人工智能. 2018(07)
[2]決策樹技術(shù)及其當(dāng)前研究方向[J]. John Durkin,蔡競峰,蔡自興. 控制工程. 2005(01)
本文編號:3226593
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
不完全決策樹的構(gòu)造示意圖
可以看出,表現(xiàn)最好的是 MDT_SVM(rbf)算法,其次是 MDTFS_SVM(rbf)算法、DT 算法和 MDT_LIB 算法,排在第三位的是 MDTFS_SVM(linear)算法,排在最后一位的是 LIBLINEAR 算法。綜上所述,本文提出的 MDT 算法在精度方面的表現(xiàn)也具有一定的優(yōu)勢。(4) 抗過擬合性分析因為本文提出的模型決策樹并沒有像傳統(tǒng)決策樹一樣在非純偽葉結(jié)點上繼續(xù)分裂,所以模型決策樹算法可能在一定程度上減弱決策樹算法因為結(jié)點完全分裂而造成的過擬合現(xiàn)象。為說明這一結(jié)論,本文在幾個數(shù)據(jù)集上分別統(tǒng)計了決策樹算法和模型決策樹算法在測試集上的誤差和在訓(xùn)練集上的誤差,用以觀察這兩類算法的過擬合現(xiàn)象。圖 3.2(a)給出了 Credit Card Cliet 數(shù)據(jù)集上未使用屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10%的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測試誤差折線圖;圖 3.2(b)給出了 Credit Card Cliet 數(shù)據(jù)集上使用了屬性隨機(jī)的四種算法在初始訓(xùn)練集上取 10%的樣本到 100%的樣本進(jìn)行訓(xùn)練得到的訓(xùn)練誤差和測試誤差折線圖,其中模型決策樹算法的 t 全部取 0.1。
_rna 12.32 12.21 12.19 12.46 12.27 12.24 12.32 12.31 12tralian 15.64 15.89 16.41 16.64 16.87 16.80 17.02 16.69 16guide1 4.87 5.19 5.28 4.97 5.10 5.02 4.96 5.08 5ice 0.91 1.03 1.26 1.14 1.23 1.21 1.24 1.19 1ast_cancer 2.45 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2e_solar 31.47 31.46 31.47 31.48 31.49 31.47 31.48 31.49 31最后一列給出了 10 個數(shù)據(jù)集在不同 L 下錯誤率的平均值。來看,在這 10 個數(shù)據(jù)集上 MDF 算法的分類錯誤率隨著 L有些數(shù)據(jù)集上 MDF 算法的分類錯誤率會隨著 L 的增加而集上會先增大后減小,剩下一些則隨著 L 的增大變化不明率隨著 L 的變化情況不一樣且錯誤率的最小值分布在不同小值與表中其它錯誤率值的差距也較小。的說明不同 L 下的 MDF 算法錯誤率的變化情況,選取了每察,具體如圖 4.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]模型決策樹:一種決策樹加速算法[J]. 尹儒,門昌騫,王文劍,劉澍澤. 模式識別與人工智能. 2018(07)
[2]決策樹技術(shù)及其當(dāng)前研究方向[J]. John Durkin,蔡競峰,蔡自興. 控制工程. 2005(01)
本文編號:3226593
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3226593.html
最近更新
教材專著