一種改進的ID3算法及其在銀行信用卡違約評估中的應(yīng)用
發(fā)布時間:2021-06-25 12:02
數(shù)據(jù)挖掘是一種新型的數(shù)據(jù)分析技術(shù).數(shù)據(jù)挖掘中的算法按照其應(yīng)用不同可以分為監(jiān)督學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹和回歸等;無監(jiān)督學(xué)習(xí):聚類分析、關(guān)聯(lián)規(guī)則分析;數(shù)據(jù)降維:主成分分析、因子分析等.常見的決策樹算法包括:ID3算法、C4.5算法、CART算法,其中ID3算法作為最早的決策樹算法,應(yīng)用最為廣泛.本文針對決策樹中ID3算法進行深入研究,解決了該算法中存在的多值偏向、信息熵中對數(shù)運算較為復(fù)雜的問題.針對ID3算法存在的多值偏向問題,本文提出了一種修改信息增益函數(shù)的ID3算法,將屬性與類別之間的相關(guān)系數(shù)、屬性值的個數(shù)引入到信息增益函數(shù)中.改進的ID3算法減小了屬性值較多且與類別相關(guān)性不大屬性的信息增益值,解決了多值偏向問題;針對信息熵中復(fù)雜的對數(shù)運算,本文利用泰勒公式簡化了信息熵公式,將信息熵公式中的對數(shù)運算轉(zhuǎn)換為非對數(shù)運算;通過UCI上四個經(jīng)典的數(shù)據(jù)集,數(shù)值檢驗了改進后的ID3算法的確提高了分類精確度,簡化的信息熵公式降低了時間復(fù)雜度.最后,本文將改進的ID3算法應(yīng)用于銀行信用卡違約評估中,對其數(shù)據(jù)集中的諸如缺少屬性值、屬性值離散化和屬性選擇等問題提出了具體的解決方案.相比之下,改進...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹
圖 3-1 兩種算法精度從圖 3-1 中可以看出,對于這四個數(shù)據(jù)集,改進的 ID3 算法形成的決策樹的度在 75.4%~94.1%之間波動,而傳統(tǒng)的 ID3 算法的精確度大約在 72.3%~86右,改進后的 ID3 在分類精度上有約 6.1%的小幅度增加.由于改進的 ID3 在生策樹時使用相關(guān)系數(shù)和屬性值的數(shù)量,因此有效地平衡了傳統(tǒng)算法多值偏向性足.可以得出結(jié)論,新算法在多值偏向問題上有明顯的改善.其次本文對比了簡化公式前后的建樹所需要的時間,使用的數(shù)據(jù)集也是上數(shù)據(jù)集,具體時間如表 3-3 所示表 3-3 建樹所需時間數(shù)據(jù)集名稱建決策樹所需要的時間(ms)ID3 算法 簡化后的 ID3 算法 時間差I(lǐng)ris 0.0812 0.057 0.0242Breast-Cancer 0.093 0.091 0.002Balance-Scale 4.9 4.5 0.4Car 50.3 37.3 13
算法運行時間對比
【參考文獻】:
期刊論文
[1]基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 吳思博,陳志剛,黃瑞. 計算機工程與科學(xué). 2016(11)
[2]基于相關(guān)系數(shù)的決策樹優(yōu)化算法[J]. 董躍華,劉力. 計算機工程與科學(xué). 2015(09)
[3]論數(shù)據(jù)挖掘的發(fā)展前景及潛在價值[J]. 羅艷,何建東,李久丹. 大眾科技. 2012(04)
[4]基于用戶興趣度和MID3決策樹改進方法[J]. 王永梅,胡學(xué)鋼. 計算機工程與應(yīng)用. 2011(27)
[5]一種基于修正信息增益的ID3算法[J]. 張春麗,張磊. 計算機工程與科學(xué). 2008(11)
[6]一種基于灰色關(guān)聯(lián)度的決策樹改進算法[J]. 葉明全,胡學(xué)鋼. 計算機工程與應(yīng)用. 2007(32)
[7]基于關(guān)聯(lián)度函數(shù)的決策樹分類算法[J]. 韓松來,張輝,周華平. 計算機應(yīng)用. 2005(11)
[8]決策樹分類技術(shù)研究[J]. 欒麗華,吉根林. 計算機工程. 2004(09)
[9]用遺傳算法構(gòu)造二元決策樹[J]. 吳菲,黃梯云. 計算機研究與發(fā)展. 1999(11)
[10]決策樹的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報. 1998(10)
博士論文
[1]基于關(guān)聯(lián)規(guī)則與決策樹的預(yù)測方法研究及其應(yīng)用[D]. 伊衛(wèi)國.大連海事大學(xué) 2012
碩士論文
[1]改進決策樹算法在腫瘤數(shù)據(jù)中的應(yīng)用[D]. 劉子鈺.東北師范大學(xué) 2015
[2]基于排序熵的有序決策樹高效算法研究[D]. 陳建凱.河北大學(xué) 2014
[3]基于Weka平臺的決策樹算法研究與實現(xiàn)[D]. 吳燁.西安電子科技大學(xué) 2014
[4]基于蟻群優(yōu)化的決策樹算法研究與應(yīng)用[D]. 張忠坤.北京郵電大學(xué) 2014
本文編號:3249175
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹
圖 3-1 兩種算法精度從圖 3-1 中可以看出,對于這四個數(shù)據(jù)集,改進的 ID3 算法形成的決策樹的度在 75.4%~94.1%之間波動,而傳統(tǒng)的 ID3 算法的精確度大約在 72.3%~86右,改進后的 ID3 在分類精度上有約 6.1%的小幅度增加.由于改進的 ID3 在生策樹時使用相關(guān)系數(shù)和屬性值的數(shù)量,因此有效地平衡了傳統(tǒng)算法多值偏向性足.可以得出結(jié)論,新算法在多值偏向問題上有明顯的改善.其次本文對比了簡化公式前后的建樹所需要的時間,使用的數(shù)據(jù)集也是上數(shù)據(jù)集,具體時間如表 3-3 所示表 3-3 建樹所需時間數(shù)據(jù)集名稱建決策樹所需要的時間(ms)ID3 算法 簡化后的 ID3 算法 時間差I(lǐng)ris 0.0812 0.057 0.0242Breast-Cancer 0.093 0.091 0.002Balance-Scale 4.9 4.5 0.4Car 50.3 37.3 13
算法運行時間對比
【參考文獻】:
期刊論文
[1]基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 吳思博,陳志剛,黃瑞. 計算機工程與科學(xué). 2016(11)
[2]基于相關(guān)系數(shù)的決策樹優(yōu)化算法[J]. 董躍華,劉力. 計算機工程與科學(xué). 2015(09)
[3]論數(shù)據(jù)挖掘的發(fā)展前景及潛在價值[J]. 羅艷,何建東,李久丹. 大眾科技. 2012(04)
[4]基于用戶興趣度和MID3決策樹改進方法[J]. 王永梅,胡學(xué)鋼. 計算機工程與應(yīng)用. 2011(27)
[5]一種基于修正信息增益的ID3算法[J]. 張春麗,張磊. 計算機工程與科學(xué). 2008(11)
[6]一種基于灰色關(guān)聯(lián)度的決策樹改進算法[J]. 葉明全,胡學(xué)鋼. 計算機工程與應(yīng)用. 2007(32)
[7]基于關(guān)聯(lián)度函數(shù)的決策樹分類算法[J]. 韓松來,張輝,周華平. 計算機應(yīng)用. 2005(11)
[8]決策樹分類技術(shù)研究[J]. 欒麗華,吉根林. 計算機工程. 2004(09)
[9]用遺傳算法構(gòu)造二元決策樹[J]. 吳菲,黃梯云. 計算機研究與發(fā)展. 1999(11)
[10]決策樹的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報. 1998(10)
博士論文
[1]基于關(guān)聯(lián)規(guī)則與決策樹的預(yù)測方法研究及其應(yīng)用[D]. 伊衛(wèi)國.大連海事大學(xué) 2012
碩士論文
[1]改進決策樹算法在腫瘤數(shù)據(jù)中的應(yīng)用[D]. 劉子鈺.東北師范大學(xué) 2015
[2]基于排序熵的有序決策樹高效算法研究[D]. 陳建凱.河北大學(xué) 2014
[3]基于Weka平臺的決策樹算法研究與實現(xiàn)[D]. 吳燁.西安電子科技大學(xué) 2014
[4]基于蟻群優(yōu)化的決策樹算法研究與應(yīng)用[D]. 張忠坤.北京郵電大學(xué) 2014
本文編號:3249175
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3249175.html
最近更新
教材專著