基于決策樹方法的非平衡問題數(shù)值分析與算法改進(jìn)
發(fā)布時(shí)間:2021-02-19 19:22
非平衡問題在數(shù)據(jù)科學(xué)研究中廣泛存在,對(duì)于此類問題人們往往較為關(guān)心小類被分對(duì)的概率。本文旨在研究不同因素對(duì)決策樹分類效果的影響,以及如何對(duì)決策樹算法進(jìn)行改進(jìn),提升其在非平衡問題中的表現(xiàn)。通過決策樹算法和K-近鄰算法的有機(jī)結(jié)合,本文構(gòu)造出了一個(gè)新的算法—LRDT算法(Leaf Rank Decision Tree)。LRDT算法的核心在于根據(jù)合適的指標(biāo)對(duì)決策樹中的大類葉子進(jìn)行排序,通過優(yōu)先處理表現(xiàn)不好的葉子來提高小類的準(zhǔn)確率。該算法緩解了非平衡問題中決策樹為了保證整體準(zhǔn)確率偏向大類,導(dǎo)致小類被埋沒的問題,在提高小類準(zhǔn)確率的同時(shí)未損失整體的準(zhǔn)確率。
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景
1.2 本文主要工作
第二章 決策樹
2.1 C4.5算法
2.2 實(shí)例應(yīng)用
第三章 不同因素對(duì)決策樹分類效果的影響及數(shù)值分析
3.1 評(píng)價(jià)指標(biāo)
3.2 單個(gè)因素對(duì)決策樹分類效果的影響
3.3 多個(gè)因素共同作用的影響
第四章 LRDT算法
4.1 基本思想
4.2 算法介紹
第五章 實(shí)驗(yàn)
5.1 數(shù)據(jù)介紹
5.2 實(shí)驗(yàn)結(jié)果
第六章 結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3041572
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景
1.2 本文主要工作
第二章 決策樹
2.1 C4.5算法
2.2 實(shí)例應(yīng)用
第三章 不同因素對(duì)決策樹分類效果的影響及數(shù)值分析
3.1 評(píng)價(jià)指標(biāo)
3.2 單個(gè)因素對(duì)決策樹分類效果的影響
3.3 多個(gè)因素共同作用的影響
第四章 LRDT算法
4.1 基本思想
4.2 算法介紹
第五章 實(shí)驗(yàn)
5.1 數(shù)據(jù)介紹
5.2 實(shí)驗(yàn)結(jié)果
第六章 結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3041572
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3041572.html
最近更新
教材專著