基于誤判成本的決策樹C5.0算法的優(yōu)化分析

發(fā)布時間：2017-08-08 09:24

本文關(guān)鍵詞：基于誤判成本的決策樹C5.0算法的優(yōu)化分析

更多相關(guān)文章： 決策樹 C5.0算法 誤判成本 成本矩陣

【摘要】：在數(shù)據(jù)挖掘的分類應(yīng)用中,決策樹算法是最為廣泛的一種分類算法,具有算法簡單高效、分類精準(zhǔn)度高的特點,但是在建立分類模型的過程中將所有的誤判分類平等對待,導(dǎo)致不同成本值的錯誤分類沒有在建模過程中區(qū)別對待,使得模型錯誤分類的總成本值較高。針對以上問題,本文引入了成本矩陣的概念,通過分析不同類型的誤判成本值,組成相應(yīng)的成本矩陣,并且在醫(yī)院患者分類的數(shù)據(jù)挖掘過程中實現(xiàn)了C5.0算法的優(yōu)化,從而建立誤判成本較小的患者預(yù)測分類模型,通過實驗也驗證了成本矩陣可以有效的降低預(yù)測分類模型的誤判成本。本文首先對決策樹分類算法進(jìn)行了分析,深入研究了基于成本矩陣的決策樹C5.0算法優(yōu)化及其在醫(yī)院患者分類中的應(yīng)用,并且根據(jù)醫(yī)院患者分類的實際應(yīng)用情況,對數(shù)據(jù)挖掘模型的成本矩陣、剪枝程度和Boosting算法進(jìn)行了分析研究。在成本矩陣的優(yōu)化分析中引入了高成本錯誤誤判成本值COST(高)、一般成本錯誤誤判成本值COST(中)、低成本錯誤誤判成本值COST(低),并且分析了誤判成本取值的判定條件,最終對比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度優(yōu)化分析中分析了剪枝程度選取的兩個參考值：決策樹模型的復(fù)雜程度和分類準(zhǔn)確率,通過實驗對比分析兩個參考值得到剪枝程度的最優(yōu)值。在Boosting算法的優(yōu)化分析中針對算法的迭代次數(shù)和過度擬合問題進(jìn)行分析,通過測試樣本的對比發(fā)現(xiàn)了過度擬合的問題,所以在本次建模中不能使用Boosting迭代算法。在此基礎(chǔ)之上,對醫(yī)院的住院客戶進(jìn)行數(shù)據(jù)取樣、預(yù)處理和建模數(shù)據(jù)抽取,使用決策樹C5.0算法建立了住院患者預(yù)測分類模型,并且用測試數(shù)據(jù)對模型進(jìn)行測試分析。與此同時,將該模型應(yīng)用于醫(yī)院客戶關(guān)系管理系統(tǒng)中的住院患者分類模塊中,實現(xiàn)了醫(yī)院CRM系統(tǒng)中的資料管理模塊,能夠?qū)π氯朐旱淖≡夯颊哌M(jìn)行價值分類。本論文的創(chuàng)新點在于研究分析了全新的決策樹C5.0算法,在預(yù)測分類中將誤判成本考慮在內(nèi),給出了誤判成本值的取值條件,建立了成本矩陣指導(dǎo)建模,并且實現(xiàn)了在模型整體錯誤率變化不大的情況下做到預(yù)測分類錯誤成本最小。在Boosting算法分析中發(fā)現(xiàn)了Boosting迭代算法會導(dǎo)致建模數(shù)據(jù)過度擬合的問題。本次建立的患者預(yù)測分類模型雖然具有風(fēng)險度低、穩(wěn)定性好等優(yōu)點,但是模型在建模數(shù)據(jù)和測試數(shù)據(jù)中的分類錯誤率較高,分別是8.29%和8.17%,所以分類的精確度還可以進(jìn)一步提高。
【關(guān)鍵詞】：決策樹 C5.0算法 誤判成本 成本矩陣
【學(xué)位授予單位】：山西大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP311.13
【目錄】：

中文摘要8-10
ABSTRACT10-12
第一章緒論12-17
1.1 選題背景和意義12-13
1.2 國內(nèi)外的發(fā)展現(xiàn)狀13-14
1.3 論文主要內(nèi)容14-15
1.4 論文組織結(jié)構(gòu)15-17
第二章數(shù)據(jù)挖掘與決策樹技術(shù)17-34
2.1 數(shù)據(jù)挖掘技術(shù)概述17-23
2.1.1 數(shù)據(jù)挖掘的基本概念17
2.1.2 數(shù)據(jù)挖掘的研究內(nèi)容17-18
2.1.3 數(shù)據(jù)挖掘的常用技術(shù)18-20
2.1.4 數(shù)據(jù)挖掘過程20-23
2.2 決策樹技術(shù)23-34
2.2.1 決策樹簡介23-26
2.2.2 決策樹C5.0算法26-30
2.2.3 決策樹的剪枝30-34
第三章 C5.0算法的優(yōu)化分析34-60
3.1 數(shù)據(jù)采集34-37
3.1.1 數(shù)據(jù)源的選擇34-37
3.1.2 數(shù)據(jù)取樣37
3.2 數(shù)據(jù)預(yù)處理37-41
3.2.1 處理數(shù)據(jù)噪聲38-39
3.2.2 處理冗余數(shù)據(jù)39
3.2.3 數(shù)據(jù)變換39-41
3.3 建模開發(fā)41-44
3.4 決策樹C5.0算法優(yōu)化44-56
3.4.1 成本矩陣的設(shè)定44-46
3.4.2 選定剪枝程度46-47
3.4.3 Boosting算法應(yīng)用分析47-55
3.4.4 模型分析55-56
3.5 住院患者預(yù)測分類模型應(yīng)用56-58
3.6 住院患者劃分模型的改進(jìn)58
3.7 決策樹C5.0算法優(yōu)化分析58-60
結(jié)論60-61
參考文獻(xiàn)61-64
攻讀學(xué)位期間取得的研究成果64-65
致謝65-66
個人簡況及聯(lián)系方式66-67
承諾書67-68

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前1條

1 蹇明,黃定軒,武振業(yè);無決策屬性的多屬性決策權(quán)重融合方法[J];西南交通大學(xué)學(xué)報;2005年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 胡自力;基于數(shù)理統(tǒng)計的鍛模設(shè)計準(zhǔn)則挖掘[D];湖南大學(xué);2008年

，

本文編號：639266

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/kehuguanxiguanli/639266.html

上一篇：CRM在高職構(gòu)建就業(yè)信息反饋體系中的應(yīng)用研究
下一篇：基于數(shù)據(jù)挖掘的四川移動CRM管理平臺的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于誤判成本的決策樹C5.0算法的優(yōu)化分析