基于誤判成本的決策樹C5.0算法的優(yōu)化分析
發(fā)布時間:2017-08-08 09:24
本文關(guān)鍵詞:基于誤判成本的決策樹C5.0算法的優(yōu)化分析
更多相關(guān)文章: 決策樹 C5.0算法 誤判成本 成本矩陣
【摘要】:在數(shù)據(jù)挖掘的分類應(yīng)用中,決策樹算法是最為廣泛的一種分類算法,具有算法簡單高效、分類精準(zhǔn)度高的特點,但是在建立分類模型的過程中將所有的誤判分類平等對待,導(dǎo)致不同成本值的錯誤分類沒有在建模過程中區(qū)別對待,使得模型錯誤分類的總成本值較高。針對以上問題,本文引入了成本矩陣的概念,通過分析不同類型的誤判成本值,組成相應(yīng)的成本矩陣,并且在醫(yī)院患者分類的數(shù)據(jù)挖掘過程中實現(xiàn)了C5.0算法的優(yōu)化,從而建立誤判成本較小的患者預(yù)測分類模型,通過實驗也驗證了成本矩陣可以有效的降低預(yù)測分類模型的誤判成本。本文首先對決策樹分類算法進行了分析,深入研究了基于成本矩陣的決策樹C5.0算法優(yōu)化及其在醫(yī)院患者分類中的應(yīng)用,并且根據(jù)醫(yī)院患者分類的實際應(yīng)用情況,對數(shù)據(jù)挖掘模型的成本矩陣、剪枝程度和Boosting算法進行了分析研究。在成本矩陣的優(yōu)化分析中引入了高成本錯誤誤判成本值COST(高)、一般成本錯誤誤判成本值COST(中)、低成本錯誤誤判成本值COST(低),并且分析了誤判成本取值的判定條件,最終對比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度優(yōu)化分析中分析了剪枝程度選取的兩個參考值:決策樹模型的復(fù)雜程度和分類準(zhǔn)確率,通過實驗對比分析兩個參考值得到剪枝程度的最優(yōu)值。在Boosting算法的優(yōu)化分析中針對算法的迭代次數(shù)和過度擬合問題進行分析,通過測試樣本的對比發(fā)現(xiàn)了過度擬合的問題,所以在本次建模中不能使用Boosting迭代算法。在此基礎(chǔ)之上,對醫(yī)院的住院客戶進行數(shù)據(jù)取樣、預(yù)處理和建模數(shù)據(jù)抽取,使用決策樹C5.0算法建立了住院患者預(yù)測分類模型,并且用測試數(shù)據(jù)對模型進行測試分析。與此同時,將該模型應(yīng)用于醫(yī)院客戶關(guān)系管理系統(tǒng)中的住院患者分類模塊中,實現(xiàn)了醫(yī)院CRM系統(tǒng)中的資料管理模塊,能夠?qū)π氯朐旱淖≡夯颊哌M行價值分類。本論文的創(chuàng)新點在于研究分析了全新的決策樹C5.0算法,在預(yù)測分類中將誤判成本考慮在內(nèi),給出了誤判成本值的取值條件,建立了成本矩陣指導(dǎo)建模,并且實現(xiàn)了在模型整體錯誤率變化不大的情況下做到預(yù)測分類錯誤成本最小。在Boosting算法分析中發(fā)現(xiàn)了Boosting迭代算法會導(dǎo)致建模數(shù)據(jù)過度擬合的問題。本次建立的患者預(yù)測分類模型雖然具有風(fēng)險度低、穩(wěn)定性好等優(yōu)點,但是模型在建模數(shù)據(jù)和測試數(shù)據(jù)中的分類錯誤率較高,分別是8.29%和8.17%,所以分類的精確度還可以進一步提高。
【關(guān)鍵詞】:決策樹 C5.0算法 誤判成本 成本矩陣
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13
【目錄】:
- 中文摘要8-10
- ABSTRACT10-12
- 第一章 緒論12-17
- 1.1 選題背景和意義12-13
- 1.2 國內(nèi)外的發(fā)展現(xiàn)狀13-14
- 1.3 論文主要內(nèi)容14-15
- 1.4 論文組織結(jié)構(gòu)15-17
- 第二章 數(shù)據(jù)挖掘與決策樹技術(shù)17-34
- 2.1 數(shù)據(jù)挖掘技術(shù)概述17-23
- 2.1.1 數(shù)據(jù)挖掘的基本概念17
- 2.1.2 數(shù)據(jù)挖掘的研究內(nèi)容17-18
- 2.1.3 數(shù)據(jù)挖掘的常用技術(shù)18-20
- 2.1.4 數(shù)據(jù)挖掘過程20-23
- 2.2 決策樹技術(shù)23-34
- 2.2.1 決策樹簡介23-26
- 2.2.2 決策樹C5.0算法26-30
- 2.2.3 決策樹的剪枝30-34
- 第三章 C5.0算法的優(yōu)化分析34-60
- 3.1 數(shù)據(jù)采集34-37
- 3.1.1 數(shù)據(jù)源的選擇34-37
- 3.1.2 數(shù)據(jù)取樣37
- 3.2 數(shù)據(jù)預(yù)處理37-41
- 3.2.1 處理數(shù)據(jù)噪聲38-39
- 3.2.2 處理冗余數(shù)據(jù)39
- 3.2.3 數(shù)據(jù)變換39-41
- 3.3 建模開發(fā)41-44
- 3.4 決策樹C5.0算法優(yōu)化44-56
- 3.4.1 成本矩陣的設(shè)定44-46
- 3.4.2 選定剪枝程度46-47
- 3.4.3 Boosting算法應(yīng)用分析47-55
- 3.4.4 模型分析55-56
- 3.5 住院患者預(yù)測分類模型應(yīng)用56-58
- 3.6 住院患者劃分模型的改進58
- 3.7 決策樹C5.0算法優(yōu)化分析58-60
- 結(jié)論60-61
- 參考文獻61-64
- 攻讀學(xué)位期間取得的研究成果64-65
- 致謝65-66
- 個人簡況及聯(lián)系方式66-67
- 承諾書67-68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 蹇明,黃定軒,武振業(yè);無決策屬性的多屬性決策權(quán)重融合方法[J];西南交通大學(xué)學(xué)報;2005年02期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 胡自力;基于數(shù)理統(tǒng)計的鍛模設(shè)計準(zhǔn)則挖掘[D];湖南大學(xué);2008年
,本文編號:639266
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/639266.html
最近更新
教材專著