天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 客戶關(guān)系論文 >

基于誤判成本的決策樹C5.0算法的優(yōu)化分析

發(fā)布時間:2017-08-08 09:24

  本文關(guān)鍵詞:基于誤判成本的決策樹C5.0算法的優(yōu)化分析


  更多相關(guān)文章: 決策樹 C5.0算法 誤判成本 成本矩陣


【摘要】:在數(shù)據(jù)挖掘的分類應(yīng)用中,決策樹算法是最為廣泛的一種分類算法,具有算法簡單高效、分類精準(zhǔn)度高的特點,但是在建立分類模型的過程中將所有的誤判分類平等對待,導(dǎo)致不同成本值的錯誤分類沒有在建模過程中區(qū)別對待,使得模型錯誤分類的總成本值較高。針對以上問題,本文引入了成本矩陣的概念,通過分析不同類型的誤判成本值,組成相應(yīng)的成本矩陣,并且在醫(yī)院患者分類的數(shù)據(jù)挖掘過程中實現(xiàn)了C5.0算法的優(yōu)化,從而建立誤判成本較小的患者預(yù)測分類模型,通過實驗也驗證了成本矩陣可以有效的降低預(yù)測分類模型的誤判成本。本文首先對決策樹分類算法進行了分析,深入研究了基于成本矩陣的決策樹C5.0算法優(yōu)化及其在醫(yī)院患者分類中的應(yīng)用,并且根據(jù)醫(yī)院患者分類的實際應(yīng)用情況,對數(shù)據(jù)挖掘模型的成本矩陣、剪枝程度和Boosting算法進行了分析研究。在成本矩陣的優(yōu)化分析中引入了高成本錯誤誤判成本值COST(高)、一般成本錯誤誤判成本值COST(中)、低成本錯誤誤判成本值COST(低),并且分析了誤判成本取值的判定條件,最終對比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度優(yōu)化分析中分析了剪枝程度選取的兩個參考值:決策樹模型的復(fù)雜程度和分類準(zhǔn)確率,通過實驗對比分析兩個參考值得到剪枝程度的最優(yōu)值。在Boosting算法的優(yōu)化分析中針對算法的迭代次數(shù)和過度擬合問題進行分析,通過測試樣本的對比發(fā)現(xiàn)了過度擬合的問題,所以在本次建模中不能使用Boosting迭代算法。在此基礎(chǔ)之上,對醫(yī)院的住院客戶進行數(shù)據(jù)取樣、預(yù)處理和建模數(shù)據(jù)抽取,使用決策樹C5.0算法建立了住院患者預(yù)測分類模型,并且用測試數(shù)據(jù)對模型進行測試分析。與此同時,將該模型應(yīng)用于醫(yī)院客戶關(guān)系管理系統(tǒng)中的住院患者分類模塊中,實現(xiàn)了醫(yī)院CRM系統(tǒng)中的資料管理模塊,能夠?qū)π氯朐旱淖≡夯颊哌M行價值分類。本論文的創(chuàng)新點在于研究分析了全新的決策樹C5.0算法,在預(yù)測分類中將誤判成本考慮在內(nèi),給出了誤判成本值的取值條件,建立了成本矩陣指導(dǎo)建模,并且實現(xiàn)了在模型整體錯誤率變化不大的情況下做到預(yù)測分類錯誤成本最小。在Boosting算法分析中發(fā)現(xiàn)了Boosting迭代算法會導(dǎo)致建模數(shù)據(jù)過度擬合的問題。本次建立的患者預(yù)測分類模型雖然具有風(fēng)險度低、穩(wěn)定性好等優(yōu)點,但是模型在建模數(shù)據(jù)和測試數(shù)據(jù)中的分類錯誤率較高,分別是8.29%和8.17%,所以分類的精確度還可以進一步提高。
【關(guān)鍵詞】:決策樹 C5.0算法 誤判成本 成本矩陣
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13
【目錄】:
  • 中文摘要8-10
  • ABSTRACT10-12
  • 第一章 緒論12-17
  • 1.1 選題背景和意義12-13
  • 1.2 國內(nèi)外的發(fā)展現(xiàn)狀13-14
  • 1.3 論文主要內(nèi)容14-15
  • 1.4 論文組織結(jié)構(gòu)15-17
  • 第二章 數(shù)據(jù)挖掘與決策樹技術(shù)17-34
  • 2.1 數(shù)據(jù)挖掘技術(shù)概述17-23
  • 2.1.1 數(shù)據(jù)挖掘的基本概念17
  • 2.1.2 數(shù)據(jù)挖掘的研究內(nèi)容17-18
  • 2.1.3 數(shù)據(jù)挖掘的常用技術(shù)18-20
  • 2.1.4 數(shù)據(jù)挖掘過程20-23
  • 2.2 決策樹技術(shù)23-34
  • 2.2.1 決策樹簡介23-26
  • 2.2.2 決策樹C5.0算法26-30
  • 2.2.3 決策樹的剪枝30-34
  • 第三章 C5.0算法的優(yōu)化分析34-60
  • 3.1 數(shù)據(jù)采集34-37
  • 3.1.1 數(shù)據(jù)源的選擇34-37
  • 3.1.2 數(shù)據(jù)取樣37
  • 3.2 數(shù)據(jù)預(yù)處理37-41
  • 3.2.1 處理數(shù)據(jù)噪聲38-39
  • 3.2.2 處理冗余數(shù)據(jù)39
  • 3.2.3 數(shù)據(jù)變換39-41
  • 3.3 建模開發(fā)41-44
  • 3.4 決策樹C5.0算法優(yōu)化44-56
  • 3.4.1 成本矩陣的設(shè)定44-46
  • 3.4.2 選定剪枝程度46-47
  • 3.4.3 Boosting算法應(yīng)用分析47-55
  • 3.4.4 模型分析55-56
  • 3.5 住院患者預(yù)測分類模型應(yīng)用56-58
  • 3.6 住院患者劃分模型的改進58
  • 3.7 決策樹C5.0算法優(yōu)化分析58-60
  • 結(jié)論60-61
  • 參考文獻61-64
  • 攻讀學(xué)位期間取得的研究成果64-65
  • 致謝65-66
  • 個人簡況及聯(lián)系方式66-67
  • 承諾書67-68

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 蹇明,黃定軒,武振業(yè);無決策屬性的多屬性決策權(quán)重融合方法[J];西南交通大學(xué)學(xué)報;2005年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 胡自力;基于數(shù)理統(tǒng)計的鍛模設(shè)計準(zhǔn)則挖掘[D];湖南大學(xué);2008年

,

本文編號:639266

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/639266.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b317a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲国产精品久久精品成人| 欧美精品久久99九九| 国产又色又粗又黄又爽| 日本欧美一区二区三区在线播| 翘臀少妇成人一区二区| 国产免费成人激情视频| 久久免费精品拍拍一区二区| 欧美日韩久久精品一区二区| 日韩三级黄色大片免费观看| 亚洲中文字幕高清视频在线观看| 日韩欧美一区二区黄色 | 亚洲伊人久久精品国产| 欧美日韩人妻中文一区二区| 国产丝袜美女诱惑一区二区| 东京热男人的天堂社区| 欧美加勒比一区二区三区| 久久国产青偷人人妻潘金莲| 国产综合香蕉五月婷在线| 日韩国产亚洲欧美另类| 99视频精品免费视频播放| 日本不卡在线一区二区三区| 91亚洲国产成人久久精品麻豆| 免费在线成人午夜视频 | 亚洲国产天堂av成人在线播放| 亚洲精品黄色片中文字幕| 国产精品久久香蕉国产线| 偷自拍亚洲欧美一区二页| 日韩国产传媒在线精品| 国产欧美日产中文一区| 日韩国产精品激情一区| 麻豆视传媒短视频免费观看| 亚洲高清中文字幕一区二三区 | 日韩精品免费一区二区三区 | 亚洲av成人一区二区三区在线| 国产日产欧美精品视频| 精品高清美女精品国产区| 中文字幕日韩精品人一妻| 国产欧美日韩视频91| 东京热加勒比一区二区| 国产精品香蕉一级免费| 成人午夜视频在线播放|