基于代價矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關系管理中的應用
本文關鍵詞:基于代價矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關系管理中的應用,由筆耕文化傳播整理發(fā)布。
【摘要】:客戶關系管理作為一個全新的理念,在國內(nèi)的電力、營銷等行業(yè)都有了一定的應用發(fā)展,但在醫(yī)療行業(yè)的應用發(fā)展還是非常少的,隨著醫(yī)療體制改革的深入發(fā)展,醫(yī)療行業(yè)的客戶關系管理正在成為一個熱門課題。在數(shù)據(jù)挖掘的分類應用中,決策樹算法是最為廣泛的一種分類算法,具有算法簡單高效、分類精準度高的特點,所以本次醫(yī)院患者分類優(yōu)先選取了決策樹的C5.0算法,并且針對患者分類模型引入了代價矩陣的實現(xiàn)了C5.0算法的優(yōu)化,從而建立誤判代價較小的患者分類模型。 本文首先對決策樹分類算法進行了分析,深入研究了基于代價矩陣的決策樹C5.0算法優(yōu)化及其在醫(yī)院患者分類中的應用,并且根據(jù)醫(yī)院患者分類的實際應用情況,對數(shù)據(jù)挖掘模型的代價矩陣、剪枝程度和Boosting算法進行了分析研究。在代價矩陣的優(yōu)化分析中引入了高代價錯誤誤判代價值COST(高)、一般代價錯誤誤判代價值COST(中)、低代價錯誤誤判代價值COST(低),并且分析了誤判代價取值的判定條件,最終對比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度優(yōu)化分析中分析了剪枝程度選取的兩個參考值:決策樹模型的復雜程度和分類準確率,通過實驗對比分析兩個參考值得到剪枝程度的最優(yōu)值。在Boosting算法的優(yōu)化分析中針對算法的迭代次數(shù)和過度擬合問題進行分析,通過測試樣本的對比發(fā)現(xiàn)了過度擬合的問題,所以在本次建模中不能使用Boosting迭代算法。在此基礎之上,對醫(yī)院的住院客戶進行數(shù)據(jù)取樣、預處理和建模數(shù)據(jù)抽取,使用決策樹C5.0算法建立了住院患者分類模型,并且用測試數(shù)據(jù)對模型進行測試分析。與此同時,將該模型應用于醫(yī)院客戶關系管理系統(tǒng)中的住院患者分類模塊中,實現(xiàn)了醫(yī)院CRM系統(tǒng)中的資料管理模塊,能夠?qū)π氯朐旱淖≡夯颊哌M行價值分類。 本論文的創(chuàng)新點在于研究分析了全新的決策樹C5.0算法,在預測分類中將誤判代價考慮在內(nèi),給出了誤判代價值的取值條件,建立了代價矩陣指導建模,并且實現(xiàn)了在模型整體錯誤率變化不大的情況下做到預測分類錯誤代價最小。在Boosting算法分析中發(fā)現(xiàn)了Boosting迭代算法會導致建模數(shù)據(jù)過度擬合的問題。 本次建立的患者分類模型雖然具有風險度低、穩(wěn)定性好等優(yōu)點,但是模型在建模數(shù)據(jù)和測試數(shù)據(jù)中的分類錯誤率較高,分別是8.29%和8.17%,所以分類的精確度還可以進一步提高。
【關鍵詞】:決策樹 客戶關系管理 C5.0算法 誤判成本 代價矩陣
【學位授予單位】:太原理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-15
- 1.1 選題背景和意義9-10
- 1.2 課題的研究價值10
- 1.3 CRM在國內(nèi)外的發(fā)展現(xiàn)狀10-12
- 1.4 論文主要內(nèi)容12-13
- 1.5 論文組織結(jié)構13-15
- 第二章 數(shù)據(jù)挖掘與決策樹技術及在醫(yī)院CRM中的發(fā)展應用15-43
- 2.1 數(shù)據(jù)挖掘技術概述15-25
- 2.1.1 數(shù)據(jù)挖掘的基本概念15-16
- 2.1.2 數(shù)據(jù)挖掘的研究內(nèi)容16-18
- 2.1.3 數(shù)據(jù)挖掘的常用技術18-20
- 2.1.4 數(shù)據(jù)挖掘過程20-25
- 2.2 決策樹技術25-35
- 2.2.1 決策樹簡介25-27
- 2.2.2 決策樹C5.0算法27-31
- 2.2.3 決策樹的剪枝31-35
- 2.3 決策樹在醫(yī)院CRM中的發(fā)展應用35-43
- 2.3.1 醫(yī)院客戶關系管理35-37
- 2.3.2 醫(yī)院客戶關系管理的意義37-38
- 2.3.3 決策樹技術在醫(yī)院CRM中的應用優(yōu)勢38-40
- 2.3.4 決策樹技術在醫(yī)院CRM中的應用方式40-43
- 第三章 C5.0算法在醫(yī)院患者分類中的應用43-71
- 3.1 數(shù)據(jù)采集43-47
- 3.1.1 數(shù)據(jù)源的選擇43-46
- 3.1.2 數(shù)據(jù)取樣46-47
- 3.2 數(shù)據(jù)預處理47-51
- 3.2.1 處理數(shù)據(jù)噪聲47-48
- 3.2.2 處理冗余數(shù)據(jù)48-49
- 3.2.3 數(shù)據(jù)變換49-51
- 3.3 建模開發(fā)51-54
- 3.4 模型優(yōu)化54-66
- 3.4.1 代價矩陣的設定54-56
- 3.4.2 選定剪枝程度56-57
- 3.4.3 Boosting算法應用分析57-66
- 3.4.4 模型分析66
- 3.5 住院患者分類模型應用66-70
- 3.6 住院患者劃分模型的改進70-71
- 結(jié)論71-73
- 參考文獻73-76
- 致謝76-77
- 攻讀學位期間發(fā)表的學術論文77
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉建華;從數(shù)據(jù)中挖掘知識[J];福建師范大學學報(自然科學版);2001年04期
2 欒麗華,吉根林;決策樹分類技術研究[J];計算機工程;2004年09期
3 柳林;涂光平;楊峰;;基于決策樹的數(shù)據(jù)挖掘方法在CRM中的應用研究[J];計算技術與自動化;2006年01期
4 韓慧,毛鋒,王文淵;數(shù)據(jù)挖掘中決策樹算法的最新進展[J];計算機應用研究;2004年12期
5 趙凱;;模糊決策樹算法在郵件分類中的應用[J];科技通報;2012年06期
6 劉紅巖,陳劍,陳國青;數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J];清華大學學報(自然科學版);2002年06期
7 劉小虎,李生;決策樹的優(yōu)化算法[J];軟件學報;1998年10期
8 楊明,張載鴻;決策樹學習算法ID3的研究[J];微機發(fā)展;2002年05期
9 羅海蛟,劉顯;數(shù)據(jù)挖掘中分類算法的研究及其應用[J];微機發(fā)展;2003年S2期
10 盧云燕;;數(shù)據(jù)挖掘技術[J];重慶教育學院學報;2006年03期
本文關鍵詞:基于代價矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關系管理中的應用,,由筆耕文化傳播整理發(fā)布。
本文編號:396925
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/396925.html