基于代價(jià)矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關(guān)系管理中的應(yīng)用
本文關(guān)鍵詞:基于代價(jià)矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關(guān)系管理中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:客戶關(guān)系管理作為一個(gè)全新的理念,在國內(nèi)的電力、營銷等行業(yè)都有了一定的應(yīng)用發(fā)展,但在醫(yī)療行業(yè)的應(yīng)用發(fā)展還是非常少的,隨著醫(yī)療體制改革的深入發(fā)展,醫(yī)療行業(yè)的客戶關(guān)系管理正在成為一個(gè)熱門課題。在數(shù)據(jù)挖掘的分類應(yīng)用中,決策樹算法是最為廣泛的一種分類算法,具有算法簡單高效、分類精準(zhǔn)度高的特點(diǎn),所以本次醫(yī)院患者分類優(yōu)先選取了決策樹的C5.0算法,并且針對患者分類模型引入了代價(jià)矩陣的實(shí)現(xiàn)了C5.0算法的優(yōu)化,從而建立誤判代價(jià)較小的患者分類模型。 本文首先對決策樹分類算法進(jìn)行了分析,深入研究了基于代價(jià)矩陣的決策樹C5.0算法優(yōu)化及其在醫(yī)院患者分類中的應(yīng)用,并且根據(jù)醫(yī)院患者分類的實(shí)際應(yīng)用情況,對數(shù)據(jù)挖掘模型的代價(jià)矩陣、剪枝程度和Boosting算法進(jìn)行了分析研究。在代價(jià)矩陣的優(yōu)化分析中引入了高代價(jià)錯(cuò)誤誤判代價(jià)值COST(高)、一般代價(jià)錯(cuò)誤誤判代價(jià)值COST(中)、低代價(jià)錯(cuò)誤誤判代價(jià)值COST(低),并且分析了誤判代價(jià)取值的判定條件,最終對比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度優(yōu)化分析中分析了剪枝程度選取的兩個(gè)參考值:決策樹模型的復(fù)雜程度和分類準(zhǔn)確率,通過實(shí)驗(yàn)對比分析兩個(gè)參考值得到剪枝程度的最優(yōu)值。在Boosting算法的優(yōu)化分析中針對算法的迭代次數(shù)和過度擬合問題進(jìn)行分析,通過測試樣本的對比發(fā)現(xiàn)了過度擬合的問題,所以在本次建模中不能使用Boosting迭代算法。在此基礎(chǔ)之上,對醫(yī)院的住院客戶進(jìn)行數(shù)據(jù)取樣、預(yù)處理和建模數(shù)據(jù)抽取,使用決策樹C5.0算法建立了住院患者分類模型,并且用測試數(shù)據(jù)對模型進(jìn)行測試分析。與此同時(shí),將該模型應(yīng)用于醫(yī)院客戶關(guān)系管理系統(tǒng)中的住院患者分類模塊中,實(shí)現(xiàn)了醫(yī)院CRM系統(tǒng)中的資料管理模塊,能夠?qū)π氯朐旱淖≡夯颊哌M(jìn)行價(jià)值分類。 本論文的創(chuàng)新點(diǎn)在于研究分析了全新的決策樹C5.0算法,在預(yù)測分類中將誤判代價(jià)考慮在內(nèi),給出了誤判代價(jià)值的取值條件,建立了代價(jià)矩陣指導(dǎo)建模,并且實(shí)現(xiàn)了在模型整體錯(cuò)誤率變化不大的情況下做到預(yù)測分類錯(cuò)誤代價(jià)最小。在Boosting算法分析中發(fā)現(xiàn)了Boosting迭代算法會導(dǎo)致建模數(shù)據(jù)過度擬合的問題。 本次建立的患者分類模型雖然具有風(fēng)險(xiǎn)度低、穩(wěn)定性好等優(yōu)點(diǎn),但是模型在建模數(shù)據(jù)和測試數(shù)據(jù)中的分類錯(cuò)誤率較高,分別是8.29%和8.17%,所以分類的精確度還可以進(jìn)一步提高。
【關(guān)鍵詞】:決策樹 客戶關(guān)系管理 C5.0算法 誤判成本 代價(jià)矩陣
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-15
- 1.1 選題背景和意義9-10
- 1.2 課題的研究價(jià)值10
- 1.3 CRM在國內(nèi)外的發(fā)展現(xiàn)狀10-12
- 1.4 論文主要內(nèi)容12-13
- 1.5 論文組織結(jié)構(gòu)13-15
- 第二章 數(shù)據(jù)挖掘與決策樹技術(shù)及在醫(yī)院CRM中的發(fā)展應(yīng)用15-43
- 2.1 數(shù)據(jù)挖掘技術(shù)概述15-25
- 2.1.1 數(shù)據(jù)挖掘的基本概念15-16
- 2.1.2 數(shù)據(jù)挖掘的研究內(nèi)容16-18
- 2.1.3 數(shù)據(jù)挖掘的常用技術(shù)18-20
- 2.1.4 數(shù)據(jù)挖掘過程20-25
- 2.2 決策樹技術(shù)25-35
- 2.2.1 決策樹簡介25-27
- 2.2.2 決策樹C5.0算法27-31
- 2.2.3 決策樹的剪枝31-35
- 2.3 決策樹在醫(yī)院CRM中的發(fā)展應(yīng)用35-43
- 2.3.1 醫(yī)院客戶關(guān)系管理35-37
- 2.3.2 醫(yī)院客戶關(guān)系管理的意義37-38
- 2.3.3 決策樹技術(shù)在醫(yī)院CRM中的應(yīng)用優(yōu)勢38-40
- 2.3.4 決策樹技術(shù)在醫(yī)院CRM中的應(yīng)用方式40-43
- 第三章 C5.0算法在醫(yī)院患者分類中的應(yīng)用43-71
- 3.1 數(shù)據(jù)采集43-47
- 3.1.1 數(shù)據(jù)源的選擇43-46
- 3.1.2 數(shù)據(jù)取樣46-47
- 3.2 數(shù)據(jù)預(yù)處理47-51
- 3.2.1 處理數(shù)據(jù)噪聲47-48
- 3.2.2 處理冗余數(shù)據(jù)48-49
- 3.2.3 數(shù)據(jù)變換49-51
- 3.3 建模開發(fā)51-54
- 3.4 模型優(yōu)化54-66
- 3.4.1 代價(jià)矩陣的設(shè)定54-56
- 3.4.2 選定剪枝程度56-57
- 3.4.3 Boosting算法應(yīng)用分析57-66
- 3.4.4 模型分析66
- 3.5 住院患者分類模型應(yīng)用66-70
- 3.6 住院患者劃分模型的改進(jìn)70-71
- 結(jié)論71-73
- 參考文獻(xiàn)73-76
- 致謝76-77
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文77
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉建華;從數(shù)據(jù)中挖掘知識[J];福建師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
2 欒麗華,吉根林;決策樹分類技術(shù)研究[J];計(jì)算機(jī)工程;2004年09期
3 柳林;涂光平;楊峰;;基于決策樹的數(shù)據(jù)挖掘方法在CRM中的應(yīng)用研究[J];計(jì)算技術(shù)與自動化;2006年01期
4 韓慧,毛鋒,王文淵;數(shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2004年12期
5 趙凱;;模糊決策樹算法在郵件分類中的應(yīng)用[J];科技通報(bào);2012年06期
6 劉紅巖,陳劍,陳國青;數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年06期
7 劉小虎,李生;決策樹的優(yōu)化算法[J];軟件學(xué)報(bào);1998年10期
8 楊明,張載鴻;決策樹學(xué)習(xí)算法ID3的研究[J];微機(jī)發(fā)展;2002年05期
9 羅海蛟,劉顯;數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用[J];微機(jī)發(fā)展;2003年S2期
10 盧云燕;;數(shù)據(jù)挖掘技術(shù)[J];重慶教育學(xué)院學(xué)報(bào);2006年03期
本文關(guān)鍵詞:基于代價(jià)矩陣的C5.0優(yōu)化算法及在醫(yī)院客戶關(guān)系管理中的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:396925
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/396925.html