關聯(lián)分類算法及其在醫(yī)療數(shù)據(jù)中的應用研究
發(fā)布時間:2022-01-08 17:01
近年來,隨著醫(yī)院開始重視醫(yī)療信息化,以及國家對全民醫(yī)保的重視和投入,來醫(yī)院就診的病人逐漸增加,產生的醫(yī)療數(shù)據(jù)越來越多。此外,由于醫(yī)院購置了各種大型的高科技醫(yī)療設施,當廣泛的將其投入使用時也會產生海量的醫(yī)療數(shù)據(jù)。針對海量的醫(yī)療數(shù)據(jù),如何把數(shù)據(jù)中潛在的、有價值的信息挖掘出來,如何通過數(shù)據(jù)挖掘的方法了解某種疾病發(fā)生的危險性因素,提前預防或提前就診來降低發(fā)病率已經(jīng)成為一個問題。目前,國內外的研究者針對醫(yī)療數(shù)據(jù)挖掘的研究已經(jīng)取得了一些進展,但是目前的研究主要集中在對隨機森林、神經(jīng)網(wǎng)絡、支持向量機等傳統(tǒng)分類算法的改進及使用上,雖然分類準確度較高,但是并不能發(fā)現(xiàn)一些影響疾病發(fā)生的特征。而關聯(lián)分類算法可以挖掘出和某種疾病相關的特征,它是數(shù)據(jù)挖掘領域中主要的研究課題之一。專家系統(tǒng)對醫(yī)學應用中提取可以提供結果解釋的if-then規(guī)則很感興趣。為了有效地從數(shù)據(jù)中挖掘知識,提出了各種規(guī)則歸納算法,它們可以結合分類方法,形成以規(guī)則為基礎的分類算法。然而,大多數(shù)以規(guī)則為基礎的分類算法不能直接處理數(shù)值型數(shù)據(jù)。而離散化數(shù)據(jù)預處理可以將數(shù)值型數(shù)據(jù)轉變成分類格式。但是現(xiàn)有的離散化算法沒有考慮到數(shù)據(jù)集中數(shù)值變量的分布,這可...
【文章來源】:蘭州交通大學甘肅省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
重疊部分的處理方法
關聯(lián)分類算法及其在醫(yī)療數(shù)據(jù)中的應用研究算法中分量的數(shù)量。接下來,離散化后的數(shù)據(jù)集被應用到關聯(lián)分類算法。表 3.2 提供了運用 5 折交叉驗證方法產生的詳細結果。根據(jù)整體排名,min(BIC)提供了最好的結果,因此被用來在 DAGMM 算法中確定高斯分量數(shù)。其中,N/A 表示在支持度和置信度分別設置為 0.33 和 0.92 時關聯(lián)分類器無法提取到任何規(guī)則。3.3.3 DAGMM 算法的實驗結果及分析把六個靜態(tài)離散化算法與 DAGMM 算法進行比較,離散化算法都是在 MATLAB 中執(zhí)行的。離散化算法的參數(shù)根據(jù)經(jīng)驗或者根據(jù)現(xiàn)有的文獻進行設置。將 Holte’s 1R 算法的每個區(qū)間數(shù)據(jù)點的最小數(shù)目設置為 6。EW 算法儲存數(shù)量和 EF 算法每一個箱中儲存的數(shù)據(jù)點設置為 5。最后,用 30 個分量的最大值設置迭代 45000 次,得到 DAGMM 算法和 RGMM 算法的 EM 參數(shù)。圖 3.5 和表 3.3 展示了把連續(xù)數(shù)據(jù)離散化之后應用于關聯(lián)分類算法得到的詳細結果,分別得到分類準確度、生成規(guī)則的平均值以及區(qū)間總數(shù)。
蘭州交通大學工程碩士學位論文WAC 算法沒有消除未通過數(shù)據(jù)庫覆蓋方法覆蓋到的規(guī)則。當強規(guī)則不能預測新實例,這些規(guī)則被存儲在用于分類過程的備用規(guī)則集中。表 4.17 兩個乳腺癌數(shù)據(jù)集在所有算法上運行的的結果AlgorithmSupport=0.1Confidence=0.5Support=0.2Confidence=0.5Support=0.3Confidence=0.5Recurrence Diagnosis Recurrence Diagnosis Recurrence DiagnosisCBA 0.6277 0.947 0.6278 0.946 0.6276 0.794MMCAR 0.6412 0.938 0.6758 0.894 0.6731 0.833CARC 0.6514 0.968 0.6832 0.944 0.6648 0.938FACA 0.6743 0.952 0.6862 0.943 0.6396 0.941ECBA 0.6743 0.925 0.6278 0.935 0.6278 0.928FWAC 0.6978 0.973 0.7364 0.976 0.7094 0.969
本文編號:3576939
【文章來源】:蘭州交通大學甘肅省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
重疊部分的處理方法
關聯(lián)分類算法及其在醫(yī)療數(shù)據(jù)中的應用研究算法中分量的數(shù)量。接下來,離散化后的數(shù)據(jù)集被應用到關聯(lián)分類算法。表 3.2 提供了運用 5 折交叉驗證方法產生的詳細結果。根據(jù)整體排名,min(BIC)提供了最好的結果,因此被用來在 DAGMM 算法中確定高斯分量數(shù)。其中,N/A 表示在支持度和置信度分別設置為 0.33 和 0.92 時關聯(lián)分類器無法提取到任何規(guī)則。3.3.3 DAGMM 算法的實驗結果及分析把六個靜態(tài)離散化算法與 DAGMM 算法進行比較,離散化算法都是在 MATLAB 中執(zhí)行的。離散化算法的參數(shù)根據(jù)經(jīng)驗或者根據(jù)現(xiàn)有的文獻進行設置。將 Holte’s 1R 算法的每個區(qū)間數(shù)據(jù)點的最小數(shù)目設置為 6。EW 算法儲存數(shù)量和 EF 算法每一個箱中儲存的數(shù)據(jù)點設置為 5。最后,用 30 個分量的最大值設置迭代 45000 次,得到 DAGMM 算法和 RGMM 算法的 EM 參數(shù)。圖 3.5 和表 3.3 展示了把連續(xù)數(shù)據(jù)離散化之后應用于關聯(lián)分類算法得到的詳細結果,分別得到分類準確度、生成規(guī)則的平均值以及區(qū)間總數(shù)。
蘭州交通大學工程碩士學位論文WAC 算法沒有消除未通過數(shù)據(jù)庫覆蓋方法覆蓋到的規(guī)則。當強規(guī)則不能預測新實例,這些規(guī)則被存儲在用于分類過程的備用規(guī)則集中。表 4.17 兩個乳腺癌數(shù)據(jù)集在所有算法上運行的的結果AlgorithmSupport=0.1Confidence=0.5Support=0.2Confidence=0.5Support=0.3Confidence=0.5Recurrence Diagnosis Recurrence Diagnosis Recurrence DiagnosisCBA 0.6277 0.947 0.6278 0.946 0.6276 0.794MMCAR 0.6412 0.938 0.6758 0.894 0.6731 0.833CARC 0.6514 0.968 0.6832 0.944 0.6648 0.938FACA 0.6743 0.952 0.6862 0.943 0.6396 0.941ECBA 0.6743 0.925 0.6278 0.935 0.6278 0.928FWAC 0.6978 0.973 0.7364 0.976 0.7094 0.969
本文編號:3576939
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3576939.html
最近更新
教材專著