基于數(shù)據(jù)挖掘的分類預(yù)測模型研究
劉娟 福州大學(xué)
摘要:數(shù)據(jù)挖掘技術(shù)己經(jīng)引起了信息產(chǎn)業(yè)界的廣泛關(guān)注。分類預(yù)測是其中一個(gè)主要的研究方向,有著廣泛的應(yīng)用價(jià)值。對數(shù)據(jù)挖掘中的三種分類預(yù)測挖掘算法(C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò))進(jìn)行了研究和探討,并通過一個(gè)實(shí)際例子對三種算法做了分析和比較,三種算法的精確度分別為87.26%、85.71%和88.7%。TAN貝葉斯網(wǎng)絡(luò)的精確度和敏感性均最高,C5.0算法的特異性最好。
關(guān)鍵詞:數(shù)據(jù)挖掘;分類預(yù)測;敏感性;特異性
1.引言
數(shù)據(jù)挖掘技術(shù)產(chǎn)生十幾年來得到了較為廣泛的應(yīng)用,并取得了顯著的經(jīng)濟(jì)及社會(huì)效益,但該技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用目前處于起步階段。電子病歷(CPR)作為醫(yī)院信息系統(tǒng)(HIS)的一個(gè)重要組成部分,它是將傳統(tǒng)的紙質(zhì)病歷電子化,并超越紙質(zhì)病歷的管理模式, 提供查詢、統(tǒng)計(jì)分析、信息交換等功能。隨著電子病歷數(shù)據(jù)庫系統(tǒng)中病歷數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息或知識也已經(jīng)成為目前電子病歷系統(tǒng)研究的熱點(diǎn)問題。因此積極探索數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用,具有重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。
本文采用分類算法,檢測屬性與胃癌早期預(yù)警相關(guān)的屬性,構(gòu)建較為適合的預(yù)測模型,探討是否有助于提高胃癌早期預(yù)警或診斷的正確率及聯(lián)合檢測對胃癌輔助診斷的意義,以實(shí)現(xiàn)胃癌早期預(yù)警、診斷和分類的自動(dòng)化,為高危人群的篩查和臨床胃癌診斷提供有價(jià)值的參考資料。
2.方法
2.1 數(shù)據(jù)來源
本文的數(shù)據(jù)是通過在監(jiān)控、流行病學(xué)和最終結(jié)果(SEER)網(wǎng)站上申請的1973-2009登記的確診病例。SEER項(xiàng)目是美國國家癌癥研究所監(jiān)控研究項(xiàng)目的一部分,它將這些數(shù)據(jù)免費(fèi)提供給以分析研究為目的的機(jī)構(gòu)和實(shí)驗(yàn)室。
數(shù)據(jù)預(yù)處理幾乎是數(shù)據(jù)挖掘過程中最重要的一步。SEER數(shù)據(jù)包含9個(gè)文本文件,每個(gè)文件代表某個(gè)具體解剖位點(diǎn)的癌癥。
SEER的DIGOTHR.TXT包含308155條記錄。由于本文只考慮胃癌的生存預(yù)測,因此需要對數(shù)據(jù)進(jìn)行初步的篩選。由于較多屬性適用范圍是1988年以后,為了預(yù)測模型的準(zhǔn)確性,選取1998-2002年的數(shù)據(jù)。
數(shù)據(jù)清理主要是清除掉與挖掘主題無關(guān)的屬性和冗余屬性、光滑噪聲數(shù)據(jù)、填充空缺值和識別刪除孤立點(diǎn)。本文原始數(shù)據(jù)中存在空缺值,數(shù)據(jù)格式不一致等現(xiàn)象,清除掉一些跟挖掘主題無關(guān)的屬性,如“診斷年份”、“注冊ID”等。
2.2.2數(shù)據(jù)集成
數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,數(shù)據(jù)集成還可能產(chǎn)生數(shù)據(jù)重復(fù)等冗余問題。由于本文數(shù)據(jù)都來自SEER,數(shù)據(jù)集成這一部分的工作較少。
2.2.3數(shù)據(jù)變換
數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。初始數(shù)據(jù)共有134個(gè)屬性,本文屬性選擇的標(biāo)準(zhǔn)是信息增益率。
經(jīng)過數(shù)據(jù)預(yù)處理以后得到的數(shù)據(jù)集包括9個(gè)變量(8個(gè)條件屬性和1個(gè)決策屬性)和1806條記錄。決策變量是一個(gè)二元分類變量,0代表沒有存活,1代表存活。預(yù)分類考慮三個(gè)變量: Survival Time Recode (STR), Vital Status Recode (VSR), and Cause of Death (COD),步驟如下:
1. 如果STR大于等于60個(gè)月并且VSR是1,則屬于“survived”,標(biāo)記為1
2. 如果STR小于60個(gè)月并且COD是21020,則屬于“not survived”,標(biāo)記為0
,。
2.3 運(yùn)行環(huán)境
軟硬件環(huán)境:AMD A6-3400M 1.40GHz 安裝內(nèi)存6.00GB 操作系統(tǒng):Windows 7 旗艦版 建模環(huán)境:Clementine 12.0。
2.4 預(yù)測模型
本文使用了三種不容類型的分類模型:C5.0、BP人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。
2.5 評估模型精確度的方法
本文采用的模型評價(jià)參數(shù)是精確性、敏感性和特異性。
3.結(jié)果與分析
三種模型的精確性、敏感性和特異性結(jié)果如表1所示:
accuracy
sensitivity
specificity
C5.0
87.26
75.22
92.98
BP-人工神經(jīng)網(wǎng)絡(luò)
85.71
76.42
90.12
TAN貝葉斯網(wǎng)絡(luò)
88.7
82.79
91.51
從上表可以看出,TAN貝葉斯網(wǎng)絡(luò)的精確度最高,敏感性均最好,,C5.0算法的特異性最好,而BP-人工神經(jīng)網(wǎng)絡(luò)的精確度和特異性都是最差。整體而言,三種算法的特異性均比敏感性要好,這可能是由于樣本數(shù)據(jù)分布不均勻?qū)е碌摹?span lang="EN-US">
4.結(jié)論
本文運(yùn)用實(shí)例對C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò)進(jìn)行了比較研究,針對本文預(yù)測精度不高的不足,以后的工作將圍繞一些新的并且更有前景的算法,如支持向量機(jī)和模糊集等,以進(jìn)一步提高預(yù)測準(zhǔn)確度。具體存活時(shí)間的預(yù)測也是今后的研究方向。
本文編號:16464
本文鏈接:http://sikaile.net/guanlilunwen/glzh/16464.html