基于數(shù)據(jù)挖掘的分類預(yù)測(cè)模型研究

發(fā)布時(shí)間：2015-03-05 12:39

劉娟福州大學(xué)

摘要：數(shù)據(jù)挖掘技術(shù)己經(jīng)引起了信息產(chǎn)業(yè)界的廣泛關(guān)注。分類預(yù)測(cè)是其中一個(gè)主要的研究方向,有著廣泛的應(yīng)用價(jià)值。對(duì)數(shù)據(jù)挖掘中的三種分類預(yù)測(cè)挖掘算法(C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò))進(jìn)行了研究和探討,并通過(guò)一個(gè)實(shí)際例子對(duì)三種算法做了分析和比較,三種算法的精確度分別為87.26%、85.71%和88.7%。TAN貝葉斯網(wǎng)絡(luò)的精確度和敏感性均最高，C5.0算法的特異性最好。

關(guān)鍵詞：數(shù)據(jù)挖掘；分類預(yù)測(cè)；敏感性；特異性

1.引言

數(shù)據(jù)挖掘技術(shù)產(chǎn)生十幾年來(lái)得到了較為廣泛的應(yīng)用，并取得了顯著的經(jīng)濟(jì)及社會(huì)效益，但該技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用目前處于起步階段。電子病歷(CPR)作為醫(yī)院信息系統(tǒng)(HIS)的一個(gè)重要組成部分，它是將傳統(tǒng)的紙質(zhì)病歷電子化，并超越紙質(zhì)病歷的管理模式，提供查詢、統(tǒng)計(jì)分析、信息交換等功能。隨著電子病歷數(shù)據(jù)庫(kù)系統(tǒng)中病歷數(shù)據(jù)量急劇增長(zhǎng)，如何從海量的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息或知識(shí)也已經(jīng)成為目前電子病歷系統(tǒng)研究的熱點(diǎn)問(wèn)題。因此積極探索數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用，具有重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。

本文采用分類算法，檢測(cè)屬性與胃癌早期預(yù)警相關(guān)的屬性，構(gòu)建較為適合的預(yù)測(cè)模型，探討是否有助于提高胃癌早期預(yù)警或診斷的正確率及聯(lián)合檢測(cè)對(duì)胃癌輔助診斷的意義，以實(shí)現(xiàn)胃癌早期預(yù)警、診斷和分類的自動(dòng)化,為高危人群的篩查和臨床胃癌診斷提供有價(jià)值的參考資料。

2.方法

2.1 數(shù)據(jù)來(lái)源

本文的數(shù)據(jù)是通過(guò)在監(jiān)控、流行病學(xué)和最終結(jié)果(SEER)網(wǎng)站上申請(qǐng)的1973-2009登記的確診病例。SEER項(xiàng)目是美國(guó)國(guó)家癌癥研究所監(jiān)控研究項(xiàng)目的一部分，它將這些數(shù)據(jù)免費(fèi)提供給以分析研究為目的的機(jī)構(gòu)和實(shí)驗(yàn)室。

數(shù)據(jù)預(yù)處理幾乎是數(shù)據(jù)挖掘過(guò)程中最重要的一步。SEER數(shù)據(jù)包含9個(gè)文本文件，每個(gè)文件代表某個(gè)具體解剖位點(diǎn)的癌癥。

SEER的DIGOTHR.TXT包含308155條記錄。由于本文只考慮胃癌的生存預(yù)測(cè)，因此需要對(duì)數(shù)據(jù)進(jìn)行初步的篩選。由于較多屬性適用范圍是1988年以后，為了預(yù)測(cè)模型的準(zhǔn)確性，選取1998-2002年的數(shù)據(jù)。

數(shù)據(jù)清理主要是清除掉與挖掘主題無(wú)關(guān)的屬性和冗余屬性、光滑噪聲數(shù)據(jù)、填充空缺值和識(shí)別刪除孤立點(diǎn)。本文原始數(shù)據(jù)中存在空缺值，數(shù)據(jù)格式不一致等現(xiàn)象，清除掉一些跟挖掘主題無(wú)關(guān)的屬性，如“診斷年份”、“注冊(cè)ID”等。

2.2.2數(shù)據(jù)集成

數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理，數(shù)據(jù)集成還可能產(chǎn)生數(shù)據(jù)重復(fù)等冗余問(wèn)題。由于本文數(shù)據(jù)都來(lái)自SEER，數(shù)據(jù)集成這一部分的工作較少。

2.2.3數(shù)據(jù)變換

數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示，用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。初始數(shù)據(jù)共有134個(gè)屬性，本文屬性選擇的標(biāo)準(zhǔn)是信息增益率。

經(jīng)過(guò)數(shù)據(jù)預(yù)處理以后得到的數(shù)據(jù)集包括9個(gè)變量（8個(gè)條件屬性和1個(gè)決策屬性）和1806條記錄。決策變量是一個(gè)二元分類變量，0代表沒(méi)有存活，1代表存活。預(yù)分類考慮三個(gè)變量: Survival Time Recode (STR), Vital Status Recode (VSR), and Cause of Death (COD)，步驟如下：

1. 如果STR大于等于60個(gè)月并且VSR是1，則屬于“survived”，標(biāo)記為1

2. 如果STR小于60個(gè)月并且COD是21020，則屬于“not survived”，標(biāo)記為0

，。

2.3 運(yùn)行環(huán)境

軟硬件環(huán)境：AMD A6-3400M 1.40GHz 安裝內(nèi)存6.00GB 操作系統(tǒng)：Windows 7 旗艦版建模環(huán)境：Clementine 12.0。

2.4 預(yù)測(cè)模型

本文使用了三種不容類型的分類模型：C5.0、BP人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。

2.5 評(píng)估模型精確度的方法

本文采用的模型評(píng)價(jià)參數(shù)是精確性、敏感性和特異性。

3.結(jié)果與分析

三種模型的精確性、敏感性和特異性結(jié)果如表1所示：

accuracy

sensitivity

specificity

C5.0

87.26

75.22

92.98

BP-人工神經(jīng)網(wǎng)絡(luò)

85.71

76.42

90.12

TAN貝葉斯網(wǎng)絡(luò)

88.7

82.79

91.51

從上表可以看出，TAN貝葉斯網(wǎng)絡(luò)的精確度最高，敏感性均最好，，C5.0算法的特異性最好，而BP-人工神經(jīng)網(wǎng)絡(luò)的精確度和特異性都是最差。整體而言，三種算法的特異性均比敏感性要好，這可能是由于樣本數(shù)據(jù)分布不均勻?qū)е碌摹?span lang="EN-US">

4.結(jié)論

本文運(yùn)用實(shí)例對(duì)C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò)進(jìn)行了比較研究，針對(duì)本文預(yù)測(cè)精度不高的不足，以后的工作將圍繞一些新的并且更有前景的算法，如支持向量機(jī)和模糊集等，以進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度。具體存活時(shí)間的預(yù)測(cè)也是今后的研究方向。

本文編號(hào)：16464

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/glzh/16464.html

上一篇：固定資產(chǎn)實(shí)物管理方法的初探
下一篇：無(wú)形資產(chǎn)視域下的誠(chéng)信經(jīng)濟(jì)問(wèn)題

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于數(shù)據(jù)挖掘的分類預(yù)測(cè)模型研究