天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 管理理論論文 >

基于數(shù)據(jù)挖掘的分類預(yù)測模型研究

發(fā)布時(shí)間:2015-03-05 12:39

劉娟 福州大學(xué)

摘要:數(shù)據(jù)挖掘技術(shù)己經(jīng)引起了信息產(chǎn)業(yè)界的廣泛關(guān)注。分類預(yù)測是其中一個(gè)主要的研究方向,有著廣泛的應(yīng)用價(jià)值。對數(shù)據(jù)挖掘中的三種分類預(yù)測挖掘算法(C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò))進(jìn)行了研究和探討,并通過一個(gè)實(shí)際例子對三種算法做了分析和比較,三種算法的精確度分別為87.26%85.71%88.7%。TAN貝葉斯網(wǎng)絡(luò)的精確度和敏感性均最高,C5.0算法的特異性最好。

關(guān)鍵詞:數(shù)據(jù)挖掘;分類預(yù)測;敏感性;特異性

1.引言

數(shù)據(jù)挖掘技術(shù)產(chǎn)生十幾年來得到了較為廣泛的應(yīng)用,并取得了顯著的經(jīng)濟(jì)及社會(huì)效益,但該技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用目前處于起步階段。電子病歷(CPR)作為醫(yī)院信息系統(tǒng)(HIS)的一個(gè)重要組成部分,它是將傳統(tǒng)的紙質(zhì)病歷電子化,并超越紙質(zhì)病歷的管理模式, 提供查詢、統(tǒng)計(jì)分析、信息交換等功能。隨著電子病歷數(shù)據(jù)庫系統(tǒng)中病歷數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息或知識也已經(jīng)成為目前電子病歷系統(tǒng)研究的熱點(diǎn)問題。因此積極探索數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用,具有重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。

本文采用分類算法,檢測屬性與胃癌早期預(yù)警相關(guān)的屬性,構(gòu)建較為適合的預(yù)測模型,探討是否有助于提高胃癌早期預(yù)警或診斷的正確率及聯(lián)合檢測對胃癌輔助診斷的意義,以實(shí)現(xiàn)胃癌早期預(yù)警、診斷和分類的自動(dòng)化,為高危人群的篩查和臨床胃癌診斷提供有價(jià)值的參考資料。

2.方法

2.1 數(shù)據(jù)來源

本文的數(shù)據(jù)是通過在監(jiān)控、流行病學(xué)和最終結(jié)果(SEER)網(wǎng)站上申請的1973-2009登記的確診病例。SEER項(xiàng)目是美國國家癌癥研究所監(jiān)控研究項(xiàng)目的一部分,它將這些數(shù)據(jù)免費(fèi)提供給以分析研究為目的的機(jī)構(gòu)和實(shí)驗(yàn)室。

數(shù)據(jù)預(yù)處理幾乎是數(shù)據(jù)挖掘過程中最重要的一步。SEER數(shù)據(jù)包含9個(gè)文本文件,每個(gè)文件代表某個(gè)具體解剖位點(diǎn)的癌癥。

SEERDIGOTHR.TXT包含308155條記錄。由于本文只考慮胃癌的生存預(yù)測,因此需要對數(shù)據(jù)進(jìn)行初步的篩選。由于較多屬性適用范圍是1988年以后,為了預(yù)測模型的準(zhǔn)確性,選取1998-2002年的數(shù)據(jù)。

數(shù)據(jù)清理主要是清除掉與挖掘主題無關(guān)的屬性和冗余屬性、光滑噪聲數(shù)據(jù)、填充空缺值和識別刪除孤立點(diǎn)。本文原始數(shù)據(jù)中存在空缺值,數(shù)據(jù)格式不一致等現(xiàn)象,清除掉一些跟挖掘主題無關(guān)的屬性,如“診斷年份”、“注冊ID”等。

2.2.2數(shù)據(jù)集成

數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,數(shù)據(jù)集成還可能產(chǎn)生數(shù)據(jù)重復(fù)等冗余問題。由于本文數(shù)據(jù)都來自SEER,數(shù)據(jù)集成這一部分的工作較少。

2.2.3數(shù)據(jù)變換

數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。初始數(shù)據(jù)共有134個(gè)屬性,本文屬性選擇的標(biāo)準(zhǔn)是信息增益率。

經(jīng)過數(shù)據(jù)預(yù)處理以后得到的數(shù)據(jù)集包括9個(gè)變量(8個(gè)條件屬性和1個(gè)決策屬性)和1806條記錄。決策變量是一個(gè)二元分類變量,0代表沒有存活,1代表存活。預(yù)分類考慮三個(gè)變量: Survival Time Recode (STR), Vital Status Recode (VSR), and Cause of Death (COD),步驟如下:

1. 如果STR大于等于60個(gè)月并且VSR1,則屬于“survived”,標(biāo)記為1

2. 如果STR小于60個(gè)月并且COD21020,則屬于“not survived”,標(biāo)記為0

,。

2.3 運(yùn)行環(huán)境

軟硬件環(huán)境:AMD A6-3400M 1.40GHz  安裝內(nèi)存6.00GB 操作系統(tǒng):Windows 7 旗艦版 建模環(huán)境:Clementine 12.0

2.4 預(yù)測模型

本文使用了三種不容類型的分類模型:C5.0、BP人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。

2.5 評估模型精確度的方法

本文采用的模型評價(jià)參數(shù)是精確性、敏感性和特異性。

3.結(jié)果與分析

三種模型的精確性、敏感性和特異性結(jié)果如表1所示:

 

accuracy

sensitivity

specificity

C5.0

87.26

75.22

92.98

BP-人工神經(jīng)網(wǎng)絡(luò)

85.71

76.42

90.12

TAN貝葉斯網(wǎng)絡(luò)

88.7

82.79

91.51

 

 

 

從上表可以看出,TAN貝葉斯網(wǎng)絡(luò)的精確度最高,敏感性均最好,,C5.0算法的特異性最好,而BP-人工神經(jīng)網(wǎng)絡(luò)的精確度和特異性都是最差。整體而言,三種算法的特異性均比敏感性要好,這可能是由于樣本數(shù)據(jù)分布不均勻?qū)е碌摹?span lang="EN-US">

4.結(jié)論

本文運(yùn)用實(shí)例對C5.0、BP-人工神經(jīng)網(wǎng)絡(luò)和TAN貝葉斯網(wǎng)絡(luò)進(jìn)行了比較研究,針對本文預(yù)測精度不高的不足,以后的工作將圍繞一些新的并且更有前景的算法,如支持向量機(jī)和模糊集等,以進(jìn)一步提高預(yù)測準(zhǔn)確度。具體存活時(shí)間的預(yù)測也是今后的研究方向。



本文編號:16464

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/glzh/16464.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a276f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com