天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用

發(fā)布時間:2018-02-16 23:51

  本文關(guān)鍵詞: 分類 蒙特卡羅模擬 判別分析 logistic回歸 決策樹 神經(jīng)網(wǎng)絡(luò) 多重共線性 先驗(yàn)概率 出處:《南方醫(yī)科大學(xué)》2008年博士論文 論文類型:學(xué)位論文


【摘要】: 背景數(shù)據(jù)挖掘是綜合利用了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫和人工智能技術(shù),從海量數(shù)據(jù)中提取知識和信息的一門技術(shù)。據(jù)報(bào)導(dǎo),在我國生物醫(yī)學(xué)中僅有不足10%的數(shù)據(jù)用來分析。與此同時,在生物醫(yī)學(xué)數(shù)據(jù)資源中數(shù)據(jù)挖掘方法學(xué)研究是相對匱乏和滯后的。當(dāng)前,數(shù)據(jù)挖掘已成為一個具有迫切現(xiàn)實(shí)需要且很有前途的熱點(diǎn)研究領(lǐng)域。隨著生物醫(yī)學(xué)數(shù)據(jù)量的急劇增漲及其數(shù)據(jù)的特殊性,需要加大數(shù)據(jù)挖掘的方法學(xué)研究。 在生物醫(yī)學(xué)領(lǐng)域,分類方法應(yīng)用非常廣泛,可應(yīng)用于影像學(xué)的圖像分類處理;病理、檢驗(yàn)、腫瘤等學(xué)科進(jìn)行輔助診斷和識別;基因芯片、蛋白質(zhì)芯片等微陣列數(shù)據(jù)分子生物學(xué)技術(shù)診斷;中醫(yī)癥侯特征分類;人壽保險;預(yù)測和自動控制等方面。因此,如何利用分類分析從大量數(shù)據(jù)中智能地、自動地提取出有價值的知識和信息的研究,具有十分重要的現(xiàn)實(shí)意義和廣泛的應(yīng)用前景。 目的應(yīng)用Monte Carlo方法比較數(shù)據(jù)挖掘中分類分析的八種方法,探討不同分類方法的特點(diǎn)及在特定數(shù)據(jù)條件下的優(yōu)勢與不足,據(jù)此提出數(shù)據(jù)挖掘中分類分析的策略,為數(shù)據(jù)挖掘的實(shí)際應(yīng)用提供依據(jù)。 方法選擇八種分類方法,即判別分析中的線性判別(Linner DiscriminantAnalysis,LDA)、二次判別(Quadratic Discriminant Analysis,QDA)、K-最近鄰法(K-Nearest Neighbors,KNN):logistic回歸;決策樹中的CHAID(Chi-squareAutomatic Interaction Detector,CHAID)、C4.5、CART(Classification and RegressionTrees,CART)及BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Net-Work,BPNN)。采用Monte Carlo模擬研究對前述八種方法進(jìn)行比較。所有模擬數(shù)據(jù)的目標(biāo)變量設(shè)置為二分類,預(yù)測變量數(shù)目設(shè)置為3�?紤]7個可能影響分類結(jié)果的因素,依次為:①預(yù)測變量的分布類型;②樣本量大小;③組間協(xié)方差的比率;④組間樣本量的比例;⑤兩組間的效應(yīng)量大小:⑥變量間的多重共線性;⑦先驗(yàn)概率。預(yù)測變量的分布類型考慮4種情況,即①多元正態(tài)分布;②多元偏態(tài)分布(本研究設(shè)置總體偏度系數(shù)f_1=2.0、峰度系數(shù)為γ_2=7.0);③混合型分布,即X_1為正態(tài)分布變量,X_2為偏態(tài)分布(總體偏度系數(shù)γ_1=2.0、峰度系數(shù)γ_2=7.0),X_3為二分類計(jì)數(shù)屬性變量;④所有預(yù)測變量均為二分類計(jì)數(shù)屬性變量。本研究中兩組樣本量之和分別設(shè)置為60、100和400。組間樣本量比例設(shè)置為50∶50、25∶75與10∶90。組間協(xié)方差比率設(shè)置為1∶1、1∶4及1∶8。組間效應(yīng)量大小設(shè)置為0.2、0.5及0.8。在模擬中對三個預(yù)測變量總體間的相關(guān)系數(shù)ρ均設(shè)置為0.3。對于多重共線性的探討,設(shè)置X_1與X_2總體間的相關(guān)系數(shù)ρ分別為0.6、0.9,與X_3的相關(guān)關(guān)系不變。初步模擬時先驗(yàn)概率均設(shè)置為先驗(yàn)概率與樣本量比例相等,而后設(shè)置組間先驗(yàn)概率相等(0.5∶0.5)以及先驗(yàn)概率為0.25∶0.75作為對比。方法間性能評估所用指標(biāo)為總的錯判率、靈敏度、特異度及ROC曲線下面積。對各種條件下數(shù)據(jù)模式進(jìn)行2次隨機(jī)抽樣,一個樣本作為訓(xùn)練集構(gòu)造模型,另一個作為測試集驗(yàn)證模型。而后重復(fù)上述操作1000次,計(jì)算測試集數(shù)據(jù)錯判率、ROC曲線下的面積、靈敏度及特異度的均值用以評價模型性能。 結(jié)果 1不同數(shù)據(jù)分布類型 ①多元正態(tài)分布,組間協(xié)方差相等時,LDA最優(yōu),其次為logistic回歸,決策樹法較差。相對而言,參數(shù)方法較之非參數(shù)方法要優(yōu)。當(dāng)數(shù)據(jù)為正態(tài)分布,組間協(xié)方差不等時,QDA最優(yōu),次之為非參數(shù)法,LDA與logistic回歸較差。 ②多元偏態(tài)分布,組間協(xié)方差相等時,決策樹及BP神經(jīng)網(wǎng)絡(luò)較優(yōu),LDA、QDA、logistic較差。偏態(tài)分布,組間協(xié)方差不等條件下,決策樹法、KNN及QDA較優(yōu),LDA與logistic回歸較差。 ③混合分布,組間協(xié)方差相等時,決策樹及l(fā)ogistic回歸較優(yōu),三種判別分析較差。組間協(xié)方差不等條件下,決策樹法較優(yōu),LDA與logistic回歸較差。 ④當(dāng)數(shù)據(jù)為分類分布時,決策樹與logistic回歸較優(yōu),三種判別分析及BP神經(jīng)網(wǎng)絡(luò)較差。 2協(xié)方差對分類的影響組間協(xié)方差不等,對于參數(shù)方法影響較大,尤其是QDA及l(fā)ogistic分析。較大協(xié)方差組錯判率大,較小協(xié)方差組錯判率小,而且協(xié)方差比例越不均衡,這一趨勢愈為明顯。以正態(tài)分布為例,當(dāng)協(xié)方差為1∶4時,兩組錯判率比值為1.14~2.30;在協(xié)方差為1∶8時,兩組錯判率比值為1.10~3.80,KNN、BP Neural表現(xiàn)更為明顯。 3樣本量及樣本量比例對分類的影響當(dāng)諸如數(shù)據(jù)分布類型、效應(yīng)量、協(xié)方差不變時,隨著樣本量的增大,錯判率減少,同時ROC曲線下面積增大。以正態(tài)分布協(xié)方差相等條件為例,樣本量增大,錯判率減小2%~11%,最為敏感的方法為BP神經(jīng)網(wǎng)絡(luò),最不敏感的方法為KNN。樣本量對分類效果的影響不如協(xié)方差影響大。 樣本量比例的不均衡對錯判率的影響較大,以先驗(yàn)概率相等,正態(tài)分布、協(xié)方差相等條件下模擬結(jié)果為例,樣本量大組(larger)錯判率低,樣本量小組(smaller)錯判率大。如樣本量比例10∶90條件,larger組下降了10%~98%,smaller組增大了17%~83%。下降的幅度高于增大的幅度,即使總的錯判率減小,是以犧牲靈敏度為代價。 4效應(yīng)量對分類的影響當(dāng)數(shù)據(jù)分布類型、組間協(xié)方差,樣本量一定的條件下,效應(yīng)量越大,錯判率減少,同時ROC曲線下面積增大。以正態(tài)分布,等協(xié)方差,等樣本量條件的模擬結(jié)果為例,各方法都有不同程度的改變,當(dāng)效應(yīng)量由0.2增大為0.8時,錯判率減小了30%~55%。LDA及l(fā)ogistic回歸尤為明顯。效應(yīng)量對錯判率的影響較大。 5共線性的影響隨著共線性程度的增強(qiáng),錯判率增大,ROC曲線下面積減小。相關(guān)系數(shù)由0.6增至為0.9時,錯判率增加幅度并不大。以正態(tài)分布、等樣本量比例及協(xié)方差比率為1:4條件為例,當(dāng)相關(guān)系數(shù)由0.3增至0.9時,錯判率增大了1.36%~9.44%。出現(xiàn)這樣的結(jié)果,估計(jì)在條件設(shè)置時僅設(shè)置了X2、X3有較強(qiáng)相關(guān)性有關(guān)。 6先驗(yàn)概率的影響先驗(yàn)概率對錯判率的影響很大,以正態(tài)分布為例,當(dāng)樣本量比例相等,先驗(yàn)概率為1:3,較大概率組錯判率顯著減小,降低為先驗(yàn)概率1:1條件的1.48~8.57倍。而較小概率組錯判率增大,與先驗(yàn)概率1:1條件相比,增大為1.35~2.94倍。當(dāng)先驗(yàn)概率設(shè)置為與樣本量比例相等時,較之先驗(yàn)概率不等但樣本量比例相等條件,又加劇了前述趨勢。此條件下,較大概率組錯判率降低為2.15~8.90倍,較小概率組錯判率增大為1.59~2.95倍。顯著降低了靈敏度。 7實(shí)證分析依模擬結(jié)果為理論指導(dǎo),我們將分類方法應(yīng)用于三個實(shí)際醫(yī)學(xué)資料。其一,對心肌梗塞數(shù)據(jù)建立了二次判別分類模型。其二,聯(lián)合應(yīng)用logistic回歸與BP神經(jīng)網(wǎng)絡(luò)對脂肪肝數(shù)據(jù)構(gòu)建了分類模型。最后,又將CART法應(yīng)用于糖尿病數(shù)據(jù)探索其影響因素并建立了分類模型。結(jié)果表明,各模型與數(shù)據(jù)吻合較好,可應(yīng)用于醫(yī)學(xué)實(shí)際。 結(jié)論在所研究的八種分類方法中,每種方法或多種方法的組合均在特定數(shù)據(jù)條件下體現(xiàn)出各自優(yōu)勢,因此可依據(jù)本研究的結(jié)果制定分析策略。首先,對數(shù)據(jù)進(jìn)行預(yù)處理,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。第二,進(jìn)行分類分析時關(guān)注數(shù)據(jù)的分布類型及其協(xié)方差的情況,而后進(jìn)行方法的選擇。當(dāng)數(shù)據(jù)為多元正態(tài)分布,組間協(xié)方差相等時,可選擇LDA及l(fā)ogistic回歸。組間協(xié)方差不等時,可選擇QDA。偏態(tài)分布,組間協(xié)方差相等時,可選擇決策樹及BP神經(jīng)網(wǎng)絡(luò)。組間協(xié)方差不等時,可選擇決策樹法、KNN和QDA。當(dāng)數(shù)據(jù)為混合分布,組間協(xié)方差相等時,決策樹及l(fā)ogistic較優(yōu),組間協(xié)方差不等時,決策樹法較優(yōu)。當(dāng)數(shù)據(jù)為分類分布時,可選擇決策樹與logistic回歸。
[Abstract]:......
【學(xué)位授予單位】:南方醫(yī)科大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2008
【分類號】:R311

【引證文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 盧又燃;放射科隨訪數(shù)據(jù)庫建立與粗糙集方法輔助診斷膠質(zhì)瘤分級的應(yīng)用分析[D];復(fù)旦大學(xué);2009年

,

本文編號:1516723

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/shiyanyixue/1516723.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶109ac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩欧美在线看一卡一卡| 国产一区二区三中文字幕| 精品一区二区三区乱码中文| 精品国产亚洲av久一区二区三区| 亚洲av一区二区三区精品| 色综合久久六月婷婷中文字幕| 千仞雪下面好爽好紧好湿全文| 操白丝女孩在线观看免费高清| 精品人妻一区二区三区在线看 | 欧美中文字幕一区在线| 少妇肥臀一区二区三区| 激情三级在线观看视频| 99少妇偷拍视频在线| 久久亚洲午夜精品毛片| 91插插插外国一区二区| 日本一区二区三区久久娇喘| 日韩精品视频一二三区| 91精品国产品国语在线不卡| 久久婷婷综合色拍亚洲| 亚洲中文字幕乱码亚洲| 99热中文字幕在线精品| 最好看的人妻中文字幕| 欧美激情床戏一区二区三| 观看日韩精品在线视频| 婷婷开心五月亚洲综合| 亚洲精品成人午夜久久| 国产日产欧美精品视频| 最新国产欧美精品91| 成人日韩在线播放视频| 国产欧美日韩视频91| 亚洲成人黄色一级大片| 五月激情婷婷丁香六月网| 国产成人精品一区二三区在线观看| 亚洲最大的中文字幕在线视频| 久久三级国外久久久三级| 国产高清三级视频在线观看| 日本精品中文字幕在线视频| 麻豆视频传媒入口在线看| 欧美激情视频一区二区三区| 国产偷拍精品在线视频| 中文字幕禁断介一区二区|