多組學(xué)缺失數(shù)據(jù)聯(lián)合填補(bǔ)方法評(píng)價(jià)及其應(yīng)用
發(fā)布時(shí)間:2017-12-16 03:30
本文關(guān)鍵詞:多組學(xué)缺失數(shù)據(jù)聯(lián)合填補(bǔ)方法評(píng)價(jià)及其應(yīng)用
更多相關(guān)文章: 多組學(xué)數(shù)據(jù) 塊缺失 統(tǒng)計(jì)學(xué)填補(bǔ) 機(jī)器學(xué)習(xí)填補(bǔ) 效果評(píng)價(jià)
【摘要】:2003年,人類全基因組計(jì)劃(human genoome project,HGP)宣告結(jié)束,由此,與人類疾病相關(guān)的遺傳研究進(jìn)入后GWAS時(shí)代。多組學(xué)數(shù)據(jù)(基因組、轉(zhuǎn)錄組、表觀遺傳組等)一般來(lái)自于不同的平臺(tái),這使得多組學(xué)數(shù)據(jù)挖掘新生了很多困難。如"塊缺失"(bulked missing data)的情況在多組學(xué)數(shù)據(jù)中經(jīng)常出現(xiàn)。保證在數(shù)據(jù)結(jié)構(gòu)(方差-協(xié)方差結(jié)構(gòu))盡量不變或變化幅度相對(duì)較小時(shí),提高缺失數(shù)據(jù)填補(bǔ)的精確度,對(duì)于后期數(shù)據(jù)挖掘有重要的意義。本研究致力于多組學(xué)(轉(zhuǎn)錄組、表觀遺傳組)中"塊缺失"數(shù)據(jù)填補(bǔ)方法的評(píng)價(jià)。并將優(yōu)勢(shì)方法應(yīng)用于WNT信號(hào)通路相關(guān)變量,對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),對(duì)早期非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)患者的預(yù)后狀況進(jìn)行建模預(yù)測(cè),并比較填補(bǔ)前后模型的預(yù)測(cè)效果。下載癌癥基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫(kù)中非小細(xì)胞肺癌數(shù)據(jù)(包括:甲基化數(shù)據(jù)、基因表達(dá)數(shù)據(jù)),通過(guò)構(gòu)造不同缺失比例的缺失數(shù)據(jù)集(缺失比例分別為5%、20%、35%、50%和65%),評(píng)價(jià)填補(bǔ)方法在數(shù)據(jù)集中的填補(bǔ)效果(WNT通路數(shù)據(jù)集和隨機(jī)變量數(shù)據(jù)集)。采用統(tǒng)計(jì)學(xué)填補(bǔ)方法[均值法,馬爾科夫蒙特卡洛法(Markov Chain Monte Carlo,MCMC)]和機(jī)器學(xué)習(xí)填補(bǔ)法[鄰近法(k-Nearest Neighbor,KNN),隨機(jī)森林法(Random Forest,RF),多層感知機(jī)法(Multi-layer perceptron,MLP)]對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),填補(bǔ)后的數(shù)據(jù)集與原數(shù)據(jù)集進(jìn)行綜合比較。評(píng)價(jià)指標(biāo):①估計(jì)偏差,②矩陣-2-范數(shù)。再根據(jù)評(píng)價(jià)指標(biāo)和填補(bǔ)時(shí)間,比較出填補(bǔ)效果最優(yōu)、填補(bǔ)時(shí)間較短的方法。選擇WNT通路數(shù)據(jù)集,對(duì)MLP方法進(jìn)行填補(bǔ)。填補(bǔ)前后的數(shù)據(jù)集,分別用(I)SIS降維方法進(jìn)行降維,經(jīng)過(guò)降維壓縮后,保留下來(lái)的變量納入Cox比例回歸模型,并對(duì)第5年的預(yù)后情況進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)。Bootstrap進(jìn)行1000次,計(jì)算AUC的可信區(qū)間,比較填補(bǔ)前后預(yù)測(cè)模型中AUC的大小。MLP和KNN算法在各種缺失比例下均比其他填補(bǔ)方法有更優(yōu)的效果,填補(bǔ)時(shí)間也相對(duì)較短。均值法的時(shí)間最短,在數(shù)據(jù)集缺失比例較小時(shí)(≤5%),填補(bǔ)效果與其他填補(bǔ)方法相當(dāng),但在高比例缺失情況下表現(xiàn)較差。在數(shù)據(jù)集高比例缺失情況下,RF和MCMC的填補(bǔ)效果優(yōu)于均值法,但填補(bǔ)時(shí)間過(guò)長(zhǎng),不適用于實(shí)際工作。在實(shí)際數(shù)據(jù)分析中,MLP方法填補(bǔ)后的數(shù)據(jù)集,經(jīng)過(guò)降維后建立的Cox模型預(yù)測(cè)效果優(yōu)于未進(jìn)行填補(bǔ)的數(shù)據(jù)集,其中AUCimp-0.7431[0.7215,0.7647],AUCunimp=0.6945[0.6729,0.7161]。綜合比較,機(jī)器學(xué)習(xí)填補(bǔ)方法中的MLP和kNN兩法適合于甲基化數(shù)據(jù)和表達(dá)數(shù)據(jù)的填補(bǔ),且具有實(shí)際應(yīng)用價(jià)值。
【學(xué)位授予單位】:南京醫(yī)科大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:R195.1
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 茅群霞,李曉松;多重填補(bǔ)法Markov Chain Monte Carlo模型在有缺失值的婦幼衛(wèi)生縱向數(shù)據(jù)中的應(yīng)用[J];四川大學(xué)學(xué)報(bào)(醫(yī)學(xué)版);2005年03期
,本文編號(hào):1294554
本文鏈接:http://sikaile.net/shoufeilunwen/mpalunwen/1294554.html
最近更新
教材專著