目的:本研究針對傳統(tǒng)的LASSO調(diào)整參數(shù)選擇方法中錯(cuò)誤發(fā)現(xiàn)率(False Discovery Rate,FDR)過高的問題,介紹三種控制FDR的調(diào)整參數(shù)選擇方法的基本原理,并基于LASSO-Cox 模型探索 CV 法(Cross Validation)、pcvl 法(penalized cross-validated log-likelihood)、EBIC 準(zhǔn)則(Extended Bayesian Information Criterion)、平穩(wěn)選擇法(Stability Selection)四種方法在變量選擇方面的性能。方法:本研究基于LASSO-Cox模型對LASSO調(diào)整參數(shù)的選擇方法進(jìn)行系統(tǒng)地介紹。模擬研究生存數(shù)據(jù)的不同刪失比例、自變量間不同相關(guān)程度以及自變量的不同稀疏水平對各方法的影響。模擬設(shè)置樣本量n=(100,120,140,160,180,200),自變量個(gè)數(shù)p=1000,自變量間相關(guān)為區(qū)組相關(guān),相關(guān)結(jié)構(gòu)為corr(x_i,x_j)=ρ~(|i-j|),i≠j:方案一是|ρ|=(0,0.3,0.5,0.8),L=(2,3,4,5),回歸系數(shù)為β_1*=3、β_(51)*=-1.5、β_(101)*=2、β_(151)*=-3、β201*=1.5、β251*=-2、其余回歸系數(shù)值為0;方案二是|ρ| =(0,0.3,0.5,0.8),L=3,真實(shí)非零自變量個(gè)數(shù)為q=(4,6,8,10),非零回歸系數(shù)值分別取2與-2。利用R軟件模擬數(shù)據(jù)并進(jìn)行分析,從FDR和PSR(Positive Select Rate)兩方面進(jìn)行評價(jià)。實(shí)例研究利用高通量基因表達(dá)量數(shù)據(jù)庫(Gene Expression Omnibus,GEO)上下載的420例DLBCL(Diffuse Large B-cell Lymphoma)患者的生存數(shù)據(jù)及54675個(gè)基因進(jìn)行基因與預(yù)后間的關(guān)聯(lián)分析,對數(shù)據(jù)進(jìn)行整理后用于最終分析的樣本例數(shù)和基因數(shù)分別為412 和 4947。結(jié)果:模擬結(jié)果顯示:在樣本量、刪失比例、相關(guān)系數(shù)、稀疏水平均一定的情況下,各方法的FDR從低到高依次為:平穩(wěn)選擇法≤EBICγ1準(zhǔn)則EBICγ2準(zhǔn)則pcvl法CV法;PSR從高到低依次為:CV法≥pcvl法≥平穩(wěn)選擇法≥EBICγ2準(zhǔn)則≥EBICγ1準(zhǔn)則。隨著刪失比例的降低,各方法的FDR均基本保持不變,PSR均升高。隨著相關(guān)程度的增加,平穩(wěn)選擇法、pcvl法和CV法的FDR基本不變,EBIC準(zhǔn)則的FDR略升高。隨著稀疏水平的降低,平穩(wěn)選擇法的FDR基本保持不變,pcvl法的FDR略微升高,EBIC準(zhǔn)則的結(jié)果則波動較大;當(dāng)樣本量較大時(shí)隨著稀疏水平的降低CV法、pcvl法和平穩(wěn)選擇法的PSR保持不變。實(shí)例結(jié)果顯示:EBIC準(zhǔn)則只選出1個(gè)基因,平穩(wěn)選擇法選出的13個(gè)基因中與CV法相同的基因有12個(gè),與pcvl法相同的基因有10個(gè);pcvl法選出的28個(gè)基因中與CV法相同有26個(gè),與EBIC準(zhǔn)則相同的基因有1個(gè)。結(jié)論:在基于LASSO方法的高維數(shù)據(jù)生存分析中,當(dāng)刪失比例、自變量間相關(guān)程度和自變量稀疏水平均一定時(shí)平穩(wěn)選擇法控制錯(cuò)誤發(fā)現(xiàn)率的能力優(yōu)于其他方法并且其變量選擇效能也較高。當(dāng)刪失比例、自變量間相關(guān)程度和自變量稀疏水平各自發(fā)生變化時(shí)平穩(wěn)選擇法是四種方法中表現(xiàn)最穩(wěn)定的方法。EBIC準(zhǔn)則在自變量間相關(guān)程度低、自變量較稀疏的情況下表現(xiàn)較好,當(dāng)樣本量較小時(shí)結(jié)果比較保守。pcvl法雖然不容易漏掉有效應(yīng)的自變量,但其錯(cuò)誤發(fā)現(xiàn)率仍較高。
【學(xué)位單位】:山西醫(yī)科大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2017
【中圖分類】:R195.1
【部分圖文】:
cpcvl )也隨之減大值時(shí)對從適當(dāng)增 FDR 的 cvl pcvl 減少,pcvl對應(yīng)的 為增加 值以的理想水平以山西 0 cvl l ( )隨之先模型最終的減少 LASS以實(shí)現(xiàn)精確醫(yī)科大學(xué)碩士 0, 在 先增加后減小的調(diào)整參數(shù)SO 篩選出的確的 FDR 的學(xué)位論文 0 ;cvl 范小然后增加數(shù),此時(shí)的q的變量數(shù)的的控制。圍內(nèi)增加時(shí)加至0pcvl ( 與 cvlq 相的角度控制時(shí),q 逐漸) 。選擇使比減少了許FDR,無法漸許法
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 王彤;易東;;臨床試驗(yàn)中多重性問題的統(tǒng)計(jì)學(xué)考慮[J];中國衛(wèi)生統(tǒng)計(jì);2012年03期
2 劉晉;張濤;李康;;多重假設(shè)檢驗(yàn)中FDR的控制與估計(jì)方法[J];中國衛(wèi)生統(tǒng)計(jì);2012年02期
3 閆麗娜;覃婷;王彤;;LASSO方法在Cox回歸模型中的應(yīng)用[J];中國衛(wèi)生統(tǒng)計(jì);2012年01期
相關(guān)博士學(xué)位論文 前1條
1 勾建偉;懲罰回歸方法的研究及其在后全基因關(guān)聯(lián)研究中的應(yīng)用[D];南京醫(yī)科大學(xué);2014年
相關(guān)碩士學(xué)位論文 前5條
1 趙俊琴;基于Lasso的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法比較[D];山西醫(yī)科大學(xué);2015年
2 劉莉;兩兩多重比較的FDR控制[D];上海交通大學(xué);2015年
3 王慧;生存分析中半?yún)?shù)模型的變量選擇方法及其模擬研究[D];山西醫(yī)科大學(xué);2013年
4 張秀秀;基于(I)SIS的變量選擇方法及其在極高維數(shù)據(jù)生存分析中的應(yīng)用[D];山西醫(yī)科大學(xué);2013年
5 滿敬鑾;生存數(shù)據(jù)模型的變量選擇[D];中南大學(xué);2009年
本文編號:
2828091
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2828091.html