目的:以前的研究表明,樣本標(biāo)記錯誤在組學(xué)數(shù)據(jù)中并不少見。樣本標(biāo)記錯誤是由于漏診或誤診,樣本的異質(zhì)性,實(shí)驗(yàn)中的技術(shù)問題等造成。這些潛在的異常點(diǎn)會導(dǎo)致病人接受不適合的治療,且會影響可靠地篩選疾病相關(guān)的生物標(biāo)記物。對這些錯分樣本進(jìn)行識別,以及從錯分高維組學(xué)數(shù)據(jù)中進(jìn)行正確地特征選擇是一個亟待解決的問題。本文第一部分提出了基于截尾的穩(wěn)健懲罰Logistic回歸,探討了理論性質(zhì),提出算法來求解估計(jì),并與其它解決錯分高維組學(xué)數(shù)據(jù)的方法進(jìn)行比較,便于實(shí)際中選用合適的方法。類似的異常點(diǎn)會也會降低懲罰Cox回歸變量選擇的準(zhǔn)確性。如果這些異常點(diǎn)不是因?yàn)閷?shí)驗(yàn)或記錄誤差造成,這可能意味著這些患者的生存時間相對于其協(xié)變量有不同的關(guān)聯(lián)模式。通過對這些異常值的識別和分析,有可能找到新的預(yù)后因素并對其進(jìn)行個體化治療。本文第二部分提出了基于截尾的穩(wěn)健懲罰Cox回歸,并提出算法來求解估計(jì),以便可靠地進(jìn)行變量篩選和異常點(diǎn)識別。方法:本文第一部分提出了基于截尾的LASSO類型的懲罰Logistic回歸(LASSO-type maximum trimmed likelihood estimator,MTL-LASSO),并擴(kuò)展到彈性網(wǎng)懲罰(EN-type maximum trimmed likelihood estimator,MTL-EN)。其中探討了MTL-LASSO的理論性質(zhì),提出結(jié)合接受-拒絕算法和C-step(Concentration steps)算法的AR-Cstep(C-step based on acceptance-rejection)算法來求解MTL-LASSO估計(jì)和MTL-EN估計(jì),并將MTL-EN與其他三種解決錯分高維變量選擇問題的方法,即采用C-step算法的基于截尾的彈性網(wǎng)類型懲罰Logistic回歸(enetLTS),稀疏標(biāo)簽噪聲穩(wěn)健Logistic回歸(Rlogreg),和將彈性網(wǎng)、稀疏偏最小二乘估計(jì)進(jìn)行綜合的Ensemble方法,在特征選擇、異常值識別以及預(yù)測的準(zhǔn)確性方面進(jìn)行模擬評價。將四種方法應(yīng)用于包含有不一致標(biāo)簽樣本的三陰性乳腺癌(Triple Negative Breast Cancer,TNBC)RNA-seq數(shù)據(jù)集中,對其識別的錯分樣本和篩選的基因進(jìn)行比較。本文第二部分提出了基于截尾的彈性網(wǎng)類型懲罰Cox回歸(ElasticNet-type maximum trimmed partial likelihood estimato,MPTL-EN),并提出結(jié)合接受-拒絕算法和C-step算法的AR-Cstep算法求解MPTL-EN,通過重加權(quán)步后得到估計(jì)Rwt MTPL-EN(Reweighted MTPL-EN)。通過模擬實(shí)驗(yàn)來比較MPTL-EN與非穩(wěn)健的彈性網(wǎng)的在變量選擇、異常點(diǎn)識別以及預(yù)測方面的性能。對膠質(zhì)瘤患者的基因表達(dá)數(shù)據(jù)進(jìn)行實(shí)例分析,以說明其應(yīng)用。結(jié)果:第一部分:(1)對MTL-LASSO的理論性質(zhì)的探討得出,LASSO類型的懲罰Logistic回歸估計(jì)是存在且有界的,當(dāng)一個可以取任意值的異常點(diǎn)替換原來數(shù)據(jù)時,LASSO估計(jì)值會趨向于0,導(dǎo)致模型無效。本文給出了不同于一般模型的、適合于懲罰Logistic回歸崩潰點(diǎn)(Breakdown point,BDP)的定義,給出并證明了MTL-LASSO的BDP,指出MTL-LASSO能抵抗的異常點(diǎn)比例,即是其截尾比例。通過LASSO與MTL-LASSO的模擬實(shí)驗(yàn)得出,在沒有錯分樣本時,MTL-LASSO的結(jié)果與LASSO相近,而當(dāng)存在異常點(diǎn)時,LASSO受異常點(diǎn)的影響非常大,而MTL-LASSO的卻保持穩(wěn)定。重加權(quán)后的Rwt MTL-LASSO進(jìn)一步提高了性能。(2)MTL-EN,enetLTS,Rlogreg和Ensemble四種方法比較的模擬實(shí)驗(yàn)得出,當(dāng)只有y異常時,Ensemble在變量選擇方面綜合指標(biāo)最高,但是其PSR要低于MTL-EN。當(dāng)異常點(diǎn)比例增大Ensemble變量選擇的準(zhǔn)確性下降幅度較大,特別當(dāng)x也存在異常時,Ensemble變量選擇的準(zhǔn)確性在四種方法中處于最低,而MTL-EN變量選擇準(zhǔn)確性最高。異常點(diǎn)識別方面,MTL-EN在四種方法中表現(xiàn)最好,敏感性Sn較高,且假陽性FPR控制在2%以內(nèi)。就預(yù)測準(zhǔn)確性而言,MTL-EN錯分率較低。且MTL-EN運(yùn)算時間也遠(yuǎn)遠(yuǎn)小于enetLTS和Ensemble,說明采用AR-Cstep算法能夠讓迭代收斂較快,且收斂到不含異常點(diǎn)的子集上,從而能夠更準(zhǔn)確地篩選變量或識別異常點(diǎn)。(3)通過實(shí)例分析發(fā)現(xiàn),MTL-EN和enetLTS分別在47個和43個檢測到的異常值中都識別出了7個不一致標(biāo)簽的可疑個體,這一結(jié)果優(yōu)于其他兩種方法。enetLTS識別的錯分樣本全是非TNBC患者,而MTL-EN分別識別的錯分樣本中還有13個TNBC患者,其中包含1個是不一致標(biāo)簽的可疑樣本。就篩選的基因方面,MTL-EN和enetLTS篩選的基因較多,其效應(yīng)量較小,根據(jù)模擬實(shí)驗(yàn)的結(jié)果,其敏感度高,也就是盡量包含與TNBC有關(guān)的基因,所以可以作為初步篩選的基因。Rlogreg和Ensemble篩選的基因較少,雖然Ensemble發(fā)現(xiàn)的基因都與TNBC有關(guān),但數(shù)量太少,敏感度太低,沒有發(fā)掘更多與TNBC有關(guān)的基因。第二部分模擬研究表明,有異常值的高維數(shù)據(jù)集中,穩(wěn)健的MPTL-EN在變量選擇、異常值檢測和預(yù)測方面表現(xiàn)優(yōu)于非穩(wěn)健的彈性網(wǎng)懲罰的Cox回歸,而且重加權(quán)的Rwt MTPL-EN估計(jì)要好于沒有進(jìn)行重加權(quán)的Raw MTPL-EN。(1)當(dāng)沒有異常點(diǎn)時,Rwt MTPL-EN(Reweighted MTPL-EN)的結(jié)果與彈性網(wǎng)接近。當(dāng)存在異常點(diǎn)時,穩(wěn)健的Rwt MPTL-EN在變量選擇、異常值檢測和預(yù)測方面表現(xiàn)優(yōu)于非穩(wěn)健的彈性網(wǎng)。相對于其預(yù)后指數(shù)“失效太早”的異常點(diǎn),“活得太久”的異常點(diǎn)會使得彈性網(wǎng)表現(xiàn)更差,而Rwt MTPL-EN更易于將“活得太久”的異常點(diǎn)識別出來,且無論在對稱還是非對稱異常點(diǎn)下,準(zhǔn)確性保持穩(wěn)定。(2)當(dāng)刪失比例增大,彈性網(wǎng)和Rwt MTPL-EN的性能都有下降,但Rwt MTPL-EN的性能一直高于彈性網(wǎng)。相對于截尾比例低于異常點(diǎn)比例時,當(dāng)截尾比例等于或高于異常點(diǎn)比例時Rwt MTPL-EN的結(jié)果要更好。(3)當(dāng)y方向異常偏離增大時,使得彈性網(wǎng)選擇的變量變少,當(dāng)x方向也出現(xiàn)異常時,即異常觀測的自變量也偏離主體時,彈性網(wǎng)選擇的變量遠(yuǎn)遠(yuǎn)大于真實(shí)的非零變量個數(shù),這兩種情況都使得彈性網(wǎng)選擇的變量準(zhǔn)確性下降。而Rwt MTPL-EN在各種情況下均保持穩(wěn)定,說明Rwt MTPL-EN能夠同時抵抗x方向和y方向的異常點(diǎn)。(4)通過膠質(zhì)瘤基因表達(dá)數(shù)據(jù)的分析可以看到,Rwt MTPL-EN篩選的變量與彈性網(wǎng)有差異,識別了更高比例的報道與膠質(zhì)瘤有關(guān)的基因。在去除異常點(diǎn)后,其預(yù)測準(zhǔn)確性高于彈性網(wǎng),且識別了更多相對于預(yù)后指數(shù)“活得太久”的異常點(diǎn)。結(jié)論:本文探討了基于截尾的LASSO類型(MTL-LASSO)和彈性網(wǎng)類型的穩(wěn)健懲罰Logistic回歸(MTL-EN)。對懲罰Logistic回歸和MTL-LASSO的理論性質(zhì)進(jìn)行探討和證明,給出MTL-LASSO穩(wěn)健性與截尾比例的關(guān)系。本文還提出了求解MTL-LASSO和MTL-EN估計(jì)的AR-Cstep算法,通過與采用C-step算法的enetLTS比較的模擬實(shí)驗(yàn)可以看到,采用AR-Cstep算法的收斂更快,變量選擇和異常點(diǎn)識別的準(zhǔn)確性更高。MTL-EN在識別錯分異常點(diǎn)方面是最為推薦的方法,識別的敏感性最高,且能控制假陽性率在較低的范圍內(nèi)。在變量選擇方面,如果不存在x方向異常,且要求變量選擇的FDR較低,推薦的方法是Ensemble。如果x方向存在異常,特別是要求變量選擇的敏感度較高時,則應(yīng)該選擇MTL-EN。本文建立的基于截尾的穩(wěn)健懲罰Cox模型Rwt MPTL-EN,能夠在異常點(diǎn)存在時,相比非穩(wěn)健的彈性網(wǎng)模型,能夠更加準(zhǔn)確地進(jìn)行變量選擇。它能夠同時抵抗比例很大的x方向和y方向的異常點(diǎn)。Rwt MPTL-EN能夠更準(zhǔn)確地識別異常點(diǎn),特別是在識別“活得太久”異常點(diǎn)方面,而“活得太久”的異常點(diǎn)對彈性網(wǎng)變量選擇準(zhǔn)確性影響更大。本文建立的基于殘差的AR-Cstep算法,使得算法不再依賴于從模型的似然函數(shù)中分離出個體的貢獻(xiàn),而且解決懲罰回歸中懲罰參數(shù)改變導(dǎo)致C-step不收斂的問題,這種改進(jìn)可以使得AR-Cstep算法推廣到更多的模型。
【學(xué)位單位】:山西醫(yī)科大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2020
【中圖分類】:R195.1
【部分圖文】:
山西醫(yī)科大學(xué)博士學(xué)位論文16的含義是沒有用重加權(quán)的基于截尾的懲罰Logistic回歸。而RwtMTL-LASSO表示在RawMTL-LASSO的基礎(chǔ)上考慮了重加權(quán)。對于LASSO,調(diào)整參數(shù)λ的選擇基于100個交叉驗(yàn)證數(shù)據(jù)集。MTL-LASSO中子集的樣本量設(shè)定為h=0.75n。所有的交叉驗(yàn)證都是10折交叉驗(yàn)證。圖5-1模擬情形(2)只有y異常時y與=′時的散點(diǎn)圖(注:黑色實(shí)心是正常點(diǎn),紅色空心是異常點(diǎn))圖5-2模擬情形(3)x和y都異常時y與PI=′時的散點(diǎn)圖

山西醫(yī)科大學(xué)博士學(xué)位論文16的含義是沒有用重加權(quán)的基于截尾的懲罰Logistic回歸。而RwtMTL-LASSO表示在RawMTL-LASSO的基礎(chǔ)上考慮了重加權(quán)。對于LASSO,調(diào)整參數(shù)λ的選擇基于100個交叉驗(yàn)證數(shù)據(jù)集。MTL-LASSO中子集的樣本量設(shè)定為h=0.75n。所有的交叉驗(yàn)證都是10折交叉驗(yàn)證。圖5-1模擬情形(2)只有y異常時y與=′時的散點(diǎn)圖(注:黑色實(shí)心是正常點(diǎn),紅色空心是異常點(diǎn))圖5-2模擬情形(3)x和y都異常時y與PI=′時的散點(diǎn)圖

山西醫(yī)科大學(xué)博士學(xué)位論文28異常點(diǎn)比例增大,對Ensemble的結(jié)果影響最大,變量選擇的準(zhǔn)確性下降幅度較大(GM0.673vs0.562),異常點(diǎn)識別的敏感度也下降幅度較大(Sn0.520vs0.393)。而MTL-EN變量選擇準(zhǔn)確性下降幅度較。℅M0.424vs0.380),異常點(diǎn)識別的敏感度也下降較。⊿n0.600vs0.534)。表6-2Rlogreg,enetLTS,MTL-EN,Ensemble四種方法結(jié)果比較(n=100,p=1000)*MethodsVariablesselectionOutliersdetectionPredictionModelsizePSRFDRGMNumSnFPRMRRlogreg17.970.2000.6710.2563.080.4050.0160.1480.05enetLTS92.990.6360.6830.4223.330.4680.0150.134MTL-EN73.280.6460.6990.4243.90.6000.0160.131Ensemble14.910.4910.0220.6732.380.5200.003-Rlogreg18.210.1310.7820.2063.010.2300.0100.1690.1enetLTS105.030.5850.7180.3695.420.4070.0190.163MT-EN77.480.5960.7320.3806.580.5340.0190.166Ensemble11.260.3550.0520.5623.630.3930.001-*:,異常點(diǎn)比例圖6-1Rlogreg,enetLTS,MTL-EN和Ensemble四種方法在y方向異常時的變量選擇準(zhǔn)確性(n=100,p=200)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魯立剛,丁錕,楊文泉,張輝,丁元欣;Cox線性Logistic模型在新生兒窒息原因回顧性分析中的應(yīng)用[J];黑龍江醫(yī)藥科學(xué);2002年05期
2 彭崇基,守山正樹,齋藤寬,黃陽葵;用形態(tài)發(fā)育指標(biāo)預(yù)測月經(jīng)初潮年齡的研究──Cox線性Logistic模型的應(yīng)用[J];中國學(xué)校衛(wèi)生;1994年06期
3 楊江琳;隗伏冰;韋哲;;新生兒窒息原因的定量分析及判別模型——Cox線性Logistic模型的應(yīng)用[J];數(shù)理醫(yī)藥學(xué)雜志;1992年02期
4 孫昌盛;田俊;許大荷;;應(yīng)用Cox—Logistic線性回歸方法探討福州市低體重兒發(fā)生因素[J];福建醫(yī)學(xué)院學(xué)報;1991年04期
5 趙瓊暉;高二偉;趙旭;謝宗良;林起輝;潘清;劉建軍;;基于LASSO方法的logistic回歸模型在城市老年人群金屬暴露與高尿酸血癥相關(guān)性研究中的應(yīng)用[J];環(huán)境與健康雜志;2019年07期
6 王娉;郭鵬江;夏志明;;Logistic模型中參數(shù)的自適應(yīng)Lasso估計(jì)[J];西北大學(xué)學(xué)報(自然科學(xué)版);2012年05期
7 孫中華,王梅;Cox模型處理?xiàng)l件Logistic回歸考察升主動脈壓力波谷峰值與冠心病的相關(guān)性[J];數(shù)理醫(yī)藥學(xué)雜志;2004年01期
8 王小燕;方匡南;謝邦昌;;Logistic回歸的雙層變量選擇研究[J];統(tǒng)計(jì)研究;2014年09期
9 陳丙文;陳斌斌;陳彩平;;肺炎支原體感染并發(fā)消化系統(tǒng)損害患兒的有關(guān)特征及發(fā)病因素的Logistic回歸分析[J];中國中西醫(yī)結(jié)合消化雜志;2019年12期
10 李杰;段光友;曾義;段振馨;吳卓熙;楊貴英;李洪;;人工神經(jīng)網(wǎng)絡(luò)、極端梯度提升和Logistic回歸用于預(yù)測再次剖宮產(chǎn)術(shù)中輸血的比較分析[J];第三軍醫(yī)大學(xué)學(xué)報;2019年24期
相關(guān)博士學(xué)位論文 前10條
1 孫紅衛(wèi);基于截尾的穩(wěn)健懲罰Logistic回歸和穩(wěn)健懲罰Cox回歸及在組學(xué)數(shù)據(jù)分析中的應(yīng)用[D];山西醫(yī)科大學(xué);2020年
2 張百紅;多因素Cox回歸分析構(gòu)建肝癌分期系統(tǒng)[D];第二軍醫(yī)大學(xué);2005年
3 程莉;Logistic回歸模型在附件包塊良惡性鑒別診斷中的應(yīng)用[D];復(fù)旦大學(xué);2009年
4 張鵬;體外沖擊波治療上尿路結(jié)石的療效預(yù)測:人工神經(jīng)網(wǎng)絡(luò)和Logistic回歸模型的建立與比較[D];南方醫(yī)科大學(xué);2012年
5 李云鵬;模擬高原缺氧和氰化鈉中毒對大鼠COX的影響機(jī)制研究[D];第三軍醫(yī)大學(xué);2008年
6 錢俊;生存分析中刪失數(shù)據(jù)比例對Cox回歸模型影響的研究[D];南方醫(yī)科大學(xué);2009年
7 曲道煒;桂枝芍藥知母湯對AA大鼠COX信號通路介導(dǎo)的免疫調(diào)控研究[D];遼寧中醫(yī)藥大學(xué);2016年
8 邊云;基于因子分析多元有序Logistic回歸對慢性胰腺炎分級診斷模型的研究[D];第二軍醫(yī)大學(xué);2016年
9 楊興海;脊柱轉(zhuǎn)移癌預(yù)后相關(guān)因子篩選及Cox模型構(gòu)建[D];第二軍醫(yī)大學(xué);2007年
10 彭愉康(Pang Peter);針灸在香港的歷史、現(xiàn)狀、發(fā)展展望及香港社會人口與針灸使用的關(guān)系的Logistic回歸分析[D];南京中醫(yī)藥大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 顏霞;基于Cox和Logistic模型的家庭背景對教育機(jī)會影響的問題研究[D];華北電力大學(xué)(北京);2011年
2 趙仕佳;影響前列腺癌預(yù)后的多因素Cox回歸分析及穿刺點(diǎn)數(shù)選擇的Logistic回歸模型的建立[D];廣州醫(yī)學(xué)院;2011年
3 陳德強(qiáng);基于COX比例風(fēng)險模型探討經(jīng)皮椎間孔鏡治療單節(jié)段LDH的2年預(yù)后分析[D];廣西中醫(yī)藥大學(xué);2019年
4 李金花;基于Logistic模型的行人過街使用手機(jī)對交通安全影響研究[D];重慶大學(xué);2017年
5 符崇垚;基于診斷比值的Logistic回歸分析對中東原油的鑒別[D];大連海事大學(xué);2017年
6 原續(xù)菲;利用Logistic模型對預(yù)約掛號爽約行為的研究[D];昆明理工大學(xué);2016年
7 孟婷;基于Logistic模型的供應(yīng)鏈金融信用風(fēng)險研究[D];湖南大學(xué);2016年
8 崔瑞娟;應(yīng)用Cox比例風(fēng)險回歸模型分析上皮性卵巢癌的預(yù)后因素[D];新疆醫(yī)科大學(xué);2016年
9 馮偉;Logistic回歸和決策樹在數(shù)據(jù)庫營銷響應(yīng)中的應(yīng)用[D];蘭州財(cái)經(jīng)大學(xué);2015年
10 杜鵬鵬;基于Logistic模型的產(chǎn)能過剩行業(yè)財(cái)務(wù)風(fēng)險研究[D];上海社會科學(xué)院;2015年
本文編號:
2865031