網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的生物標(biāo)記篩選及疾病預(yù)測模型研究
發(fā)布時(shí)間:2017-08-15 06:15
本文關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的生物標(biāo)記篩選及疾病預(yù)測模型研究
更多相關(guān)文章: 網(wǎng)絡(luò)結(jié)構(gòu) 生物標(biāo)記 變量選擇 疾病篩檢模型 疾病風(fēng)險(xiǎn)預(yù)測模型
【摘要】:流行病學(xué)的任務(wù)是研究人群中疾病(或健康狀況)的分布及其影響因素,并研究疾病防治及健康促進(jìn)策略和措施。其中,篩選導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的危險(xiǎn)因素(或生物標(biāo)記),不僅是病因推斷的基礎(chǔ),也是預(yù)測疾病發(fā)生與轉(zhuǎn)歸結(jié)局的前提。而病因的確定或疾病及結(jié)局的準(zhǔn)確預(yù)測,對(duì)于制定防治策略與措施均具有重要指導(dǎo)意義。因此,研究篩選疾病危險(xiǎn)因素的新方法,探討如何構(gòu)建高效而準(zhǔn)確的疾病預(yù)測模型,具有理論與實(shí)踐意義。理論上,任何疾病的發(fā)生與轉(zhuǎn)歸均是遺傳(基因)與環(huán)境因素(個(gè)人生活習(xí)慣、生理心理因素、環(huán)境污染等)交互作用的結(jié)果,眾多遺傳因子與環(huán)境因素之間的復(fù)雜交互作用往往交織成為網(wǎng)絡(luò)系統(tǒng),而正是這個(gè)交互網(wǎng)絡(luò)系統(tǒng)調(diào)控著疾病發(fā)生、發(fā)展及轉(zhuǎn)歸的進(jìn)程。因此,無論是篩選導(dǎo)致疾病發(fā)生、發(fā)展和轉(zhuǎn)歸的危險(xiǎn)因素(或生物標(biāo)記),還是構(gòu)建其預(yù)測模型均應(yīng)以交互網(wǎng)絡(luò)系統(tǒng)為基礎(chǔ),忽略交互網(wǎng)絡(luò)結(jié)構(gòu)的建模策略必將導(dǎo)致信息損失。目前,回歸理論是篩選疾病危險(xiǎn)因素或構(gòu)建疾病預(yù)測模型的常用方法,其基本思想是,基于線性可加理論構(gòu)建疾病發(fā)生或轉(zhuǎn)歸結(jié)局(因變量)與危險(xiǎn)因子(自變量)之間的回歸方程,進(jìn)而借助回歸模型篩選危險(xiǎn)因素或構(gòu)建預(yù)測模型。盡管目前發(fā)展了一些非線性回歸的建模方法(如樣條回歸等),但仍是在加性理論的框架下構(gòu)建回歸模型,即仍未脫離回歸模型的限制。這是因?yàn)?回歸建模思想是一把“雙刃劍”。雖然它采取線性可加的簡單形式,用回歸系數(shù)定量地刻畫了自變量對(duì)因變量效應(yīng);但是,在其建模過程中重點(diǎn)關(guān)注的是自變量(危險(xiǎn)因子)對(duì)因變量(疾病發(fā)生或轉(zhuǎn)歸結(jié)局)的獨(dú)立效應(yīng),而忽略了自變量之間的相關(guān)信息;盡管可以用自變量乘積項(xiàng)的形式將其放入回歸模型內(nèi)探測其交互效應(yīng),但往往難以遍歷整個(gè)網(wǎng)絡(luò)系統(tǒng)的交互結(jié)構(gòu)(包括兩變量間的交互效應(yīng)、多變量間的多階交互效應(yīng)、以及整個(gè)通路的復(fù)雜交互效應(yīng));況且,當(dāng)交互項(xiàng)或交互階數(shù)過多時(shí),自變量之間的共線性將會(huì)急劇增加,且其維數(shù)也將急劇膨脹,從而導(dǎo)致回歸模型估計(jì)偏性或失效。為此,著眼于整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)(thinking globally)篩選變量或構(gòu)建模型,進(jìn)而推斷特定通路(acting locally)上危險(xiǎn)因素(或生物標(biāo)記)對(duì)疾病發(fā)生的效應(yīng),應(yīng)當(dāng)成為流行病學(xué)病因推斷和預(yù)測模型構(gòu)建的未來發(fā)展方向。本研究將重點(diǎn)探討在網(wǎng)絡(luò)結(jié)構(gòu)框架內(nèi),如何篩選危險(xiǎn)因素(或生物標(biāo)記)以及如何構(gòu)建疾病發(fā)生預(yù)測模型。隨著高通量生物組學(xué)(基因組、轉(zhuǎn)錄組、表觀組、蛋白組、代謝組等)和環(huán)境暴露組學(xué)技術(shù)的成熟發(fā)展以及檢測成本的大幅度降低,流行病學(xué)家在群體水平上同時(shí)獲得海量的危險(xiǎn)因子或生物標(biāo)記成為現(xiàn)實(shí)。這為上述基于網(wǎng)絡(luò)結(jié)構(gòu)的建模思想提供了豐富的數(shù)據(jù)信息。為此,本研究將在網(wǎng)絡(luò)結(jié)構(gòu)框架內(nèi),從如下三個(gè)方面探討危險(xiǎn)因子(或生物標(biāo)記)篩選及疾病預(yù)測模型構(gòu)建的理論和方法:1)基于基因交互網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在貝葉斯模型框架內(nèi)篩選與疾病表型相關(guān)的生物標(biāo)記(第二章)。2)基于貝葉斯網(wǎng)絡(luò),構(gòu)建疾病篩檢模型(第三章)。3)基于貝葉斯網(wǎng)絡(luò)和競爭風(fēng)險(xiǎn)理論,構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測模型(第四章)。采用統(tǒng)計(jì)模擬與實(shí)際數(shù)據(jù)分析相結(jié)合的方法,評(píng)估上述建模策略的有效性,并通過與回歸模型(LASSO回歸模型,Logistic回歸模型)進(jìn)一步比較評(píng)價(jià)模型的優(yōu)劣性。一、基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(第二章)在全基因組關(guān)聯(lián)分析(GWAS)中,數(shù)據(jù)分析策略包括兩種:第一種是統(tǒng)計(jì)推斷策略,即采用統(tǒng)計(jì)學(xué)檢驗(yàn)(如卡方檢驗(yàn)、t檢驗(yàn)、Logistic回歸模型等)方法,針對(duì)每一個(gè)生物標(biāo)記(SNP位點(diǎn))計(jì)算對(duì)比組(如病例組和對(duì)照組)之間的統(tǒng)計(jì)量及其對(duì)應(yīng)的P值,通過比較P值與預(yù)先設(shè)定的顯著性檢驗(yàn)水準(zhǔn)α決定是否拒絕H0,若Pα則認(rèn)為該SNP位點(diǎn)與疾病具有統(tǒng)計(jì)學(xué)關(guān)聯(lián)。第二種是變量選擇策略,即采用變量選擇方法(如LASSO回歸、嶺回歸等),將與疾病具有關(guān)聯(lián)性的SNP位點(diǎn)選入模型。上述兩類方法均忽略了基因交互網(wǎng)絡(luò)結(jié)構(gòu),因而不可避免的會(huì)丟失信息。為此,本研究提出了基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的生物標(biāo)記(SNP)篩選模型,在SNP和疾病表型之間引入基因網(wǎng)絡(luò)層,作為生物標(biāo)記篩選的網(wǎng)絡(luò)拓?fù)湎闰?yàn),進(jìn)而構(gòu)建貝葉斯分層模型(Bayesian hierarchical model),篩選出與疾病表型有關(guān)的SNP位點(diǎn)。即,構(gòu)建基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(ND-BVS model).該方法是針對(duì)全外顯子測序的GWAS基因組數(shù)據(jù)的整體基因關(guān)聯(lián)分析方法,此類數(shù)據(jù)是以整體基因?yàn)閱挝?gene-based),獲取基因內(nèi)外顯子區(qū)域內(nèi)的全部SNP分型數(shù)據(jù)。基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型的基本原理和方法如下:1)從KEGG數(shù)據(jù)庫(http://www.keggjp/)中獲取基因網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(該數(shù)據(jù)庫中的生物網(wǎng)絡(luò)結(jié)構(gòu)均經(jīng)大量的實(shí)驗(yàn)證實(shí)),構(gòu)建基因間的鄰接矩陣R(如果基因i和基因j間在網(wǎng)絡(luò)中有連線,則R=1,否則凡=0)。2)以基因網(wǎng)絡(luò)結(jié)構(gòu)為先驗(yàn),構(gòu)建貝葉斯分層模型Zi=(T(Οξ,γ)β(ξ,γ))i+εi,εi~N(0,1),其中Z是表型潛變量得分,T(ξ,r)是基因得分,β(ξ,r)為基因?qū)Ρ硇偷男?yīng);ξ=(ξ1,…,ξJ)是決定第j個(gè)基因是否被選入模型的指示變量,ξ,=1表示第j個(gè)基因被選入,否則不被選入。γ=(γ1,…,γP)是決定特定基因j內(nèi)第p個(gè)SNP是否被選入模型的指示變量,rp=1表示第p個(gè)SNP被選入,否則不被選入。3)在上述貝葉斯分層模型中,ξ=(ξ1,…,ξJ)的先驗(yàn)分布定義為基因之間的馬爾科夫隨機(jī)場,兩兩基因之間的關(guān)系由鄰接矩陣R決定;γ=(γ1,…,γp)的先驗(yàn)分布由每個(gè)SNP的指示變量服從伯努利分布而界定。4)根據(jù)概率的鏈?zhǔn)椒纸夥▌t推導(dǎo)上述模型內(nèi)所有參數(shù)的聯(lián)合后驗(yàn)分布,進(jìn)而通過馬爾科夫鏈蒙特卡洛(MCMC)方法獲得參數(shù)的后驗(yàn)概率。5)根據(jù)SNP的后驗(yàn)概率由高到低排序,將SNP依次納入模型后經(jīng)十折交叉驗(yàn)證計(jì)算預(yù)測誤差,當(dāng)模型納入前k個(gè)SNP使得預(yù)測誤差達(dá)到最小時(shí),則將前k個(gè)SNP定義為與疾病表型相關(guān)聯(lián)的位點(diǎn)。主要結(jié)果:(1)根據(jù)致病SNP對(duì)表型潛變量得分的解釋方差,分別模擬生成三組數(shù)據(jù),數(shù)據(jù)對(duì)應(yīng)的解釋方差分別為70%、50%和30%(記為GV70、GV50和GV30)。模擬結(jié)果顯示:1)在致病位點(diǎn)的識(shí)別能力方面,本研究提出的基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(ND-BVS),其識(shí)別致病位點(diǎn)的AUC隨著致病位點(diǎn)的解釋方差的增高而增大,分別為0.792/GV3、0.894/GV50、0.911/GV70;該結(jié)果優(yōu)于LASSO (0.779/GV30、0.882/GV5、0.891/GV70)和逐步回歸法(0.774/GV30、0.853/GV50、0.869/GV70)。2)在對(duì)疾病表型的預(yù)測能力方面,ND-BVS的表現(xiàn)仍優(yōu)于LASSO和逐步回歸法(圖2-2)。(2)應(yīng)用上述三種模型分析麻風(fēng)病的GWAS數(shù)據(jù)(病例組706人,對(duì)照組514人,492109個(gè)SNP經(jīng)單點(diǎn)Logistic回歸檢驗(yàn)在α=0.0001的初篩水平上篩選出3388個(gè)SNP),利用上述三種模型對(duì)初篩后的SNP數(shù)據(jù)集進(jìn)行篩選,結(jié)果顯不:ND-BVS方法篩選出94個(gè)SNP,其中有5個(gè)SNP在獨(dú)立群體當(dāng)中得到驗(yàn)證;LASSO篩選出100個(gè)SNP,僅3個(gè)SNP被驗(yàn)證;逐步回歸法僅篩選出3個(gè)SNP,其中1個(gè)SNP被驗(yàn)證。結(jié)論:ND-BVS模型充分利用了基因之間的交互網(wǎng)絡(luò)拓?fù)湎闰?yàn),與傳統(tǒng)方法(LASSO回歸和逐步回歸法)相比提高了致病位點(diǎn)的識(shí)別能力及對(duì)疾病表型的預(yù)測能力。主要?jiǎng)?chuàng)新點(diǎn):在貝葉斯分層模型框架內(nèi),基于基因網(wǎng)絡(luò)拓?fù)湎闰?yàn),構(gòu)建了基因網(wǎng)絡(luò)拓?fù)湎闰?yàn)驅(qū)動(dòng)的貝葉斯生物標(biāo)記篩選模型(ND-BVS),為全外顯子測序的GWAS基因組數(shù)據(jù)分析提供了新方法。二、網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病篩檢模型(第三章)疾病篩檢是一種主動(dòng)發(fā)現(xiàn)無癥狀疾病的預(yù)防性措施,它是應(yīng)用能迅速區(qū)分外表健康的人群中可能有病者與可能無病者的試驗(yàn)、檢查或其他步驟,對(duì)未被識(shí)別的疾病或缺陷作出推斷性鑒定。通常采用橫斷面調(diào)查,首先確定與疾病表型相關(guān)的因素(包括生活習(xí)慣、體質(zhì)測量指標(biāo)、生化指標(biāo)、血清學(xué)標(biāo)記、基因標(biāo)記等),然后以表型相關(guān)因素為輸入變量,以疾病表型為輸出變量,采用統(tǒng)計(jì)模式識(shí)別模型構(gòu)建相應(yīng)的疾病篩檢模型。在建模策略上,通常是基于回歸建模策略(例如Logistic回歸模型),將自變量(篩查指標(biāo))以線性可加形式納入疾病篩檢模型。這種策略只能反映篩檢指標(biāo)對(duì)疾病表型的獨(dú)立線性可加效應(yīng),或通過變量的乘積項(xiàng)反映變量之間的交互的獨(dú)立效應(yīng)對(duì)疾病表型的貢獻(xiàn)。然而,篩檢指標(biāo)對(duì)疾病表型的影響是復(fù)雜的,不僅廣泛存在著非線性效應(yīng),而且往往存在復(fù)雜的交互效應(yīng)。當(dāng)篩檢指標(biāo)較多且交互作用復(fù)雜時(shí),回歸建模策略將出現(xiàn)估計(jì)偏性或失效。盡管可以采用神經(jīng)網(wǎng)絡(luò)模型等學(xué)習(xí)算法,優(yōu)化學(xué)習(xí)變量之間的交互效應(yīng)或非線性效應(yīng),從而提高預(yù)測精度,但此類方法本質(zhì)上仍未擺脫回歸模型的限制,仍然忽略了變量之間的調(diào)控關(guān)系,且往往存在過度學(xué)習(xí)的缺陷,從而出現(xiàn)外推預(yù)測的不準(zhǔn)確性。為此,本研究基于條件獨(dú)立準(zhǔn)則,構(gòu)建變量之間的貝葉斯網(wǎng)絡(luò),不僅充分提取變量之間的調(diào)控關(guān)系,而且利用了變量網(wǎng)絡(luò)的整體效應(yīng),旨在提高模型的篩檢能力。貝葉斯網(wǎng)絡(luò)是借助網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來描述變量之間的依賴和獨(dú)立關(guān)系的有向無環(huán)圖(directed acyclic graph, DAG)。網(wǎng)絡(luò)中的節(jié)點(diǎn)表示變量,節(jié)點(diǎn)間的邊表示變量間的直接依賴關(guān)系。貝葉斯網(wǎng)絡(luò)的構(gòu)建包括網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)兩部分,在網(wǎng)絡(luò)節(jié)點(diǎn)(生物標(biāo)記)之間的病理生理調(diào)控先驗(yàn)與計(jì)算機(jī)機(jī)器學(xué)習(xí)算法有機(jī)結(jié)合,進(jìn)行網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí),在網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的基礎(chǔ)上,通過最大似然法估計(jì)網(wǎng)絡(luò)節(jié)點(diǎn)的條件概率(即參數(shù)學(xué)習(xí))。為了評(píng)價(jià)基于網(wǎng)絡(luò)結(jié)構(gòu)的疾病篩檢模型的科學(xué)性和有效性,本研究設(shè)計(jì)了如下統(tǒng)計(jì)模擬試驗(yàn):以十折交叉驗(yàn)證的AUC(AUC-CV)作為評(píng)價(jià)指標(biāo),評(píng)價(jià)所構(gòu)建的貝葉斯網(wǎng)絡(luò)疾病篩檢模型的判別能力,并與Logistic回歸模型、神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。具體模擬方案如下:1)在原假設(shè)成立(AUC=0.5)時(shí),設(shè)立兩種情形(所有預(yù)測因子相互獨(dú)立且與疾病結(jié)局無關(guān)、預(yù)測因子之間具有網(wǎng)絡(luò)結(jié)構(gòu)但與疾病結(jié)局無關(guān)),評(píng)價(jià)模型的判別能力AUC指標(biāo)是否穩(wěn)定在0.5附近。2)設(shè)置多種網(wǎng)絡(luò)結(jié)構(gòu)(如普通網(wǎng)絡(luò)、輪狀網(wǎng)絡(luò)、鏈狀網(wǎng)絡(luò)),基于貝葉斯網(wǎng)絡(luò)算法產(chǎn)生網(wǎng)絡(luò)模擬數(shù)據(jù),探索在何種情況下忽略網(wǎng)絡(luò)結(jié)構(gòu)而盲目采用回歸分析策略(Logistic回歸模型、神經(jīng)網(wǎng)絡(luò)模型)將導(dǎo)致判別能力的損失。3)通過Logistic回歸模型產(chǎn)生線性可加性的沒有網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù),比較貝葉斯網(wǎng)絡(luò)模型與Logistic回歸模型的判別能力,探討貝葉斯網(wǎng)絡(luò)在線性可加情況下的穩(wěn)健性。主要結(jié)果:(1)統(tǒng)計(jì)模擬表明:1)當(dāng)兩種原假設(shè)成立時(shí)(圖3-5),當(dāng)樣本量較小且不進(jìn)行交叉驗(yàn)證時(shí),三種方法(貝葉斯網(wǎng)絡(luò)、Logistic模型、神經(jīng)網(wǎng)絡(luò)模型)的AUC均偏離0.5,但尤以神經(jīng)網(wǎng)絡(luò)偏離最為嚴(yán)重,其次是貝葉斯網(wǎng)絡(luò)模型和Logistic回歸模型。隨著樣本量的增大,三種模型的AUC逐漸逼近0.5。采用十折交叉驗(yàn)證的模擬策略顯示,三種模型的AUC-CV在樣本含量較小時(shí),即接近0.5的水準(zhǔn),當(dāng)樣本量大于500時(shí),AUC-CV穩(wěn)定在0.5左右。因此,本研究認(rèn)為AUC-CV是評(píng)價(jià)模型穩(wěn)定性的良好指標(biāo)。2)模擬發(fā)現(xiàn),在存在網(wǎng)絡(luò)結(jié)構(gòu)的情況下,三種模型的判別能力(AUC-CV)對(duì)樣本量并不十分敏感,但鑒于其穩(wěn)定性對(duì)樣本量十分敏感,本研究認(rèn)為構(gòu)建疾病篩檢模型的樣本量應(yīng)足夠大(500以上)。3)對(duì)于采用貝葉斯網(wǎng)絡(luò)算法產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù),當(dāng)預(yù)測因子與疾病結(jié)局之間的網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜時(shí)(圖3-6),貝葉斯網(wǎng)絡(luò)模型的判別能力(AUC=0.72;以樣本量500為例)明顯優(yōu)于Logistic判別能力(AUC=0.60)和神經(jīng)網(wǎng)絡(luò)的判別能力(AUC=0.62),說明忽略網(wǎng)絡(luò)結(jié)構(gòu)而構(gòu)建的疾病篩檢模型將不可避免的損失判別能力。4)仍采用貝葉斯網(wǎng)絡(luò)算法產(chǎn)生模擬數(shù)據(jù),當(dāng)預(yù)測因子與疾病結(jié)局之間呈簡單的鏈狀結(jié)構(gòu)時(shí)(圖3-7),貝葉斯網(wǎng)絡(luò)模型的判別能力(AUC-CV=0.66)與神經(jīng)網(wǎng)絡(luò)模型的判別能力(AUC-CV=0.63)相當(dāng),但Logistic回歸模型幾乎失去判別能力(AUC-CV=0.56)。5)基于貝葉斯網(wǎng)絡(luò)算法產(chǎn)生輪狀結(jié)構(gòu)數(shù)據(jù)(圖3-8),即各預(yù)測因子分別獨(dú)立的對(duì)疾病表型相關(guān);此時(shí)結(jié)果顯示三種方法判別能力相當(dāng)(AUC-CV=0.65);說明在預(yù)測因子獨(dú)立地與疾病表型相關(guān)時(shí),貝葉斯網(wǎng)絡(luò)模型能顯示出與Logistic回歸模型等價(jià)的判別能力。6)直接采用Logistic回歸模型產(chǎn)生數(shù)據(jù)(即數(shù)據(jù)完全滿足線性獨(dú)立可加條件;圖3-9),此時(shí)貝葉斯網(wǎng)絡(luò)模型、Logistic回歸模型及神經(jīng)網(wǎng)絡(luò)模型的判別能力幾乎一致(AUC-CV=0.8),此模擬結(jié)果進(jìn)一步驗(yàn)證了在預(yù)測因子獨(dú)立地與疾病表型相關(guān)時(shí),貝葉斯網(wǎng)絡(luò)模型仍能顯示出與Logistic回歸模型等價(jià)的判別能力。(2)實(shí)例分析:采用經(jīng)GWAS外部群體驗(yàn)證的16個(gè)與麻風(fēng)病相關(guān)聯(lián)的SNP基因標(biāo)記數(shù)據(jù),在樣本量為1220(706病例,514對(duì)照)時(shí),構(gòu)建麻風(fēng)病篩檢的貝葉斯網(wǎng)絡(luò)模型、Logistic回歸判別模型和神經(jīng)網(wǎng)絡(luò)模式識(shí)別模型,經(jīng)十折交叉驗(yàn)證后發(fā)現(xiàn),本研究所提出的基于網(wǎng)絡(luò)結(jié)構(gòu)的疾病篩檢模型建模策略表現(xiàn)出較好的預(yù)測能力(AUC-CV=0.7152),而忽略網(wǎng)絡(luò)結(jié)構(gòu)的Logistic回歸模型(AUC-CV=0.6976)和神經(jīng)網(wǎng)絡(luò)模型的判別能力稍差(AUC-CV=0.6794)。結(jié)論:忽略預(yù)測因子之間以及預(yù)測因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)而構(gòu)建的疾病篩檢模型,不可避免的將損失判別能力;而利用上述網(wǎng)絡(luò)結(jié)構(gòu)信息構(gòu)建的疾病篩檢模型不僅能提高判別能力,并且在預(yù)測變量間不存在網(wǎng)絡(luò)結(jié)構(gòu)時(shí),貝葉斯網(wǎng)絡(luò)模型仍能顯示出與Logistic回歸模型等價(jià)的判別能力。主要?jiǎng)?chuàng)新點(diǎn):提出了利用預(yù)測因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)信息提高疾病篩檢模型判別能力的創(chuàng)新建模策略,證明了忽略網(wǎng)絡(luò)結(jié)構(gòu)信息而構(gòu)建的疾病篩檢模型勢必?fù)p失判別能力,為充分利用網(wǎng)絡(luò)信息提高疾病篩檢模型判別能力提供了新思路。三、網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型(第四章)疾病風(fēng)險(xiǎn)預(yù)測的基本任務(wù)是指在疾病結(jié)局發(fā)生前,采用競爭風(fēng)險(xiǎn)模型預(yù)測個(gè)體未來特定時(shí)間段內(nèi)疾病發(fā)生的絕對(duì)風(fēng)險(xiǎn)。而絕對(duì)風(fēng)險(xiǎn)是指具備某特定危險(xiǎn)因素集的某個(gè)體在年齡α?xí)r未發(fā)生疾病結(jié)局而在年齡α+τ時(shí)段內(nèi)發(fā)生該疾病的概率,其中τ是人為規(guī)定的隨訪時(shí)間,一般設(shè)為五年風(fēng)險(xiǎn)預(yù)測模型或十年風(fēng)險(xiǎn)預(yù)測模型。在疾病風(fēng)險(xiǎn)預(yù)測中,競爭風(fēng)險(xiǎn)是廣泛存在的,它是指在研究對(duì)象的隨訪期內(nèi),除了會(huì)發(fā)生所研究的疾病結(jié)局外,還會(huì)出現(xiàn)其它競爭性結(jié)局,它的出現(xiàn)往往會(huì)影響所研究的疾病結(jié)局的發(fā)生概率,甚至導(dǎo)致疾病結(jié)局不會(huì)再發(fā)生;例如,在構(gòu)建腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測模型時(shí),若某個(gè)體在腦卒中發(fā)生前死于肺癌,則該個(gè)體今后發(fā)生腦卒中的概率即為O。在構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測模型中,若不考慮競爭風(fēng)險(xiǎn)效應(yīng)對(duì)疾病發(fā)生或轉(zhuǎn)歸概率的影響,勢必會(huì)導(dǎo)致對(duì)預(yù)測果的偏差。因此,疾病風(fēng)險(xiǎn)預(yù)測模型構(gòu)建常常基于競爭風(fēng)險(xiǎn)理論,構(gòu)建原因別風(fēng)險(xiǎn)模型(cause-specific hazard model)或部分分布風(fēng)險(xiǎn)模型(sub-distribution hazard model)。其中,原因別風(fēng)險(xiǎn)模型使用范圍較廣,既可基于隊(duì)列設(shè)計(jì),又可基于病例對(duì)照設(shè)計(jì)構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測模型,其基本原理如下:設(shè)人群中有N個(gè)個(gè)體,在一定時(shí)間內(nèi)發(fā)生了n例所研究的疾病,由此得到n個(gè)病例和N-n的非病例的數(shù)據(jù)信息,令Xi=(Xi1,Xi2,…,Xip)為第i個(gè)個(gè)體的預(yù)測因子向量。根據(jù)原因別風(fēng)險(xiǎn)模型,對(duì)于人群中具備特定危險(xiǎn)因素集的某個(gè)體在年齡α?xí)r未發(fā)生所研究疾病,而在年齡α+τ時(shí)段內(nèi)發(fā)生該病的絕對(duì)風(fēng)險(xiǎn)可表示為其中,下標(biāo)1表示所關(guān)注的疾病結(jié)局事件(如腦卒中發(fā)生),下標(biāo)2表示競爭風(fēng)險(xiǎn)事件(如非腦卒中死亡),λ10(t)為人群中年齡為t的個(gè)體發(fā)生所預(yù)測疾病的基準(zhǔn)風(fēng)險(xiǎn),rr1(t | X)為具有協(xié)變量X的該個(gè)體年齡為t時(shí)發(fā)生所預(yù)測疾病的相對(duì)危險(xiǎn)度(以其最低可能風(fēng)險(xiǎn)水平X0為參照);由于年齡常與危險(xiǎn)因素具有交互作用,所以,即使X是固定不變的,rr1(t|X)也將隨年齡增長而變化;此外,若X(t)隨年齡t的增長而變化,則rr1(t | X)也會(huì)變化。實(shí)踐中,可以假定rr1(t | X)在一段時(shí)間內(nèi)是固定不變的,同時(shí)假定非疾病結(jié)局(如非腦卒中死亡)的競爭風(fēng)險(xiǎn)不依賴于X(t)。此時(shí)模型中的相對(duì)危險(xiǎn)度rr1(t| X)既可以通過cox模型估計(jì),也可以由Logistic回歸模型估計(jì);λ10(t)=[1-AR(t)]λ10*(t)可用歸因危險(xiǎn)度估計(jì),λ10*(t)可用全人群中所預(yù)測疾病的平均發(fā)病風(fēng)險(xiǎn)代替。在上述基于Logistic回歸的疾病風(fēng)險(xiǎn)預(yù)測模型中,相對(duì)風(fēng)險(xiǎn)rr1(t| X)的估計(jì)方法是,首先建立p個(gè)危險(xiǎn)因素和疾病之間的多元Logistic回歸模型,得到每個(gè)預(yù)測因子的相對(duì)危險(xiǎn)度指標(biāo)rj=(1,2,…,p)。對(duì)于第i個(gè)個(gè)體,其相對(duì)風(fēng)險(xiǎn)為.該相對(duì)風(fēng)險(xiǎn)的基本原理是提出了各風(fēng)險(xiǎn)因子的線性獨(dú)立可加效應(yīng),從而忽略了預(yù)測因子之間的交互網(wǎng)絡(luò)結(jié)構(gòu)信息,因而勢必會(huì)造成模型的預(yù)測能力的損失。為此,本研究提出了網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型構(gòu)建的新策略。其基本方法是,首先建立預(yù)測因子與疾病表型之間的貝葉斯網(wǎng)絡(luò)模型,進(jìn)而利用貝葉斯網(wǎng)絡(luò)計(jì)算具有特定預(yù)測因子向量的個(gè)體發(fā)生疾病結(jié)局的相對(duì)危險(xiǎn)度為是處于基準(zhǔn)發(fā)病風(fēng)險(xiǎn)的個(gè)體的暴露水平,而Xi1,Xi2,…,Xip是其實(shí)際暴露水平;谝陨侠碚撃P,本研究通過統(tǒng)計(jì)模擬實(shí)驗(yàn),評(píng)價(jià)所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型的校準(zhǔn)能力(E/O比)和判別能力(AUC),并與傳統(tǒng)的Logistic回歸模型方法進(jìn)行比較(模擬方案見正文4.2.3)。通過本課題組所構(gòu)建的多中心健康體檢縱向檢測隊(duì)列構(gòu)建糖尿病風(fēng)險(xiǎn)預(yù)測模型,進(jìn)一步評(píng)價(jià)模型的實(shí)用性。主要結(jié)果:(1)統(tǒng)計(jì)模擬結(jié)果表明:1)在樣本量較大時(shí)(隊(duì)列規(guī)模大于1000),網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型(BN模型)和基于Logistic回歸的風(fēng)險(xiǎn)預(yù)測模型(LRT模型)的E/O比與AUC均趨于穩(wěn)定(圖4-2),二者的判別能力(AUC)雖無差異,但校準(zhǔn)能力(E/O比)差別較大,LRT模型明顯偏離1,從而高估了疾病風(fēng)險(xiǎn),而本研究所構(gòu)建的BN模型的E/O比接近于1,外推準(zhǔn)確性較高。2)當(dāng)預(yù)測因子的效應(yīng)增大時(shí),LRT模型和BN模型分別傾向于高估和低估個(gè)體累積得病風(fēng)險(xiǎn),然而BN模型在兩種效應(yīng)度量下的E/O比均明顯優(yōu)于LRT模型;兩個(gè)模型的AUC相當(dāng)并隨預(yù)測因子效應(yīng)增大而增大(圖4-2)。3)兩個(gè)模型的E/O比不受變量相關(guān)性的影響,且BN的E/O比整體優(yōu)于LRT模型;兩者的AUC相當(dāng)且隨自變量相關(guān)性的增強(qiáng)而提高(圖4-3)。4)隨著外推預(yù)測期限的延長,BN模型的E/O比仍優(yōu)于LRT模型。兩個(gè)模型的AUC相當(dāng)且不受預(yù)測期限的影響(圖4-4)。5)BN模型的校準(zhǔn)能力對(duì)人群中累積發(fā)病率水平不敏感,而LRT模型受人群累積發(fā)病水平的影響大,當(dāng)累積發(fā)病率較高時(shí),LRT模型的E/O比越來越偏離1,而BN模型E/O比不受累積發(fā)病水平影響,表現(xiàn)均優(yōu)于LRT模型;二者的判別能力(AUC)無差異且不受累積發(fā)病率影響(圖4-5)。(2)實(shí)例分析:依托山東多中心健康體檢縱向監(jiān)測隊(duì)列,以山東省立醫(yī)院健康體檢人群糖尿病隨訪隊(duì)列(隊(duì)列中7381人,隨訪5年,共發(fā)生糖尿病757例)分別基于BN模型和LRT模型構(gòu)建糖尿病風(fēng)險(xiǎn)預(yù)測模型,進(jìn)而在同類外部人群隊(duì)列(濟(jì)寧醫(yī)學(xué)院附屬醫(yī)院健康體檢人群糖尿病隨訪隊(duì)列,隊(duì)列中4142人,隨訪5年,共發(fā)生糖尿病233例)進(jìn)行外推驗(yàn)證,結(jié)果表明基于BN的糖尿病風(fēng)險(xiǎn)預(yù)測模型(AUC=0.699)與基于LRT的預(yù)測模型(AUC=0.701)的判別能力雖無差異,但在外推預(yù)測準(zhǔn)確性上,前者(E/O比=0.93)稍高于后者(E/O比=0.90)。進(jìn)一步說明了與模擬結(jié)果相符。結(jié)論:統(tǒng)計(jì)模擬與實(shí)例驗(yàn)證均表明,網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型與傳統(tǒng)的基于Logistic回歸的疾病預(yù)測模型相比,雖然在判別能力(AUC)上相差不大,但在外推預(yù)測準(zhǔn)確性(E/O比)上,前者明顯優(yōu)于后者。提示忽略網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)測模型勢必會(huì)造成模型預(yù)測準(zhǔn)確性的降低。主要?jiǎng)?chuàng)新點(diǎn):將預(yù)測因子與疾病表型之間的網(wǎng)絡(luò)結(jié)構(gòu)信息嵌入到競爭風(fēng)險(xiǎn)模型內(nèi),構(gòu)建了網(wǎng)絡(luò)結(jié)構(gòu)驅(qū)動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測模型,提高了疾病風(fēng)險(xiǎn)預(yù)測模型的預(yù)測準(zhǔn)確性,為疾病風(fēng)險(xiǎn)預(yù)測模型的構(gòu)建提供了新方法。
【關(guān)鍵詞】:網(wǎng)絡(luò)結(jié)構(gòu) 生物標(biāo)記 變量選擇 疾病篩檢模型 疾病風(fēng)險(xiǎn)預(yù)測模型
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:R181
【目錄】:
- 中文摘要8-18
- ABSTRACT18-30
- Denotaton30-31
- CHAPTER 1 INTRODUCTION31-41
- 1.1 Biomarker selection33-36
- 1.2 Disease screening36-38
- 1.3 Disease risk prediction38-40
- 1.4 Outline of the dissertation40-41
- CHAPTER 2 GENE NETWORK STRUCTURE-DRIVEN BAYESIAN BIOMARKER SELECTION MODEL41-63
- 2.1 Background41-43
- 2.2 Methods43-51
- 2.2.1 ND-BVS model43-45
- 2.2.2 Posterior distributions derivation45-49
- 2.2.3 Simulation studies49-50
- 2.2.4 Application50-51
- 2.3 Results51-60
- 2.3.1 Simulation results51-54
- 2.3.2 Application results54-60
- 2.4 Discussion60-63
- CHAPTER 3 NETWORK STRUCTURE-DRIVEN MODEL FOR DISEASE SCREENING63-81
- 3.1 Background63-64
- 3.2 Methods64-70
- 3.2.1 Bayesian network64-66
- 3.2.2 Neural network66-68
- 3.2.3 Simulation studies68-70
- 3.2.4 Application70
- 3.3 Results70-78
- 3.3.1 Simulation results70-76
- 3.3.2 Application results76-78
- 3.4 Discussion78-81
- CHAPTER 4 NETWORK STRUCTURE-DRIVEN MODEL FOR DISEASE RISK PREDICTION81-108
- 4.1 Background81-83
- 4.2 Methods83-92
- 4.2.1 Cause-specific hazard model83-84
- 4.2.2 BN-based estimation of relative risks84-86
- 4.2.3 Simulation studies86-89
- 4.2.4 Application89-92
- 4.3 Results92-104
- 4.3.1 Simulation results92-95
- 4.3.2 Application res山ts95-104
- 4.4 Discussion104-108
- CHAPTER 5 CONCLUSIONS108-111
- 5.1 Innovations109-110
- 5.2 Limitations110-111
- REFERENCE111-119
- 致謝119-120
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文120-121
- 學(xué)位論文評(píng)閱及答辯情況表121-123
- 附英文發(fā)表文章123-141
本文編號(hào):676630
本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/676630.html
最近更新
教材專著