天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 醫(yī)學(xué)論文 > 流行病論文 >

因果圖理論驅(qū)動下系統(tǒng)流行病學(xué)設(shè)計與分析的理論方法研究

發(fā)布時間:2017-09-14 04:09

  本文關(guān)鍵詞:因果圖理論驅(qū)動下系統(tǒng)流行病學(xué)設(shè)計與分析的理論方法研究


  更多相關(guān)文章: 系統(tǒng)流行病學(xué) 因果圖 匹配與回歸策略 組學(xué)標(biāo)記篩選 致病通路識別及因果效應(yīng)估計


【摘要】:流行病學(xué)的任務(wù)是研究人群中疾病(或健康狀況)的分布及其決定因素,并研究疾病防治及健康促進(jìn)策略和措施。探討疾病危險因素進(jìn)而推斷病因是流行病學(xué)研究的永恒主題。然而,在當(dāng)今組學(xué)時代,傳統(tǒng)流行病學(xué)被稱為“黑盒子(black box)"流行病學(xué)。這種“黑盒子”流行病學(xué)方法(附件1中圖1A途徑①),只能識別出疾病的危險因素,但難以解釋人群中危險因素導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病通路。盡管“黑盒子”流行病學(xué)方法已在識別病因及控制疾病方面發(fā)揮了巨大作用,但在不明確危險因子導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病通路或網(wǎng)絡(luò)的情況下,往往難以有效地預(yù)測和評估干預(yù)危險因子的效果;甚至往往難以得出令人信服或可重復(fù)驗證的結(jié)論,以致于多年前就遭受到學(xué)術(shù)界的批評和質(zhì)疑。為此,長期以來,流行病學(xué)家一直在不解努力地尋求機(jī)遇,試圖打開“黑盒子”,闡明危險因子的致病網(wǎng)絡(luò)/通路。近年來,基因組學(xué)(Genomics)、表觀組學(xué)(Epigenomics)、轉(zhuǎn)錄組學(xué)(Transcriptomics)、蛋白組學(xué)(Proteomics)和代謝組學(xué)(Metabonomics)等各種高通量組學(xué)平臺技術(shù)的發(fā)展與成熟,已經(jīng)實現(xiàn)了將影響疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的全組學(xué)(globolomics)分子標(biāo)記映射到沿DNA→RNA→蛋白質(zhì)→代謝物→疾病表型這(?)連續(xù)統(tǒng)(continuum)上的分子網(wǎng)絡(luò)中,從而形成了整合系統(tǒng)生物學(xué)(Integrative systems biology)的框架[見附件1中圖1A③]。在此背景下,隨著上述高通量組學(xué)技術(shù)實驗室檢測成本的大幅度降低,流行病學(xué)家在人群中采用傳統(tǒng)方法(如隊列研究、病例對照研究等)收集各種暴露因素(如生活習(xí)慣、膳食模式、環(huán)境污染等)的同時,能夠進(jìn)行多種全組學(xué)分子標(biāo)記的高通量檢測與分析,包括基因組→表型組的全基因組關(guān)聯(lián)分析(GWAS)、基因組→轉(zhuǎn)錄組的表達(dá)QTL作圖(eQTL)、基因組→蛋白組QTL作圖(pQTL)、基因組→代謝組的全基因組關(guān)聯(lián)分析(mGWAS)、表觀基因組→代謝組的全表觀基因組關(guān)聯(lián)分析(mEWAS)、基因組→表觀基因組的QTL作圖(meQTL)和代謝組→表型組的全代謝組關(guān)聯(lián)分析(MWAS)等[附件見圖1A③]。這種傳統(tǒng)人群流行病學(xué)方法與現(xiàn)代高通量組學(xué)技術(shù)的有機(jī)整合,催生了一個嶄新的流行病分支學(xué)科——系統(tǒng)流行病學(xué)(Systems epidemiology) 。為此,本研究提出了系統(tǒng)流行病學(xué)的學(xué)科內(nèi)涵和設(shè)計框架(見附錄1圖1):將現(xiàn)代高通量組學(xué)技術(shù)融入到傳統(tǒng)人群流行病學(xué)研究中,在暴露因子與疾病終點之間的“黑盒子”覆蓋的通路內(nèi),檢測基因組、表觀組、轉(zhuǎn)錄組、蛋白組、代謝組或表型組上的生物標(biāo)記;進(jìn)而,結(jié)合生物信息學(xué)網(wǎng)絡(luò)數(shù)據(jù)庫KEGG (http://www.genome.jp/ke的通路信息,構(gòu)建“暴露因子→組學(xué)生物標(biāo)記→疾病終點”間的病因通路或病因網(wǎng)絡(luò),并比較不同狀態(tài)下(暴露組VS.非暴露組、疾病組VS.健康組、干預(yù)(治療)組VS.對照組等)通路或者網(wǎng)絡(luò)間的統(tǒng)計學(xué)差異,進(jìn)而推斷危險因子導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的通路及其因果效應(yīng)大;從而,為進(jìn)一步實驗室驗證、藥物靶點確定、預(yù)防或診療措施制定及評估提供科學(xué)依據(jù)。為了推斷“暴露因子→組學(xué)生物標(biāo)記→疾病終點”間的通路效應(yīng)大小,需要在研究設(shè)計和數(shù)據(jù)分析層面上,解決一系列關(guān)鍵問題。(1)在設(shè)計層面上,雖然系統(tǒng)流行病學(xué)研究仍可借鑒傳統(tǒng)流行病學(xué)研究的設(shè)計方法(如病例對照研究、隊列研究和實驗流行病學(xué)研究等),但因“暴露因子→組學(xué)生物標(biāo)記→疾病終點”間往往存在復(fù)雜的網(wǎng)絡(luò)調(diào)控關(guān)系(不僅存在著因果關(guān)系,還同時存在大量的非因果關(guān)系),使得準(zhǔn)確識別因果通路并估計出其因果效應(yīng)變得十分困難。需要從因果推斷理論層面上探討復(fù)雜網(wǎng)絡(luò)環(huán)境下因果效應(yīng)的推斷方法。(2)在組學(xué)生物標(biāo)記篩選層面上,雖然可以采用傳統(tǒng)的統(tǒng)計學(xué)方法(如卡方檢驗,t檢驗,回歸模型等)篩選出與疾病終點相關(guān)的生物標(biāo)記,但這些篩選方法本質(zhì)是關(guān)聯(lián)分析而非標(biāo)記與疾病終點之間的因果關(guān)系;诤Y選出來的關(guān)聯(lián)標(biāo)記所建“暴露因子→組學(xué)生物標(biāo)記→疾病終點”通路或網(wǎng)絡(luò),不僅不能準(zhǔn)確反映病因通路反而會混淆病因關(guān)系。因此,在篩選組學(xué)標(biāo)記時,應(yīng)盡量在因果推斷理論框架下篩選出與疾病終點具有潛在關(guān)系的生物標(biāo)記才有可能構(gòu)建相對可靠的“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路和病因網(wǎng)絡(luò)。(3)在特定“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路(或病因網(wǎng)絡(luò))的識別及其效應(yīng)估計方面,由于通路(或網(wǎng)絡(luò))節(jié)點之間不僅存在因果關(guān)系還存在復(fù)雜而廣泛的非因果關(guān)系,因此,需要去除非因果關(guān)系并準(zhǔn)確識別因果通路(或因果網(wǎng)絡(luò)),進(jìn)而估計通路效應(yīng)大小。為了解決上述三個方面的問題,本論文進(jìn)行了如下四個方面的研究工作:論文第一章:首先引入了近年來發(fā)展起來的因果圖理論,在Judea Pearl提出的因果圖模型框架內(nèi),概括綜述了因果推斷的基本理論和因果推斷準(zhǔn)則。論文第二章:在上述理論框架內(nèi),針對系統(tǒng)流行病學(xué)研究中最常用的病例對照研究設(shè)計,從理論上探討了傳統(tǒng)病例對照研究的匹配設(shè)計策略、回歸調(diào)整策略(非條件logistic回歸和條件logistic回歸)在網(wǎng)絡(luò)環(huán)境下的行為和效果,從而為網(wǎng)絡(luò)環(huán)境下如何使用匹配設(shè)計和回歸調(diào)整策略提供了理論依據(jù)。論文第三章:針對高維組學(xué)生物標(biāo)記篩選問題,基于因果圖模型的馬爾科夫毯(Markov Blanket),提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略(MB-based Repeated-fishing strategy, MBRFS),構(gòu)建了篩選與疾病終點具有潛在因果關(guān)系的組學(xué)標(biāo)記的新方法,為進(jìn)一步構(gòu)建組學(xué)生物標(biāo)記→疾病終點之間的因果通路(或網(wǎng)絡(luò))提供了潛在的因果證據(jù)。論文第四章:針對系統(tǒng)流行病學(xué)致病通路(或網(wǎng)絡(luò))的識別及因果效應(yīng)估計問題,仿照上游河流匯集是造成下游河水增加的水文因果關(guān)系,提出了“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路識別及其效應(yīng)估計的因果圖模型及其因果識別與效應(yīng)估計的統(tǒng)計量,為系統(tǒng)流行病學(xué)致病通路識別及其效應(yīng)估計提供了新方法。一、因果推斷的圖模型理論及因果推斷準(zhǔn)則(第一章)首先引入了近年來發(fā)展起來的因果圖理論,在Judea Pearl提出的因果圖模型框架內(nèi),概括綜述了因果推斷的基本理論和因果推斷準(zhǔn)則。(1)因果圖模型主要包括三個元素:變量,也稱節(jié)點或者頂點;箭頭(有向邊或弧),也就是兩個變量的直接因果關(guān)系;缺失的箭頭,即兩個變量沒有直接因果關(guān)系。因果圖是非參的,它對圖中變量的分布和變量間的函數(shù)關(guān)系不作任何假設(shè)。而且,它是一種有向無環(huán)圖,即將來的變量不能直接或間接地影響過去的變量。(2)路是一系列不重合的相鄰邊所組成的,值得注意的是,路并不關(guān)心邊的方向,其次路不能重復(fù)經(jīng)過一個節(jié)點。路主要分為三類:因果路(E→C→D)、混雜路(E→C→D)和碰撞路(E→C←D);其中因果路和混雜路屬于開路(即可以產(chǎn)生變量之間的相關(guān)關(guān)系),而碰撞路屬于閉路(即不能貢獻(xiàn)于變量之間的相關(guān)強(qiáng)弱)。對因果路上的變量(中介變量)施加條件會阻斷因果路造成過度調(diào)整偏倚;對混雜路上的變量(混雜)施加條件會阻斷混雜路,進(jìn)而得到因果效應(yīng);相反,對碰撞路上的變量(碰撞節(jié)點)施加條件會打開碰撞路,從而造成選擇性偏倚。(3)有向分割準(zhǔn)則(d-separation)是連接因果關(guān)系和統(tǒng)計相關(guān)的重要橋梁。通過它我們可以很容易地識別變量之間是否相關(guān)或者獨立。有向分割準(zhǔn)則的具體內(nèi)容如下:通過對Z施加條件后,我們稱一條路P是被有向分割的,如果1)如果Z包含在一條混雜路或者因果路中;2)Z或者Z的后代節(jié)點并不在施加變量集里面。一條路P我們?nèi)绻麑施加條件它不是有向連接的,那么我們稱這條路為有向連接的(d-connected).(4)Judea Pearl提出了因果作用計算的do算子,主要包括三個準(zhǔn)則:1)觀察的插入和刪除準(zhǔn)則,即如果(Y⊥Z|x,w)Gx那么P(y|do(x),z,w)=:P(y |d0(x),w);干預(yù)和觀察的交換準(zhǔn)則,如果(Y(?)Z|X,W)GXZ那么滿足P(y | do(x),do(z),w)=P(y | do(x),z,w);3)干預(yù)的插入和刪除準(zhǔn)則,即如果滿足(Y(?)Z|X,W)GXZ(W)則P(y I do(x),do(z),w)=P(y | do(x),w).其中X,Y,Z和W是因果圖中沒有任何交集的變量集,GX指的是去掉所有指向X的邊,Gx表示去掉所以從X發(fā)出去的邊。(5)后門準(zhǔn)則主要基于混雜路來定義的,在估計從X到Y(jié)的因果作用時,我們將連接從X到Y(jié)并指向X的所有非因果路稱為后門路;關(guān)閉所有的后門路就可以識別X對Y的因果效應(yīng)P(y|z)=∑xP(y|x,z)P(x|z).(6)前門準(zhǔn)則則是基于從X到Y(jié)的因果路定義的,主要應(yīng)用于當(dāng)存在不可觀測的混雜時。它是后門準(zhǔn)則的拓展,也稱為兩步后門準(zhǔn)則P(y |x)=∑zP(z|x)∑x.P(y|x)P(x').(7)工具變量G是在存在觀察不到的混雜U時估計X對Y因果效應(yīng)的方法,它必須滿足三個條件:1)G上U;2)G導(dǎo)到X或者和X有強(qiáng)相關(guān);3)G(?)Y|X,U.此時rGY/rGX用來估計X對Y的因果效應(yīng)。(8)一個變量T的馬爾可夫毯MB(T)被定義為滿足下列條件的最小集合:給定T的馬爾可夫毯的所以變量,T和其他的所有變量都是條件獨立的。二、基于因果推斷的匹配策略與回歸策略的理論方法研究(第二章)在系統(tǒng)流行病學(xué)研究中,推斷暴露→組學(xué)標(biāo)記、組學(xué)標(biāo)記→組學(xué)標(biāo)記、組學(xué)標(biāo)記→疾病終點等各個環(huán)節(jié)的因果關(guān)系是識別暴露因子致病通路及其因果效應(yīng)估計的核心。盡管在病因網(wǎng)絡(luò)中,暴露因子、組學(xué)標(biāo)記和疾病終點呈現(xiàn)出錯綜復(fù)雜的網(wǎng)絡(luò)關(guān)系,但推斷任何復(fù)雜因果網(wǎng)絡(luò)節(jié)點之間的因果關(guān)系均可簡化和縮減為三個節(jié)點之間三種核心關(guān)系:因果路(E→C→D)、混雜路(E→C→D)和碰撞路(E→C→D)。在推斷暴露E對D的因果效應(yīng)時,若對節(jié)點C施加條件(匹配或回歸調(diào)整)則對因果路(E→C→D)和碰撞路(E→C←D)會造成過度調(diào)整,從而歪曲因果關(guān)系;而對混雜路(E←C→D)則可以消除混雜作用,從而能夠準(zhǔn)確推斷E對D的因果效應(yīng)。然而,對于復(fù)雜的病因網(wǎng)絡(luò)中的任意三個節(jié)點而言,畢竟不僅僅包含上述三種關(guān)系,從因果拓?fù)浣Y(jié)構(gòu)上存在27中關(guān)系。為此,本研究首先定義了病因網(wǎng)絡(luò)中的如下9種關(guān)系情形:a)C是暴露E和疾病D的混雜;b)C是暴露E和疾病D的共同原因并且E對D沒有因果作用;c)C是疾病D的獨立病因;d)C是E的原因但是對D沒有直接因果作用;e)C是E和D的共同子節(jié)點;f)C是D的子節(jié)點;g)C是E的子節(jié)點;h)C是從E到D因果路上的中間環(huán)節(jié);i)C是一個工具變量。進(jìn)而,在Judea Pearl的因果圖理論框架下,采用do-算子(do-caculus)和后門準(zhǔn)則(back-door criterion)計算E→D的真實因果效應(yīng)(β);以此作為金標(biāo)準(zhǔn),從理論推導(dǎo)和統(tǒng)計模擬兩個層面上,考察對C施加條件(包括匹配策略和回歸調(diào)整策略)后,對估計E→D的真實因果效應(yīng)(β)的偏倚(β1-β)和精度(SE(β1))的影響;從而,概括總結(jié)出系統(tǒng)流行病學(xué)研究中,使用匹配策略和回歸調(diào)整策略的正確方法。主要結(jié)果:(1)當(dāng)C為混雜(情形a)時,在傳統(tǒng)分析流行病學(xué)研究中,認(rèn)為匹配病例對照研究可以有效提高精度(即SE(β1)),而且可以降低偏倚(β1-β)。然而本研究經(jīng)理論推導(dǎo)證明,匹配C對精度沒有明顯的提升;同時,也不能完全消除偏倚。在匹配后仍然需要采用條件logistic回歸模型或非條件logistic回歸模型對C進(jìn)行調(diào)整,但以非條件logistic回歸模型(log it(p(D=1| E,C))=β0+β+"E+β2C)調(diào)整的精度最高。(2)當(dāng)C與E或者D相關(guān)但又不是一個混雜因素(包括情形b,情形c,情形d,情形e,情形g,情形h)時,理論推導(dǎo)和統(tǒng)計模擬均證明:對C進(jìn)行匹配、以及采用條件logistic回歸模型或非條件logistic回歸模型對C進(jìn)行調(diào)整,均可造成額外的偏倚,從而歪曲E→D的真實因果效應(yīng)。(3)當(dāng)C不是一個混雜而是D的結(jié)果(情形f),對C進(jìn)行匹配或采用條件logistic回歸模型及非條件logistic回歸模型對C調(diào)整均是沒必要的。不僅如此,還能降低E-→D的因果效應(yīng)估計精度。(4)當(dāng)C是一個工具變量(情形i)時,對C進(jìn)行匹配或采用條件logistic回歸模型及非條件logistic回歸模型進(jìn)行調(diào)整均不能減少偏倚,這主要是由于觀測不到的混雜U的存在。結(jié)論:在系統(tǒng)流行病學(xué)網(wǎng)絡(luò)環(huán)境下,研究暴露(E)對疾病終點(D)的因果效應(yīng),必須統(tǒng)籌考慮網(wǎng)絡(luò)中其它眾多因素(C1,C2,C3,…,Cn)與E和D的關(guān)系;在此基礎(chǔ)上根據(jù)上述理論推導(dǎo)及統(tǒng)計模擬結(jié)果,科學(xué)合理地使用匹配策略和回歸調(diào)整策略,方可準(zhǔn)確地、精確地估計E→D的因果效應(yīng)。否則,任意武斷地使用匹配和回歸策略,勢必?fù)p失準(zhǔn)確性和精確性。主要創(chuàng)新點:針對系統(tǒng)流行病學(xué)中病例對照研究設(shè)計,在因果圖理論框架下,通過理論推導(dǎo)和統(tǒng)計模擬闡明了在推斷暴露(E)對疾病終點(D)的因果效應(yīng)時,使用匹配策略和回歸調(diào)整策略處理病因網(wǎng)絡(luò)中其它變量(C)的因果推斷規(guī)則。三、基于條件獨立準(zhǔn)則的組學(xué)生物標(biāo)記篩選策略(第三章)在系統(tǒng)流行病學(xué)研究中,識別“暴露因子(E)→組學(xué)生物標(biāo)記(M)→疾病終點(D)”因果通路(或病因網(wǎng)絡(luò))的前提是,篩選出與疾病終點(D)具有潛在因果關(guān)系的組學(xué)生物標(biāo)記(M)。然而,在傳統(tǒng)的組學(xué)數(shù)據(jù)分析(GWAS, MGWAS等)中,多采用統(tǒng)計檢驗策略(t檢驗、卡方檢驗、logistic回歸模型等)或機(jī)器學(xué)習(xí)的變量選擇策略(LASSO, SVM, Random Forest等);這些方法均是建立在關(guān)聯(lián)分析基礎(chǔ)上的關(guān)聯(lián)研究,而非因果檢驗研究。因而,不可避免地會出現(xiàn)過多的假陽性、假陰性和假因果,從而誤導(dǎo)后續(xù)因果路或者病因網(wǎng)的構(gòu)建。為此,本研究針對高維組學(xué)生物標(biāo)記篩選問題,基于因果圖理論的馬爾科夫毯(Markov Blanket)條件獨立準(zhǔn)則,提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略(MB-based Repeated-fishing strategy, MBRFS)構(gòu)建了篩選與疾病終點具有潛在因果關(guān)系的組學(xué)標(biāo)記的新方法,為進(jìn)一步構(gòu)建組學(xué)生物標(biāo)記→疾病終點之間的因果通路(或網(wǎng)絡(luò))提供了潛在的因果證據(jù)。主要結(jié)果:(1)針對傳統(tǒng)馬爾科夫毯算法(KS算法、GS算法、IAMB算法、MMMB、 HITON-MB, DASSO-MB和FEPI-MB算法等)在處理高維組學(xué)數(shù)據(jù)中的缺陷,本研究提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略和算法(MBRFS):1)通過卡方檢驗,以0.05的檢驗水準(zhǔn)對組學(xué)數(shù)據(jù)進(jìn)行變量初篩。該策略大大提高了運算速度,并且盡可能的搜索了與表型有關(guān)的標(biāo)志物;2)在G2檢驗中,為了減少列聯(lián)表的空格子數(shù)目,我們提出了一種新的馬爾可夫毯的條件獨立準(zhǔn)則,以控制在高維組學(xué)變量環(huán)境下的空格子數(shù)目;3)設(shè)計了重復(fù)釣魚策略,從而更進(jìn)一步有效地減少了列聯(lián)表的空格子數(shù)目,顯著提高了G2檢驗的檢驗效能。(2)基于功能基因組學(xué)中的“gain of function"研究策略,創(chuàng)建了模擬基因組數(shù)據(jù)的研究策略。設(shè)計了四種不同情形的模擬基因組數(shù)據(jù):1)將多個獨立的與疾病表型有因果關(guān)系的組學(xué)標(biāo)記物隨機(jī)插入到基因組中,從而產(chǎn)生相互獨立組學(xué)標(biāo)記的模擬基因組數(shù)據(jù);2)將多個具有相關(guān)性且與疾病表型有因果關(guān)系的組學(xué)標(biāo)記隨機(jī)插入到基因組中,從而產(chǎn)生了非獨立組學(xué)標(biāo)志的模擬基因組數(shù)據(jù):3)在基因組連鎖不平衡環(huán)境中,隨機(jī)選擇并設(shè)計多個與疾病表型有因果關(guān)系的組學(xué)標(biāo)記,從而產(chǎn)生了具有自然LD結(jié)構(gòu)的模擬基因組數(shù)據(jù)。(3)統(tǒng)計模擬表明,與傳統(tǒng)方法(test with Bonferroni or B-H adjustment, LASSO, DASSO-MB)相比,MBRFS具有以下優(yōu)勢:1)在原假設(shè)成立的情況下,我們提出的MBRFS算法在上述三種模擬情景下的真陽性發(fā)現(xiàn)率(TDR)接近于0。2)遍歷不同的效應(yīng)強(qiáng)度(OR)和最小等位基因頻率(MAF), MBRFS表現(xiàn)出最好的篩選效果。3)更重要的是,由于MBRFS策略使用了重復(fù)釣魚策略,能有效地捕捉到Bonferroni矯正漏掉的效應(yīng)小的,但與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記。(4)使用我們創(chuàng)建的MBRFS算法,分析GWAS數(shù)據(jù)(706個麻風(fēng)病患者和514個健康對照的491,883個SNPs)、乳腺癌的基因表達(dá)數(shù)據(jù)(20 Infiltrating Ductal carcinoma patients and 22 Infiltrating Lobular carcinoma patients)和甲基化數(shù)據(jù)(20Infiltrating Ductal carcinoma patients and 22 Infiltrating Lobular carcinoma patients)和關(guān)于精神分裂癥的代謝組數(shù)據(jù)(58 case and 71 controls),結(jié)果表明,我們提出的MBRFS算法優(yōu)于其他算法結(jié)論:我們提出的MBRFS算法,適合于系統(tǒng)流行病學(xué)研究中篩選與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記;它能夠在真實自然的組學(xué)數(shù)據(jù)環(huán)境中,準(zhǔn)確地識別出與疾病表型有潛在因果關(guān)系的組學(xué)標(biāo)記。主要創(chuàng)新點:針對高維組學(xué)生物標(biāo)記篩選問題,基于因果圖理論的馬爾科夫毯(Markov Blanket)條件獨立準(zhǔn)則,提出了組學(xué)標(biāo)記篩選的重復(fù)釣魚策略(MB-based Repeated-fishing strategy, MBRFS),構(gòu)建了篩選與疾病終點具有潛在因果關(guān)系的組學(xué)標(biāo)記的新方法,為進(jìn)一步構(gòu)建組學(xué)生物標(biāo)記→疾病終點之間的因果通路(或網(wǎng)絡(luò))提供了潛在的因果證據(jù)。四、基于因果推斷的致病通路識別及其效應(yīng)估計模型研究(第四章)系統(tǒng)流行病學(xué)研究的核心是,借助組學(xué)標(biāo)記打開暴露(E)與疾病終點(D)之間的黑盒子,闡明暴露因素(E)導(dǎo)致疾病(D)的致病通路及其效應(yīng)大小。為此,需要從復(fù)雜的系統(tǒng)流行病學(xué)致病網(wǎng)絡(luò)中識別出特定的“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路(或病因網(wǎng)絡(luò))并準(zhǔn)確估計其因果效應(yīng)大小。然而,通路(或網(wǎng)絡(luò))節(jié)點之間往往不僅存在因果關(guān)系還存在復(fù)雜而廣泛的非因果關(guān)系,因此,需要去除非因果關(guān)系并準(zhǔn)確識別因果通路(或因果網(wǎng)絡(luò)),進(jìn)而估計通路效應(yīng)大小。為此,以Judea Pearl提出的因果推斷的do算子為理論基礎(chǔ),本研究仿照上游河流匯集是造成下游河水增加的水文因果關(guān)系,提出了“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路識別及其效應(yīng)估計的因果圖模型,定義了因果通路識別及其效應(yīng)估計的統(tǒng)計量(PSEM),從而為系統(tǒng)流行病學(xué)致病通路識別及其效應(yīng)估計提供了新方法。主要結(jié)果:(1)針對復(fù)雜致病網(wǎng)絡(luò)中的特定因果路,基于因果圖理論,提出了從復(fù)雜致病網(wǎng)絡(luò)中簡化和抽提特定致病網(wǎng)絡(luò)的5種新準(zhǔn)則。在復(fù)雜致病網(wǎng)絡(luò)中,對于與致病通路(E→M1→M2→M3→…→D)有鄰接關(guān)系的節(jié)點,根據(jù)其與致病通路的上、下游鄰接關(guān)系,定義了5種鄰接路及其處理方式:1)對于單向匯流路(single conflux path),在估計E→M1→M2→M3→…→D的效應(yīng)時,需要按照do算子算法對其調(diào)整;2)對于單向分流路(single diffluent path),在估計E→M1→M2→M3→…→D的效應(yīng)時,不需要對其調(diào)整;3)對于從致病通路中分流出的兩個條路匯聚成的碰撞路(collider path by two diffluents),絕不能對其碰撞節(jié)點施加任何條件而予以調(diào)整,否則會增加因果效應(yīng)的選擇性偏倚;4)對于有兩個具有共同父節(jié)點、匯流于致病通路而成的混雜路(confounding path by two conflux)則需要對其混雜節(jié)點進(jìn)行調(diào)整,否則會使因果估計產(chǎn)生偏倚;5)對于由致病通路分流而出、進(jìn)而通過中介節(jié)點而再匯流入致病通路的中介路(mediator path by diffluent and conflux),則需要計算其控制性直接作用。(2)在識別復(fù)雜致病網(wǎng)絡(luò)中的特定致病通路(E→M1→M2→M3→…→D)時,針對其不可識別性,本研究提出了分段連乘因果效應(yīng)統(tǒng)計量計算公式(PSE=Πi=1kARi=AR1·AR2,…,ARk),從而有效地解決了系統(tǒng)流行病學(xué)復(fù)雜致病網(wǎng)絡(luò)中,計算特定致病通路因果效應(yīng)的不可識別性。(3)定義了識別和檢驗致病通路(E→M1→M2→M3→…→D)的統(tǒng)計量(StatistiCPSE),該統(tǒng)計量不僅能夠通過顯著性檢驗識別致病通路,而且還能同時估計致病通路的絕對因果效應(yīng);為了在系統(tǒng)流行病學(xué)復(fù)雜網(wǎng)絡(luò)中,比較多條致病通路的致病效應(yīng)大小,本研究又定義了致病通路的標(biāo)化絕對效應(yīng)量度(ARsPSE)和相對效應(yīng)統(tǒng)計量(RRsPSE)。從而,建立了完備的致病通路識別及其效應(yīng)估計的定量方法。(4)統(tǒng)計模擬結(jié)果表明:基于上述統(tǒng)計量的Permutation test表現(xiàn)出良好的穩(wěn)定性和較高的檢驗效能,可用于在復(fù)雜致病網(wǎng)絡(luò)中識別特定致病通路,并比較致病通路的效應(yīng)大小。(5)基于Bogalusa心血管病隊列研究,借助表觀組學(xué)標(biāo)記數(shù)據(jù),分析了吸煙如何通過胰島素代謝通路影響血糖代謝而導(dǎo)致糖尿病的治病路徑。成功地識別出了一條最顯著的致病通路:Smoking--SOCS--INSR--IRS--PI3K-- FOXO1-- G6PC-- Glucose。結(jié)論:所構(gòu)建的基于因果推斷do算子的致病通路識別及其效應(yīng)估計模型,不僅有效的識別出復(fù)雜致病網(wǎng)絡(luò)中的特定致病通路,而且能同時估計其效應(yīng)大小并比較不同致病通路的效應(yīng)大小。主要創(chuàng)新點:以Judea Pearl提出的因果推斷的do算子為理論基礎(chǔ),仿照上游河流匯集是造成下游河水增加的水文因果關(guān)系,提出了“暴露因子→組學(xué)生物標(biāo)記→疾病終點”因果通路識別及其效應(yīng)估計的因果圖模型,定義了因果通路識別及其效應(yīng)估計的統(tǒng)計量(PSEM),從而為系統(tǒng)流行病學(xué)致病通路識別及其效應(yīng)估計提供了新方法。
【關(guān)鍵詞】:系統(tǒng)流行病學(xué) 因果圖 匹配與回歸策略 組學(xué)標(biāo)記篩選 致病通路識別及因果效應(yīng)估計
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:R181
【目錄】:
  • 中文摘要9-19
  • ABSTRACT19-29
  • DENOTATION29-30
  • CHAPTER 1 CAUSAL DIAGRAMS THEORY30-43
  • 1.1 CAUSAL DIAGRAMS31-33
  • 1.2 Path implied in causal diagrams33-34
  • 1.3 The d-Separation Rules Linking Causal Assumptions to Statistical Independencies34-37
  • 1.4 do-calculus proposed by Judea Pearl37-38
  • 1.5 BACK-DOOR AND FRONT-DOOR CRITERION38
  • 1.6 INSTRUMENTAL VARIABLES38-39
  • 1.7 Markov Blanket and its algorkhms39-42
  • 1.8 Outline of the dissertation42-43
  • CHAPTER 2 THEORY AND METHODOLOGY OF MATCHING ANDREGRESSION STRATEGY BASED ON CAUSAL INFERENCE43-63
  • 2.1 Background43-45
  • 2.2 Methods45-50
  • 2.2.1 Matched case-control design under causal diagram45-49
  • 2.2.2 Simulation49-50
  • 2.3 Results50-60
  • 2.4 Discussion60-63
  • CHAPTER 3 OMIC BIOMARKERS SCREENING STRATEGY BASED ONCONDITIONAL INDEPENDENCE CRITERION63-83
  • 3.1 Background63-67
  • 3.2 Methods67-73
  • 3.2.1 Markov Blanket-based repeated-fishing strategy (MBRFS)67-70
  • 3.2.2 Simulation70-72
  • 3.2.3 Application72-73
  • 3.3 Results73-78
  • 3.3.1 Simulation results73-78
  • 3.3.2 Application results78
  • 3.4 Discussion78-83
  • CHAPTER 4 IDENTIFICATION AND CALCULATION OF PATHOGENICPATHWAY EFFECT BASED ON DO-CALCULUS83-100
  • 4.1 Background83-86
  • 4.2 Methods86-91
  • 4.2.1 Pathogenic network simplification rules and calculation of causal effect86-87
  • 4.2.2 Segmented series multiplication statistic87-88
  • 4.2.3 Non-parametric permutation and bootstrap test88-89
  • 4.2.4 Simulation89-90
  • 4.2.5 Application90-91
  • 4.3 RESULTS91-97
  • 4.3.1 Simulation results91-94
  • 4.3.2 Application results94-97
  • 4.4 Discussion97-100
  • CHAPTER 5 CONCLUSIONS100-104
  • 5.1 Innovations102
  • 5.2 Limitations102-104
  • APPENDIX A104-105
  • APPENDIX B105-114
  • APPENDIX C114-120
  • REFERENCE120-128
  • ACKNOWLEDGEMENT128-129
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文129-132
  • 學(xué)位論文平閱及答辯情況表132-133
  • 附英文發(fā)表論文133-157

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 劉盈君;張濤;王璐;劉佳;常學(xué)潤;張敬懸;薛付忠;;基于隨機(jī)森林的精神分裂癥血清代謝組學(xué)研究[J];山東大學(xué)學(xué)報(醫(yī)學(xué)版);2015年02期

,

本文編號:847781

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/847781.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2bf69***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩欧美91在线视频| 亚洲精品深夜福利视频| 国产毛片对白精品看片| 欧美日韩乱码一区二区三区| 在线观看免费无遮挡大尺度视频| 日本中文字幕在线精品| 风间中文字幕亚洲一区| 一区二区三区日本高清| 国产韩国日本精品视频| 日韩欧美91在线视频| 国产精品欧美一区二区三区不卡 | 国产精品制服丝袜美腿丝袜| 少妇熟女精品一区二区三区| 日本丁香婷婷欧美激情| 视频一区二区 国产精品| 欧美日韩精品一区二区三区不卡| 欧美成人免费视频午夜色| 老熟女露脸一二三四区| 国产成人精品资源在线观看| 国产肥女老熟女激情视频一区| 欧美区一区二区在线观看| 一区二区三区免费公开| 99久久人妻中文字幕| 激情综合五月开心久久| 日韩人妻毛片中文字幕| 日韩一区二区三区久久| 亚洲美女国产精品久久| 欧美亚洲91在线视频| 亚洲午夜精品视频观看| 亚洲天堂男人在线观看| 免费亚洲黄色在线观看| 91麻豆精品欧美视频| 久久91精品国产亚洲| 国产精品成人一区二区三区夜夜夜| 亚洲国产一区精品一区二区三区色| 国产精品流白浆无遮挡| 尹人大香蕉一级片免费看| 妻子的新妈妈中文字幕| 国产精品内射视频免费| 深夜日本福利在线观看| 精品香蕉一区二区在线|