基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用
發(fā)布時(shí)間:2020-06-11 10:47
【摘要】:研究背景:探討處理/暴露因素與結(jié)局之間的因果效應(yīng)是醫(yī)學(xué)研究中的重要課題。隨機(jī)對(duì)照試驗(yàn)通常被認(rèn)為是因果效應(yīng)估計(jì)的金標(biāo)準(zhǔn)。在觀察性研究中,研究對(duì)象的處理分配機(jī)制通常不是隨機(jī)發(fā)生的,而是會(huì)受到眾多混雜因素的影響。在比較處理組間的暴露效應(yīng)時(shí),如果忽略這些混雜因素,效果估計(jì)就會(huì)發(fā)生偏倚;谶呺H結(jié)構(gòu)模型的逆概率加權(quán)法(inverse probability weighing,IPW)是一類可用于觀察性資料處理效應(yīng)估計(jì)的重要方法。IPW在應(yīng)用時(shí)需要滿足一些前提假設(shè),比如無(wú)遺漏未觀測(cè)混雜因素、非負(fù)性假設(shè)、穩(wěn)定單元處理值假設(shè)以及要正確設(shè)定權(quán)重估計(jì)模型等。對(duì)于IPW而言,第一階段的逆概率權(quán)重估計(jì)非常關(guān)鍵,這是因?yàn)樽罱K的處理效應(yīng)估計(jì)對(duì)于第一階段的權(quán)重估計(jì)準(zhǔn)確與否非常敏感。如果權(quán)重估計(jì)模型設(shè)定錯(cuò)誤(如遺漏二次項(xiàng)或交互項(xiàng)等),估計(jì)的權(quán)重就不準(zhǔn)確,且容易產(chǎn)生極端權(quán)重,導(dǎo)致最終的效應(yīng)估計(jì)發(fā)生偏倚。近年來(lái),越來(lái)越多的研究人員推薦采用包括許多統(tǒng)計(jì)學(xué)習(xí)算法在內(nèi)的數(shù)據(jù)適應(yīng)性方法估計(jì)逆概率權(quán)重,取得了良好的效果。然而,目前的研究大多局限于二分類處理因素資料以及單一結(jié)局縱向生存資料。醫(yī)學(xué)實(shí)踐中存在著許多處理/暴露因素為連續(xù)性變量的資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料。對(duì)于處理因素為連續(xù)性變量的資料類型而言,采用IPW進(jìn)行效應(yīng)估計(jì)要比二分類處理因素的情況更復(fù)雜,比如要考察處理因素的分布類型、控制較多的極端權(quán)重對(duì)于效應(yīng)估計(jì)的影響等。對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料而言,傳統(tǒng)的邊際結(jié)構(gòu)原因別風(fēng)險(xiǎn)模型(marginal structural cause specific hazard models,MSCSHM)中的逆概率權(quán)重是多次隨訪所得的權(quán)重累乘所得。即使權(quán)重估計(jì)模型設(shè)定發(fā)生了比較輕微的錯(cuò)誤,最終處理效應(yīng)估計(jì)都將可能發(fā)生嚴(yán)重的偏倚。有鑒于此,探索基于統(tǒng)計(jì)學(xué)習(xí)算法的逆概率加權(quán)法在連續(xù)性處理因素資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料中的適用效果具有潛在的理論意義和實(shí)際應(yīng)用價(jià)值。研究目的:1、針對(duì)連續(xù)性處理因素的資料,通過(guò)模擬研究比較包括一般線性模型在內(nèi)的7種逆概率權(quán)重估計(jì)方法在不同數(shù)據(jù)情境下的估計(jì)效果。同時(shí),以一般線性模型為例,探討權(quán)重截?cái)喾椒▽?duì)于效應(yīng)估計(jì)的影響。2、針對(duì)時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料,在MSCSHM的基礎(chǔ)上,引入8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)逆概率權(quán)重。通過(guò)模擬研究比較logistic回歸與這8種方法在不同數(shù)據(jù)情境下的估計(jì)效果,篩選出其中表現(xiàn)較優(yōu)的方法。另外,探討不同程度的權(quán)重截?cái)嗨綄?duì)于各個(gè)估計(jì)方法的影響。研究方法:針對(duì)以上兩個(gè)研究目的,均分別采用數(shù)據(jù)模擬→模型構(gòu)建→模型篩選→實(shí)例應(yīng)用的研究流程開(kāi)展研究。分述如下:1、連續(xù)性處理因素的逆概率加權(quán)方法研究采用蒙特卡洛法模擬處理因素為連續(xù)性變量的觀察性隊(duì)列資料。模擬實(shí)驗(yàn)設(shè)置三種不同大小的樣本量(250、1000和2500)和四種不同復(fù)雜程度的處理因素生成模型(線性可加、非線性、非可加以及非線性非可加模型),比較一般線性模型(general linear model,GLM)、gamma回歸模型、分位數(shù)分組法(quantile binning,QB)、協(xié)變量均衡性傾向性評(píng)分(covariate-balancing propensity score,CBPS)、非參數(shù)CBPS(nonparametric CBPS,npCBPS)、boosted分類與回歸樹(shù)(boosted classification and regression trees,boosted CART)和隨機(jī)森林(random forest,RF)等7種方法估計(jì)廣義傾向性評(píng)分和逆概率權(quán)重,另外,對(duì)由GLM得到的穩(wěn)定權(quán)重分別在雙側(cè)1%和5%分位點(diǎn)進(jìn)行截?cái)嗵幚?得到相應(yīng)的截?cái)鄼?quán)重。進(jìn)一步,利用得到的9個(gè)權(quán)重變量對(duì)原始樣本加權(quán),通過(guò)加權(quán)結(jié)局回歸模型得到各自的處理效應(yīng)估計(jì)量。采用平均絕對(duì)相關(guān)系數(shù)(average absolute correlation coefficient,AACC)、相對(duì)偏倚(relative bias)、經(jīng)驗(yàn)標(biāo)準(zhǔn)差(standard deviation,SD)、模型輸出的標(biāo)準(zhǔn)誤(standard error,SE)、均方根誤差(root mean squared error,RMSE)和95%置信區(qū)間(confidence interval,CI)覆蓋率等指標(biāo)評(píng)價(jià)估計(jì)效果。最后通過(guò)研究吸煙量對(duì)于醫(yī)療總支出的影響,比較不同的IPW估計(jì)方法在實(shí)際數(shù)據(jù)分析時(shí)的應(yīng)用效果。2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)的逆概率加權(quán)方法研究首先提出采用MSCSHM作為本研究的基礎(chǔ)框架,引入LASSO、貝葉斯logistic回歸、CART、bagged CART、boosted CART、隨機(jī)森林、支持向量機(jī)(support vector machine,SVM)和EL(ensemble learner)算法等8種統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)造第一階段的逆概率權(quán)重。然后采用蒙特卡洛法模擬時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)。模擬設(shè)置了兩種不同大小的樣本量(250和1000)、不同強(qiáng)度的處理因素序列的自相關(guān)性(相關(guān)系數(shù)為log(4)和0.5)、不同的競(jìng)爭(zhēng)終點(diǎn)事件數(shù)(2和3)以及四種處理因素生成模型(線性可加、非可加、非線性以及非線性非可加模型)。分別采用logistic回歸和上述8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)穩(wěn)定權(quán)重。另外,分別在穩(wěn)定權(quán)重分布的雙側(cè)1%、5%、10%、25%、35%和50%分位點(diǎn)進(jìn)行截?cái)嗵幚?探討不同的截?cái)嗨綄?duì)于處理效應(yīng)估計(jì)的影響。采用絕對(duì)偏倚、相對(duì)偏倚、SD、SE、RMSE和95%CI覆蓋率等指標(biāo)評(píng)價(jià)估計(jì)效果,探索不同數(shù)據(jù)情境下的最優(yōu)方法。最后,將篩選得到的最優(yōu)方法應(yīng)用于評(píng)估硫唑嘌呤暴露對(duì)于炎癥性腸病患者的(I)惡性腫瘤及死亡的發(fā)生風(fēng)險(xiǎn)以及(II)非惡性腫瘤相關(guān)死亡的發(fā)生風(fēng)險(xiǎn),與傳統(tǒng)的分析方法得到的結(jié)果進(jìn)行對(duì)比,評(píng)價(jià)研究方法在實(shí)際數(shù)據(jù)分析時(shí)的應(yīng)用效果。上述研究過(guò)程均采用統(tǒng)計(jì)分析軟件R 3.4.3中實(shí)現(xiàn)。研究結(jié)果:1、連續(xù)性處理因素的逆概率加權(quán)方法研究(1)模擬研究結(jié)果:(1)在均衡協(xié)變量的能力方面,CBPS在所有方法中表現(xiàn)最好,其次為npCBPS。直接采用GLM法得到的原始穩(wěn)定權(quán)重對(duì)樣本加權(quán),協(xié)變量分布仍然不均衡,通過(guò)權(quán)重截?cái)喾椒ㄈコ龢O端值后,采用GLM(1,99)加權(quán)后的樣本的協(xié)變量均衡性顯著改善。(2)Boosted CART和RF在不同程度的權(quán)重估計(jì)模型誤設(shè)的情況下的估計(jì)偏倚均較小,在減小偏倚方面優(yōu)于其他方法。(3)由GLM、GLM(1,99)和GLM(5,95)三者的SD可以看出,權(quán)重截?cái)喾椒ǹ梢詼p小估計(jì)量的方差,且隨著截?cái)嗨降奶岣?方差逐漸變小。(4)CBPS、npCBPS和boosted CART的RMSE較小,估計(jì)精度較高。由于權(quán)重截?cái)鄿p小了方差,致使GLM(5,95)和GLM(1,99)的RMSE小于前述三種方法。(5)隨著處理因素生成模型復(fù)雜度的上升,各個(gè)方法的95%CI覆蓋率均有不同程度的下降。GLM(1,99)、CBPS、npCBPS和boosted CART四種方法的表現(xiàn)相對(duì)穩(wěn)健。(2)實(shí)例研究結(jié)果:通過(guò)“考察處理因素的分布-逆概率權(quán)重的估計(jì)-考察權(quán)重的分布-協(xié)變量均衡性的評(píng)價(jià)-劑量反應(yīng)函數(shù)的估計(jì)”的分析流程研究了吸煙數(shù)量對(duì)于醫(yī)療總支出的影響。結(jié)果表明,隨著吸煙量的增加,個(gè)人的醫(yī)療總支出也隨之增加;在調(diào)整了相關(guān)混雜因素后,吸煙量對(duì)于醫(yī)療總支出的效應(yīng)雖有所減弱,標(biāo)準(zhǔn)誤增大,但是除了boosted CART(1,99)加權(quán)法得到的估計(jì)量具有臨界統(tǒng)計(jì)學(xué)意義外,GLM(1,99)和RF(1,99)加權(quán)法得到的估計(jì)量仍具有顯著的統(tǒng)計(jì)學(xué)意義。2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)的逆概率加權(quán)方法研究(1)模擬研究結(jié)果:(1)當(dāng)處理因素生成模型僅包括主效應(yīng)項(xiàng)(線性可加)時(shí),boosted CART估計(jì)量的偏倚較小,且在SD和RMSE方面表現(xiàn)最優(yōu),而基于參數(shù)logistic回歸的估計(jì)量的SD較大,估計(jì)精度較差。(2)當(dāng)處理因素生成模型僅包括二階交互項(xiàng)(非可加)時(shí),在大樣本且處理因素序列強(qiáng)自相關(guān)時(shí),boosted CART和RF的估計(jì)效果非常接近,且均優(yōu)于其他方法;在小樣本或處理因素序列中度自相關(guān)時(shí),RF在偏倚和RMSE方面表現(xiàn)最優(yōu)。(3)當(dāng)處理因素生成模型包括非線性項(xiàng)時(shí),boosted CART在偏倚、RMSE和95%CI覆蓋率方面最優(yōu)。(4)當(dāng)處理因素生成模型同時(shí)包括二階交互項(xiàng)和非線性項(xiàng)時(shí),RF在RMSE和95%CI覆蓋率方面表現(xiàn)最優(yōu)。(5)低水平(如雙側(cè)1%分位點(diǎn))的權(quán)重截?cái)嗄軌蜻M(jìn)一步減小boosted CART和RF兩種方法的RMSE。(6)在相同的模擬情境下,多數(shù)估計(jì)方法的最優(yōu)截?cái)嗨讲槐M相同;在不同的模擬情境下,同一種方法的最優(yōu)截?cái)嗨揭灿胁町。最?yōu)截?cái)嗨降倪x擇具有數(shù)據(jù)依賴性。(2)實(shí)例研究結(jié)果:采用帶有時(shí)依性協(xié)變量的Cox比例風(fēng)險(xiǎn)模型、分別基于logistic回歸和boosted CART的MSCSHM分析硫唑嘌呤暴露對(duì)炎癥性腸病患者的兩個(gè)競(jìng)爭(zhēng)終點(diǎn)事件的風(fēng)險(xiǎn)大小。結(jié)果顯示,無(wú)論處理因素定義為過(guò)去3個(gè)月暴露還是累積暴露,各個(gè)模型的效應(yīng)估計(jì)結(jié)果均未顯示暴露效應(yīng)具有統(tǒng)計(jì)學(xué)意義。研究結(jié)論:對(duì)于連續(xù)性處理因素資料,CBPS和npCBPS在均衡協(xié)變量方面的能力較強(qiáng);在減小估計(jì)偏倚方面,boosted CART和RF等統(tǒng)計(jì)學(xué)習(xí)算法的表現(xiàn)較優(yōu);在采用IPW進(jìn)行效應(yīng)估計(jì)時(shí),應(yīng)首先考察權(quán)重變量的分布,若存在較多離群點(diǎn),應(yīng)首先對(duì)權(quán)重作截?cái)嗵幚?然后進(jìn)行下一步的效應(yīng)估計(jì)。對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料,在采用MSCSHM模型進(jìn)行效應(yīng)估計(jì)時(shí),由于實(shí)際資料中的處理分配機(jī)制往往未知,建議采用boosted CART和RF兩種方法替代傳統(tǒng)的logistic回歸構(gòu)建逆概率權(quán)重,以減小模型設(shè)定錯(cuò)誤對(duì)于效應(yīng)估計(jì)的影響。
【圖文】:
三、模擬研究(一)模擬實(shí)驗(yàn)設(shè)計(jì)本部分的模擬實(shí)驗(yàn)設(shè)計(jì)參考了 Setoguchi[36]、Lee[38]、Wyss[84]和 Romain[90]等擬框架,并在他們的基礎(chǔ)上作了適當(dāng)?shù)母倪M(jìn)以適應(yīng)本文的研究目的。1、模擬數(shù)據(jù)的總體結(jié)構(gòu)本研究模擬的是三種不同樣本量(分別為 250、1000 和 2500)的觀察性隊(duì) 3.1 所示,該模擬隊(duì)列數(shù)據(jù)包括一個(gè)連續(xù)性處理因素 A ,一個(gè)二分類結(jié)局變(Y ) ~ 0.10)和10個(gè)基線協(xié)變量iX ,i 1, , 10。在這10個(gè)基線協(xié)變量中,1X 雜因素,它們與處理因素和結(jié)局變量都相關(guān),5 7X ~X 僅是處理因素的預(yù)測(cè)獻(xiàn)中一般也稱之為工具變量),8 10X ~X 僅是結(jié)局變量的預(yù)測(cè)變量(即結(jié)局立預(yù)測(cè)因子)。另外,設(shè)置1X 、3X 、5X 、6X 、8X 和9X 為二分類變量,,7X 和10X 為連續(xù)性變量。各個(gè)基線協(xié)變量之間的相關(guān)系數(shù)矩陣見(jiàn)表 3.1。
樣本量為1000時(shí)四種模擬情境下的不同權(quán)重估計(jì)方法得到的AACC值的分布(1000次模擬的結(jié)果)
【學(xué)位授予單位】:中國(guó)人民解放軍海軍軍醫(yī)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:R195.1;O213
本文編號(hào):2707792
【圖文】:
三、模擬研究(一)模擬實(shí)驗(yàn)設(shè)計(jì)本部分的模擬實(shí)驗(yàn)設(shè)計(jì)參考了 Setoguchi[36]、Lee[38]、Wyss[84]和 Romain[90]等擬框架,并在他們的基礎(chǔ)上作了適當(dāng)?shù)母倪M(jìn)以適應(yīng)本文的研究目的。1、模擬數(shù)據(jù)的總體結(jié)構(gòu)本研究模擬的是三種不同樣本量(分別為 250、1000 和 2500)的觀察性隊(duì) 3.1 所示,該模擬隊(duì)列數(shù)據(jù)包括一個(gè)連續(xù)性處理因素 A ,一個(gè)二分類結(jié)局變(Y ) ~ 0.10)和10個(gè)基線協(xié)變量iX ,i 1, , 10。在這10個(gè)基線協(xié)變量中,1X 雜因素,它們與處理因素和結(jié)局變量都相關(guān),5 7X ~X 僅是處理因素的預(yù)測(cè)獻(xiàn)中一般也稱之為工具變量),8 10X ~X 僅是結(jié)局變量的預(yù)測(cè)變量(即結(jié)局立預(yù)測(cè)因子)。另外,設(shè)置1X 、3X 、5X 、6X 、8X 和9X 為二分類變量,,7X 和10X 為連續(xù)性變量。各個(gè)基線協(xié)變量之間的相關(guān)系數(shù)矩陣見(jiàn)表 3.1。
樣本量為1000時(shí)四種模擬情境下的不同權(quán)重估計(jì)方法得到的AACC值的分布(1000次模擬的結(jié)果)
【學(xué)位授予單位】:中國(guó)人民解放軍海軍軍醫(yī)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:R195.1;O213
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 盧梓航;周立志;韓棟;周燕豐;陳征;;競(jìng)爭(zhēng)風(fēng)險(xiǎn)型數(shù)據(jù)的統(tǒng)計(jì)處理及應(yīng)用[J];現(xiàn)代預(yù)防醫(yī)學(xué);2013年05期
本文編號(hào):2707792
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2707792.html
最近更新
教材專著