基于多水平模型的工具變量方法研究及應(yīng)用
發(fā)布時(shí)間:2017-10-04 22:19
本文關(guān)鍵詞:基于多水平模型的工具變量方法研究及應(yīng)用
更多相關(guān)文章: 層次結(jié)構(gòu)特征數(shù)據(jù) 多水平模型 工具變量 未知觀測(cè)混雜因素
【摘要】:研究背景:隨著醫(yī)療衛(wèi)生信息化的不斷發(fā)展,對(duì)分析方法的需求不斷增加,并且“真實(shí)世界的研究”在目前越來(lái)越受到關(guān)注,隨著數(shù)據(jù)集收集范圍的不斷擴(kuò)大,數(shù)據(jù)來(lái)源常常包括不同的地區(qū)、不同的醫(yī)院,如全市醫(yī)院信息數(shù)據(jù)、全國(guó)衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)等。這些數(shù)據(jù)具有層次結(jié)構(gòu)特征,對(duì)于這樣的數(shù)據(jù)進(jìn)行分析,首先需要考慮數(shù)據(jù)中不同水平單位對(duì)結(jié)果可能產(chǎn)生的影響,對(duì)于此類問(wèn)題,多水平分析模型可以很好地進(jìn)行處理。多水平模型將方差成分模型和多元回歸模型相結(jié)合,把廣義線性模型中的差異拆分為固定效應(yīng)和隨機(jī)效應(yīng)兩部分,從而更加準(zhǔn)確地估計(jì)處理/暴露因素的效應(yīng)值。在利用多水平模型對(duì)具有層次結(jié)構(gòu)特征的數(shù)據(jù)進(jìn)行分析時(shí),不僅能夠很好地控制不同的水平因素對(duì)結(jié)果所產(chǎn)生的影響,而且通過(guò)納入多個(gè)已知觀測(cè)的混雜因素,能較好地控制這些已知觀測(cè)混雜因素對(duì)結(jié)果產(chǎn)生的影響。也有研究者將傾向性評(píng)分法(Propensity Score Analysis,PSA)引入多水平模型,采取傾向性評(píng)分匹配法、分層法和加權(quán)法對(duì)數(shù)據(jù)集中的已知觀測(cè)混雜因素進(jìn)行控制,從而更好地獲得準(zhǔn)確的結(jié)果。但是,目前大部分衛(wèi)生服務(wù)方面的調(diào)查是關(guān)于人群健康方面的普查,當(dāng)研究者利用這樣的數(shù)據(jù)進(jìn)行某專項(xiàng)疾病或健康方面的研究時(shí),通常所需的變量并不能完全滿足研究要求,研究結(jié)果通常會(huì)受到未知觀測(cè)混雜因素的影響,如分析每周運(yùn)動(dòng)時(shí)間對(duì)自身健康狀況的影響,數(shù)據(jù)中已包括了一些已知觀測(cè)混雜因素(年齡、BMI、患病情況、吸煙、喝酒等),但對(duì)于本人的心情、家庭關(guān)系、病情輕重程度等因素調(diào)查數(shù)據(jù)中可能未包含或難以測(cè)量,這些因素同樣可能會(huì)影響到分析結(jié)果的準(zhǔn)確性,而目前這些常用于具有層次結(jié)構(gòu)特征數(shù)據(jù)的分析方法并不能控制這方面的影響。在普通數(shù)據(jù)分析時(shí),可以利用工具變量方法對(duì)未知觀測(cè)混雜因素進(jìn)行控制,在本研究中,我們將工具變量的思想引入多水平模型數(shù)據(jù)分析中,用以處理未知觀測(cè)混雜因素所產(chǎn)生的影響。研究目的:目前,對(duì)于層次結(jié)構(gòu)特征數(shù)據(jù)中未觀測(cè)混雜偏倚的控制鮮有研究進(jìn)行探索,本研究針對(duì)此問(wèn)題,將構(gòu)建出多水平工具變量模型(Multilevel Instrumental Variable,MIV),從而較為全面地控制層次結(jié)構(gòu)特征數(shù)據(jù)中水平因素、已知觀測(cè)混雜因素和未知觀測(cè)混雜因素對(duì)結(jié)果所產(chǎn)生的偏倚,并且基于資料中數(shù)據(jù)類型的不同(連續(xù)性變量和分類變量),將構(gòu)建出不同的多水平工具變量模型,以分別適用于連續(xù)型變量和分類變量資料分析中。本研究還將對(duì)所構(gòu)建的模型進(jìn)行準(zhǔn)確性和精確性方面的評(píng)價(jià),探索各種數(shù)據(jù)條件下所應(yīng)當(dāng)采用的最佳參數(shù)估計(jì)模型,在模型構(gòu)建的基礎(chǔ)上,筆者引入自助法(bootstrap),使模型估計(jì)得到的結(jié)果更加可靠。研究方法:研究首先進(jìn)行數(shù)據(jù)模擬,數(shù)據(jù)的模擬過(guò)程主要根據(jù)數(shù)據(jù)類型的不同分為3部分,在數(shù)據(jù)模擬過(guò)程中將考慮到不同強(qiáng)度的未知觀測(cè)混雜因素和不同強(qiáng)度的工具變量,從而較為全面對(duì)模型進(jìn)行評(píng)價(jià)。(1)模型構(gòu)建在處理/暴露因素和結(jié)局變量為連續(xù)型變量情況下,將構(gòu)建出兩階段最小二乘多水平工具變量模型與兩階段殘差納入多水平工具變量模型;在處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層次效應(yīng)情況下,將構(gòu)建出兩階段多水平回歸工具變量模型和兩階段多水平回歸殘差納入工具變量模型;在處理/暴露因素和結(jié)局變量為分類變量情況下,將構(gòu)建出兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型。在模型構(gòu)建的過(guò)程中我們還引入了自助法(bootstrap),在本研究中自助法采用的是分層個(gè)例重復(fù)抽樣法,根據(jù)原始樣本量的大小進(jìn)行等樣本重復(fù)抽樣,每次抽500次,然后用所構(gòu)建的模型對(duì)500個(gè)復(fù)樣本進(jìn)行分析。(2)模型評(píng)價(jià)模型評(píng)價(jià)部分將所構(gòu)建的多水平工具變量模型和普通多水平回歸模型所得的結(jié)果用四個(gè)指標(biāo)進(jìn)行客觀科學(xué)的評(píng)價(jià),分別為絕對(duì)偏倚、置信區(qū)間寬度、標(biāo)準(zhǔn)誤、置信區(qū)間覆蓋率。根據(jù)這四個(gè)指標(biāo)可以反映模型在不同數(shù)據(jù)情況下的準(zhǔn)確性和精確性,為后續(xù)模型的調(diào)整和應(yīng)用提供了科學(xué)根據(jù)。(3)實(shí)例分析最后將構(gòu)建的多水平工具變量模型應(yīng)用于實(shí)例分析中。實(shí)例分析數(shù)據(jù)來(lái)源于第五次全國(guó)衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)(上海)。針對(duì)結(jié)局變量和處理/暴露因素為連續(xù)型變量,本研究所選的實(shí)例為分析上海60歲以上老人每周體育鍛煉時(shí)間對(duì)其健康狀況的影響,男性和女性分別進(jìn)行分析,其中可能存在的未知觀測(cè)混雜包括本人的心情、家庭關(guān)系、病情輕重程度等,結(jié)局變量采用歐洲五維健康量表(europeanqualityoflife5-dimensions,eq-5d)評(píng)分,工具變量選擇為其愛(ài)人每周運(yùn)動(dòng)的次數(shù)。針對(duì)結(jié)局變量和處理/暴露因素為分類變量,本研究所選的實(shí)例為分析上海市60以上歲男性是否吸煙對(duì)其是否患有高血壓的影響,其中可能存在的未知混雜包括基因特征、周圍環(huán)境因素等,工具變量選擇為其家人是否吸煙。實(shí)例分析中應(yīng)用普通多水平模型和模擬中所獲得的最優(yōu)多水平工具變量模型進(jìn)行分析,并對(duì)不同方法所獲得的結(jié)果進(jìn)行比較。研究結(jié)果:數(shù)據(jù)模擬的結(jié)果顯示,研究發(fā)現(xiàn)在資料中存在未知觀測(cè)混雜因素時(shí),所構(gòu)建的多水平工具變量模型有較好的效果,具體如下:(1)處理/暴露因素和結(jié)局變量為連續(xù)型變量當(dāng)不存在未知觀測(cè)混雜因素時(shí),所有模型均能獲得較為理想的結(jié)果,但當(dāng)研究中存在未知觀測(cè)混雜因素時(shí),普通多水平線性回歸模型和自助法多水平線性回歸模型會(huì)獲得偏倚較大的結(jié)果,偏差最大的出現(xiàn)在β=6、=1時(shí)的普通多水平線性回歸模型中,其絕對(duì)誤差為-2.8219,但多水平工具變量的結(jié)果較為穩(wěn)定,當(dāng)β=6、=5時(shí)兩階段最小二乘多水平工具變量模型、兩階段殘差納入多水平工具變量模型、自助法兩階段最小二乘多水平工具變量模型和自助法兩階段殘差納入多水平工具變量模型結(jié)果的絕對(duì)偏倚分別為-0.0004、-0.0009、0.0012和0.0006。在四種多水平工具變量模型中,自助法引入的模型結(jié)果的置信區(qū)間較寬,提示結(jié)果更為保守,當(dāng)工具變量的強(qiáng)度增加時(shí),其區(qū)間會(huì)相應(yīng)的變窄。(2)處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層次效應(yīng)普通多水平線性回歸模型僅適用于無(wú)未知觀測(cè)混雜因素的數(shù)據(jù)中,該模型在數(shù)據(jù)中存在未知觀測(cè)混雜因素時(shí)所得的結(jié)果偏離金標(biāo)準(zhǔn)較大。雖然兩階段自助法兩階段最小二乘多水平工具變量模型可以基本準(zhǔn)確估計(jì)得出處理/暴露因素的效應(yīng)值,但其置信區(qū)間過(guò)寬。兩階段多水平回歸工具變量模型、兩階段多水平回歸殘差納入工具變量模型、自助法兩階段多水平回歸工具變量模型和自助法兩階段多水平回歸殘差納入工具變量模型在不同的數(shù)據(jù)情況下均能得到理想的結(jié)果,其中自助法兩階段多水平回歸工具變量模型的準(zhǔn)確度和精確度總體最佳,當(dāng)β=6、=5時(shí)該模型的絕對(duì)偏倚僅為0.0009。(3)處理/暴露因素和結(jié)局變量為分類變量結(jié)果展示當(dāng)數(shù)據(jù)中無(wú)未知觀測(cè)混雜因素存在的情況下普通多水平logistic回歸模型所獲得結(jié)果最佳,但當(dāng)混雜因素存在時(shí),普通多水平logistic回歸模型所得的結(jié)果將偏離金標(biāo)準(zhǔn)較遠(yuǎn),并且置信區(qū)間覆蓋率較低,自助法兩階段logistic回歸多水平工具變量模型和自助法線性回歸+logistic回歸多水平工具變量模型兩種模型在有未知觀測(cè)混雜因素?cái)?shù)據(jù)情況下表現(xiàn)較好,點(diǎn)估計(jì)最接近所設(shè)的金標(biāo)準(zhǔn),但此兩個(gè)模型的置信區(qū)間受到工具變量強(qiáng)度影響較大,在弱工具變量時(shí),模型估計(jì)的結(jié)果過(guò)于保守,區(qū)間過(guò)寬,兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型兩種模型在各種數(shù)據(jù)情況下均未表現(xiàn)出很好的效果。實(shí)例分析的結(jié)果顯示,在分析每周運(yùn)動(dòng)時(shí)間同自身健康狀況間的關(guān)系時(shí),普通多水平回歸模型和多水平工具變量模型均提示在60歲以上人群中,男性和女性每周運(yùn)動(dòng)時(shí)間同健康評(píng)分間存在正相關(guān)關(guān)系,但在男性中普通多水平回歸模型所得回歸系數(shù)為0.42(0.41-0.43),多水平工具變量模型所得回歸系數(shù)為0.70(0.53-0.86),兩者相差約0.3,女性中,普通多水平回歸模型所得回歸系數(shù)為0.49(0.48-0.50),多水平模型所得結(jié)果為0.37(0.21-0.53),兩者相差約0.1。說(shuō)明在該實(shí)例中,兩者都能較好地識(shí)別出感興趣的影響因素與應(yīng)變量之間的關(guān)系,但對(duì)關(guān)系大小的衡量存在差別。在分析60歲以上男性吸煙和患高血壓間關(guān)系時(shí),普通多水平logistic回歸提示吸煙為保護(hù)因素,OR值為0.74(0.65-0.83),此與目前所公認(rèn)的結(jié)論相違背,但多水平工具變量模型提示吸煙是患高血壓的危險(xiǎn)因素,OR值為5.05(1.40-18.26)。此項(xiàng)研究中僅納入五項(xiàng)協(xié)變量,很多高血壓的危險(xiǎn)因素在衛(wèi)生服務(wù)調(diào)查中未收集,如家族史、血液生化指標(biāo)等,普通分析方法無(wú)法控制這些未知觀測(cè)混雜因素對(duì)結(jié)果產(chǎn)生的影響,從而得到了錯(cuò)誤的結(jié)論,當(dāng)利用多水平工具變量模型對(duì)這些因素進(jìn)行控制后,所得結(jié)果將更為可靠。研究結(jié)論:本研究通過(guò)模擬研究和實(shí)例分析發(fā)現(xiàn)多水平工具變量模型均能很好地獲得較為準(zhǔn)確的結(jié)果。當(dāng)研究資料收集較全,均不存在十分重要的未知觀測(cè)混雜因素時(shí),普通的分析模型即可獲得較好的結(jié)果。當(dāng)資料并非為專項(xiàng)研究調(diào)查,層次結(jié)構(gòu)特征數(shù)據(jù)中遺漏了較多或一些較為重要的影響因素時(shí),普通分析模型將不再適用,可以采用本研究所構(gòu)建的多水平工具變量模型。當(dāng)針對(duì)連續(xù)性變量數(shù)據(jù)時(shí),首先需要看數(shù)據(jù)中處理/暴露因素在水平2單位上是否存在異質(zhì)性,當(dāng)處理/暴露因素存在層級(jí)效應(yīng)時(shí),建議采用自助法兩階段多水平回歸工具變量模型;當(dāng)針對(duì)分類數(shù)據(jù)時(shí),建議采用自助法兩階段logistic回歸多水平工具變量模型和自助法線性回歸+logistic回歸多水平工具變量模型兩種模型。分析過(guò)程中可以采用多個(gè)工具變量模型進(jìn)行分析,當(dāng)結(jié)果一致時(shí),可以更加肯定研究的結(jié)論。在模型使用過(guò)程中,應(yīng)當(dāng)盡可能地尋找強(qiáng)度較高的工具變量,從而可以獲得更為準(zhǔn)確的結(jié)果。
【關(guān)鍵詞】:層次結(jié)構(gòu)特征數(shù)據(jù) 多水平模型 工具變量 未知觀測(cè)混雜因素
【學(xué)位授予單位】:第二軍醫(yī)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:R181
【目錄】:
- 摘要6-10
- Abstract10-15
- 縮略詞表15-17
- 第一部分 概述17-33
- 一、研究背景17-23
- 二、研究目的與意義23-24
- 三、研究?jī)?nèi)容24-30
- 四、研究步驟30-31
- 五、資料來(lái)源、分析工具及研究平臺(tái)31-33
- 第二部分 多水平工具變量模型在模擬數(shù)據(jù)中的擬合和驗(yàn)證33-63
- 一、處理/暴露因素和結(jié)局變量為連續(xù)型變量34-43
- 二、處理/暴露因素和結(jié)局變量為連續(xù)型變量(均存在層級(jí)效應(yīng))43-51
- 三、處理/暴露因素和結(jié)局變量為分類變量51-59
- 四、討論59-63
- 第三部分 實(shí)例應(yīng)用63-75
- 一、概況63-64
- 二、應(yīng)用實(shí)例一:60歲以上老人每周運(yùn)動(dòng)時(shí)間和身體健康狀況的關(guān)系64-68
- 三、應(yīng)用實(shí)例二:60歲以上男性吸煙對(duì)其患高血壓的影響68-73
- 四、討論73-75
- 第四部分 研究結(jié)論與展望75-78
- 一、研究結(jié)論75-76
- 二、研究特色和創(chuàng)新點(diǎn)76
- 三、尚待開(kāi)展的研究76-78
- 附錄:核心程序78-92
- 文獻(xiàn)綜述92-105
- 參考文獻(xiàn)102-105
- 參考文獻(xiàn)105-110
- 在讀期間發(fā)表論文和參加科研工作110-113
- 致謝113
本文編號(hào):973191
本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/973191.html
最近更新
教材專著