雙穩(wěn)健逆概率加權(quán)方法的建立及其在臨床試驗(yàn)數(shù)據(jù)缺失中的應(yīng)用
本文關(guān)鍵詞:雙穩(wěn)健逆概率加權(quán)方法的建立及其在臨床試驗(yàn)數(shù)據(jù)缺失中的應(yīng)用
更多相關(guān)文章: 雙穩(wěn)健 逆概率加權(quán) 臨床試驗(yàn) 數(shù)據(jù)缺失 隨機(jī)森林 傾向性評(píng)分
【摘要】:一、研究背景和研究目的隨機(jī)對(duì)照試驗(yàn)被認(rèn)為是當(dāng)前評(píng)價(jià)試驗(yàn)產(chǎn)品是否具有治療效果的研究設(shè)計(jì)金標(biāo)準(zhǔn)。然而在隨機(jī)對(duì)照試驗(yàn)中,各種原因?qū)е碌臄?shù)據(jù)缺失有其自身特點(diǎn),但仍然十分普遍。由于數(shù)據(jù)缺失,導(dǎo)致結(jié)果產(chǎn)生偏倚。這勢(shì)必會(huì)影響到數(shù)據(jù)的意向性分析,以及進(jìn)一步威脅到研究結(jié)論的有效性。數(shù)據(jù)缺失處理方法的研究由來(lái)已久,迄今為止主要包括完整病例分析、填補(bǔ)法、基于似然的分析方法和逆概率加權(quán)法等。這些方法的應(yīng)用都受制于數(shù)據(jù)缺失的機(jī)制,數(shù)據(jù)呈隨機(jī)缺失的假設(shè)較易滿足。當(dāng)數(shù)據(jù)呈隨機(jī)缺失時(shí),除非缺失不影響結(jié)果,否則不建議直接采用完整病例法分析;而多重填補(bǔ)法和極大似然估計(jì)方法都有其各自的特點(diǎn)和局限性。例如,多重填補(bǔ)時(shí),分析模型不能含有填補(bǔ)模型之外的變量、非線性項(xiàng)和交互項(xiàng),因此,該兼容性要求對(duì)結(jié)局分析模型的構(gòu)建有一定的限制,而且兩模型容易產(chǎn)生沖突。此外多重填補(bǔ)牽涉隨機(jī)抽樣,決策考慮要點(diǎn)也較多,結(jié)果不確定不唯一。應(yīng)用極大似然估計(jì)法時(shí),其依賴于參數(shù)假設(shè),如數(shù)據(jù)呈正態(tài)性;需合理構(gòu)建似然函數(shù);缺失比例不宜過(guò)大;當(dāng)采用貝葉斯后驗(yàn)推斷時(shí),結(jié)果依賴于先驗(yàn)信息等。逆概率加權(quán)法增加完整病例的權(quán)重,分析直觀;但是單純性逆概率加權(quán)不能利用部分缺失病例的信息,并且權(quán)重采用Logistic回歸獲得受制于回歸模型且有時(shí)過(guò)大。因此,本研究基于隨機(jī)缺失數(shù)據(jù),對(duì)單純性逆概率加權(quán)方法加以改進(jìn),一方面改進(jìn)結(jié)局分析模型,改進(jìn)后能同時(shí)利用完整病例和部分缺失病例的信息;另一方面,采用隨機(jī)森林非參數(shù)的方法優(yōu)化未缺失概率的估計(jì),且盡量避免權(quán)重過(guò)大。此外,對(duì)缺失數(shù)據(jù)進(jìn)行敏感性分析應(yīng)用新方法,其不需要額外滿足統(tǒng)計(jì)假設(shè),且從臨床角度看,結(jié)果也容易解釋。二、研究方法首先,理論上合理構(gòu)建雙穩(wěn)健逆概率加權(quán)方法。一方面我們?cè)趩渭冃阅娓怕始訖?quán)方法的算式中,增加期望值為0的項(xiàng),而該項(xiàng)可以加入部分缺失病例的信息。另一方面,未缺失概率模型中傾向性評(píng)分的估計(jì)還采用隨機(jī)森林非參數(shù)的方法加以比較。其次,我們利用模擬數(shù)據(jù)建立雙穩(wěn)健逆概率加權(quán)方法并采用SAS和R語(yǔ)言加以實(shí)現(xiàn),同時(shí)與其它方法進(jìn)行模擬數(shù)據(jù)處理效果的比較。模擬數(shù)據(jù)時(shí)從隨機(jī)對(duì)照試驗(yàn)數(shù)據(jù)缺失的特點(diǎn)出發(fā),預(yù)設(shè)研究主要終點(diǎn)呈單調(diào)性缺失,其缺失機(jī)制呈隨機(jī)缺失,即采用Logit模型基于每個(gè)受試者的基線協(xié)變量和研究中輔助變量的信息對(duì)其主要終點(diǎn)是否缺失進(jìn)行模擬。研究中主要終點(diǎn)的模擬在其呈正態(tài)分布的基礎(chǔ)上,還增加了另外三種情景,即結(jié)局分析模型有隨機(jī)中心效應(yīng)、主要終點(diǎn)呈非正態(tài)分布、未缺失概率模型錯(cuò)誤結(jié)局分析模型正確。這四種情景中,我們均考慮了4種大小的樣本量(N=120;240;600;1,000),每種樣本量下又進(jìn)一步設(shè)計(jì)了不同的研究總?cè)笔П壤?10%;20%;30%)。統(tǒng)計(jì)分析時(shí),首先對(duì)Logit建模和隨機(jī)森林法的傾向性評(píng)分進(jìn)行比較;然后再對(duì)單純性逆概率加權(quán)、雙穩(wěn)健逆概率加權(quán)與多重填補(bǔ)法等進(jìn)行分析方法比較。評(píng)價(jià)指標(biāo)包括療效組間差異的絕對(duì)誤差均值、95%可信區(qū)間覆蓋率和組間差異的誤差均方。最后,還進(jìn)一步在一個(gè)非劣效設(shè)計(jì)的糖尿病隨機(jī)對(duì)照試驗(yàn)中進(jìn)行應(yīng)用比較。對(duì)Logit建模和隨機(jī)森林法進(jìn)行了傾向性評(píng)分的比較,還比較了這幾種缺失處理方法的表現(xiàn)。為了支持研究結(jié)論的穩(wěn)健性,采用反轉(zhuǎn)點(diǎn)方法,分缺失填補(bǔ)數(shù)據(jù)的標(biāo)準(zhǔn)差等于零、等于組內(nèi)觀測(cè)值的標(biāo)準(zhǔn)差、填補(bǔ)后整組的標(biāo)準(zhǔn)差等于觀測(cè)值的標(biāo)準(zhǔn)差三種情況,對(duì)主要分析結(jié)果進(jìn)行敏感性分析。三、結(jié)果基于II型糖尿病的初步臨床規(guī)律,設(shè)立未缺失概率模型和結(jié)局分析模型的函數(shù)關(guān)系。各種模擬情形中,通過(guò)調(diào)整未缺失概率模型函數(shù)的系數(shù),均達(dá)到了預(yù)期的研究總?cè)笔П壤。模擬數(shù)據(jù)傾向性評(píng)分不論是試驗(yàn)組或?qū)φ战M、不同的預(yù)設(shè)缺失比例或不同的研究樣本量時(shí),均是隨機(jī)森林的傾向性評(píng)分值變異度小,并且極端小的傾向性評(píng)分值少,平均值或中位數(shù)均稍微較大。此外,不同研究樣本量之間,兩種算法內(nèi)部各自的傾向性評(píng)分估計(jì)值十分接近。在相同缺失比例的試驗(yàn)組或者對(duì)照組內(nèi),隨著研究樣本量的增加,隨機(jī)森林算法的傾向性評(píng)分值幾乎都逐漸增加向1接近;而Logit回歸模型算法的傾向性評(píng)分值在四種情景中的趨勢(shì)并不完全一致,有時(shí)增加有時(shí)降低。模擬數(shù)據(jù)療效差異的絕對(duì)誤差均值和誤差均方由于偶然性,模擬中無(wú)缺失數(shù)據(jù)仍然有一定的誤差,但誤差均是最小的。不論采用何種缺失處理方式,樣本量越大絕對(duì)誤差均值越小;缺失比例越大絕對(duì)誤差均值越大。四種情景中,均是雙穩(wěn)健逆概率加權(quán)法優(yōu)于單純性逆概率加權(quán)法。除結(jié)局變量呈非正態(tài)分布的情景外,隨機(jī)森林傾向性評(píng)分加權(quán)法往往表現(xiàn)最優(yōu)。Logit模型傾向性評(píng)分加權(quán)法的表現(xiàn)往往較差。另外,同步采用誤差均方進(jìn)行評(píng)價(jià)時(shí),各種方法表現(xiàn)出來(lái)的規(guī)律與采用絕對(duì)誤差均值發(fā)現(xiàn)的規(guī)律類似。模擬數(shù)據(jù)療效差異的95%可信區(qū)間覆蓋率可信區(qū)間覆蓋率的規(guī)律性不如絕對(duì)誤差均值指標(biāo)的明顯,并未出現(xiàn)雙穩(wěn)健逆概率加權(quán)法一致優(yōu)于單純性逆概率加權(quán)法,也未出現(xiàn)隨機(jī)森林算法一致優(yōu)于Logit模型。但多重填補(bǔ)法具有良好的覆蓋率。實(shí)際應(yīng)用數(shù)據(jù)分析不論試驗(yàn)組、對(duì)照組還是兩組合計(jì),隨機(jī)森林算法的傾向性評(píng)分的平均水平(平均值和中位數(shù))均較高,但傾向性評(píng)分的標(biāo)準(zhǔn)差并不總是隨機(jī)森林算法的小。從療效的組間差值看,多重填補(bǔ)法的結(jié)果最大,其最小二乘均數(shù)及95%可信區(qū)間為0.069(-0.148,0.286);Logit的單純性逆概率加權(quán)法的結(jié)果最小,其最小二乘均數(shù)及95%可信區(qū)間為0.014(-0.207,0.235);其余處理方法的結(jié)果十分接近?傮w而言,不論采用哪一種處理方法,研究的非劣效結(jié)論均成立。反轉(zhuǎn)點(diǎn)分析結(jié)果表明,從臨床角度看,非劣效結(jié)論在三種情況下均成立是可信的。四、結(jié)論在模擬隨機(jī)對(duì)照臨床試驗(yàn)數(shù)據(jù)中,當(dāng)主要終點(diǎn)呈單調(diào)性缺失且屬于隨機(jī)缺失時(shí),采用雙穩(wěn)健逆概率加權(quán)法,尤其隨機(jī)森林雙穩(wěn)健逆概率加權(quán)法處理具有良好的表現(xiàn),優(yōu)于單純性逆概率加權(quán)法,且除主要終點(diǎn)呈非正態(tài)分布情況下甚至優(yōu)于廣受歡迎的多重填補(bǔ)法,值得考慮應(yīng)用。在實(shí)際應(yīng)用中,隨機(jī)森林結(jié)合逆概率加權(quán)的方法以及Logit雙穩(wěn)健逆概率加權(quán)法,均獲得了穩(wěn)健的分析結(jié)果。反轉(zhuǎn)點(diǎn)分析作為一種敏感性分析方法,不要求額外統(tǒng)計(jì)假設(shè),臨床上亦易于解釋?傊,本研究建立了隨機(jī)森林結(jié)合雙穩(wěn)健逆概率加權(quán)法處理缺失的方法,盡量避免了過(guò)大的權(quán)重,同時(shí)利用了部分缺失病例的信息,為隨機(jī)對(duì)照臨床試驗(yàn)主要終點(diǎn)呈單調(diào)性隨機(jī)缺失時(shí)的分析提供了一種值得考慮的處理方法。
【關(guān)鍵詞】:雙穩(wěn)健 逆概率加權(quán) 臨床試驗(yàn) 數(shù)據(jù)缺失 隨機(jī)森林 傾向性評(píng)分
【學(xué)位授予單位】:第二軍醫(yī)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:R969.4
【目錄】:
- 摘要9-12
- Abstract12-16
- 縮略詞表16-18
- 第一部分 概述18-29
- 一、研究背景18-20
- 二、研究現(xiàn)狀20-24
- (一)常見(jiàn)缺失數(shù)據(jù)統(tǒng)計(jì)方法20-22
- (二)逆概率加權(quán)法22-23
- (三)利用傾向性評(píng)分校正缺失原因23-24
- (四)敏感性分析24
- 三、研究目的與意義24-25
- (一)研究目的24
- (二)研究意義24-25
- 四、研究?jī)?nèi)容、研究方法及技術(shù)路線圖25-28
- (一)研究?jī)?nèi)容25-27
- (二)研究方法27
- (三)技術(shù)路線圖27-28
- 五、資料來(lái)源及研究平臺(tái)28-29
- 第二部分 理論方法研究及模型構(gòu)建29-44
- 一、RCT試驗(yàn)若干統(tǒng)計(jì)考慮要點(diǎn)29-31
- (一)隨機(jī)對(duì)照試驗(yàn)的基石29-30
- (二)數(shù)據(jù)缺失威脅RCT有效性30-31
- (三)隨機(jī)模型31
- 二、多重填補(bǔ)31-33
- 三、傾向性評(píng)分33-37
- (一)Logit模型33-34
- (二)隨機(jī)森林34-37
- 四、逆概率加權(quán)37-41
- (一)單純性逆概率加權(quán)37-38
- (二)雙穩(wěn)健逆概率加權(quán)38-41
- 五、反轉(zhuǎn)點(diǎn)分析41-44
- 第三部分 模擬研究情況44-71
- 一、模擬研究的設(shè)計(jì)44-47
- (一)Monte-Carlo數(shù)據(jù)模擬總體考慮44-46
- (二)有缺失時(shí)參數(shù)估計(jì)評(píng)價(jià)指標(biāo)46-47
- 二、各種模擬研究及其結(jié)果47-69
- 情景 1、兩模型構(gòu)建均正確且組間療效有差異時(shí)47-53
- 情景 2、兩模型構(gòu)建均正確且考慮隨機(jī)中心效應(yīng)時(shí)53-58
- 情景 3、兩模型構(gòu)建均正確且結(jié)局變量呈非正態(tài)分布時(shí)58-63
- 情景 4、未缺失概率模型構(gòu)建錯(cuò)誤結(jié)局分析模型構(gòu)建正確時(shí)63-69
- 三、討論及結(jié)論69-71
- 第四部分 實(shí)例研究71-78
- 一、研究簡(jiǎn)介71
- 二、分析結(jié)果71-72
- 三、反轉(zhuǎn)點(diǎn)分析72-78
- 第五部分 研究總結(jié)78-80
- 一、研究局限性78
- 二、研究創(chuàng)新性78
- 三、研究總體結(jié)論78-80
- 附錄一 兩種算法傾向性評(píng)分的比較80-109
- 附錄二 計(jì)算機(jī)化實(shí)現(xiàn)所用程序109-143
- 一、情景1和情景4中數(shù)據(jù)模擬程序109-114
- 二、情景2中數(shù)據(jù)模擬程序114-118
- 三、情景3中數(shù)據(jù)模擬程序118-123
- 四、隨機(jī)森林外四種分析方法程序123-133
- 五、隨機(jī)森林分析方法程序133-140
- 六、反轉(zhuǎn)點(diǎn)分析程序140-143
- 參考文獻(xiàn)143-148
- 在讀期間發(fā)表論文和參加科研工作148-149
- 致謝149
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 ;統(tǒng)計(jì)概率值[J];護(hù)理管理雜志;2009年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 王杰;梁華國(guó);李華偉;閔應(yīng)驊;李曉維;;基于輸出違例概率的時(shí)延向量測(cè)試質(zhì)量評(píng)估[A];第六屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 柯果;概率斷案有玄機(jī)[N];民主與法制時(shí)報(bào);2012年
2 李中彩;為什么不選擇這樣的號(hào)碼[N];重慶商報(bào);2000年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 鐘細(xì)華;雙穩(wěn)健逆概率加權(quán)方法的建立及其在臨床試驗(yàn)數(shù)據(jù)缺失中的應(yīng)用[D];第二軍醫(yī)大學(xué);2015年
2 余磊;基于認(rèn)知科學(xué)的計(jì)算機(jī)圍棋博弈問(wèn)題的研究[D];華東師范大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 吳惠紅;中學(xué)生對(duì)概率值的理解[D];華東師范大學(xué);2004年
2 左紅江;基于樣本定鄰域概率的貝葉斯分類器[D];河北大學(xué);2013年
3 張進(jìn)東;基于區(qū)域的非確定性RFID事件概率計(jì)算方法研究[D];遼寧大學(xué);2013年
4 李亞文;概率XML文檔中Holistic Twig查詢處理算法的研究與實(shí)現(xiàn)[D];東北大學(xué);2009年
5 劉潘;概率XML文檔中Twig查詢處理算法的研究與實(shí)現(xiàn)[D];東北大學(xué);2010年
6 夏嘉斌;基于概率推斷的動(dòng)態(tài)切片裁剪方法[D];上海交通大學(xué);2013年
7 張劉輝;基于概率XML數(shù)據(jù)的關(guān)鍵字查詢處理方法研究[D];燕山大學(xué);2014年
8 周芳芳;新課程背景下高中生對(duì)概率基本概念理解的研究[D];東北師范大學(xué);2012年
9 周小平;概率XML文檔Top-κ關(guān)鍵字檢索算法研究[D];大連海事大學(xué);2012年
,本文編號(hào):854294
本文鏈接:http://sikaile.net/shoufeilunwen/yxlbs/854294.html