天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 醫(yī)學(xué)論文 > 流行病論文 >

Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究

發(fā)布時間:2017-09-11 18:33

  本文關(guān)鍵詞:Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究


  更多相關(guān)文章: Logistic回歸 蒙特卡羅模擬 自變量事件數(shù) 罰分似然估計方法 輪廓似然方法


【摘要】:背景有關(guān)logistic回歸的樣本量估計目前尚無實用的理論方法,實踐中更多的是基于經(jīng)驗方法,即所謂應(yīng)變量(結(jié)局變量)事件數(shù)(EPV, events per variable)方法,即應(yīng)變量發(fā)生的事件數(shù)(陽性事件數(shù)和陰性事件數(shù)的最小值)需不少于模型中納入的自變量個數(shù)乘以的倍數(shù)。目前已經(jīng)開展的EPV方法的研究較多,如Harrell (1984), Concato (1995), Peduzzi (1995), Vittinghoff等(2006),通過模擬研究得出,采用基于最大似然估計(MLE, maximum likelihood estimate)的Wald方法時,EPV不小于5,10,甚至20等,才可保證回歸分析結(jié)果穩(wěn)。粭顣藻(2005)的研究認(rèn)為EPV應(yīng)不小于10。然而,有關(guān)自變量的事件數(shù)(EIV, events of independent variable),即納入模型的某一二分類自變量發(fā)生事件的個數(shù)(二分類中個數(shù)較小的那類),對模型的影響卻鮮有研究,而此問題恰恰也是實際數(shù)據(jù)中經(jīng)常會遇到的問題。如果EIV太小會導(dǎo)致logistic回歸模型的估計失準(zhǔn)或不穩(wěn)定,可認(rèn)為僅僅依靠EPV方法確定樣本量是不夠的,還需要結(jié)合EIV一起來確定樣本量。為此,本研究將通過模擬研究探討EIV對模型的影響,進而得到EIV界值的確定策略,為logistic回歸的樣本量估計提供更完善的經(jīng)驗方法。目的本研究采用Monte Carlo技術(shù)從EIV的角度探討logistic回歸模型的穩(wěn)定性,并建立確定EIV界值的方法。方法Logistic回歸分析最常用的參數(shù)估計方法是MLE,還有罰分似然估計(PLE,penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計收斂但至少有一個參數(shù)估計發(fā)散至正/負(fù)無窮的問題,主要發(fā)生在EIV與非事件數(shù)不平衡和高風(fēng)險因素情況下,該方法校正了MLE的偏倚,具有較好的性能,效果優(yōu)于精確logistic回歸和最大似然估計,但在實際應(yīng)用中較少。稀有事件logistic回歸原理是校正應(yīng)變量發(fā)生事件的概率,從而保證回歸結(jié)果的穩(wěn)健性,且從楊曉妍模擬結(jié)果來看,該方法對模型結(jié)果改善較小。最常用的估計logistic回歸系數(shù)的置信區(qū)間和假設(shè)檢驗方法是Wald方法,但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健,能嚴(yán)格控制一類錯誤率,且檢驗效能優(yōu)于Wald方法。因此,本研究分別選取MLE和PLE進行參數(shù)估計,選取Wald方法和輪廓似然方法估計回歸系數(shù)的置信區(qū)間及假設(shè)檢驗。本研究采用Monte Carlo技術(shù)進行模擬研究,所有模擬及計算均通過R3.1.2軟件實現(xiàn)。首先,模擬產(chǎn)生logistic回歸的自變量(Ⅳ,independent variable)與應(yīng)變量,6類模擬參數(shù)的設(shè)置為:自變量個數(shù)(1,4,8)、回歸系數(shù)絕對值(0,1,2)、樣本量(50,70,80,90,100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自變量間的相關(guān)性(0,0.5,0.8)、自變量事件發(fā)生率(5%,10%,15%,30%,50%)。參數(shù)設(shè)置非完全組合,其中,EIV最多為樣本量的一半,且MLE下EIV最小為5;1個自變量模型不涉及相關(guān)性;僅在8個自變量模型中,設(shè)置自變量事件發(fā)生率。應(yīng)變量則通過概率抽樣獲得,概率由人為設(shè)定的聲和模擬自變量計算得到。每種參數(shù)組合下模擬10000次。其次,分別采用MLE和PLE對模擬數(shù)據(jù)進行參數(shù)估計,采用Wald方法和輪廓似然方法進行假設(shè)檢驗及置信區(qū)間估計。最后,以一類錯誤(Type I Error)、均方根誤差(MSE, mean square error)、準(zhǔn)確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個指標(biāo)評價統(tǒng)計性能,由參數(shù)收斂的回歸結(jié)果與開始設(shè)定值比較獲得,從而探究EIV對模型結(jié)果的影響。當(dāng)指標(biāo)值達(dá)到期望值或達(dá)到相對穩(wěn)定狀態(tài)時對應(yīng)的EIV即為EIV界值。結(jié)果EIV對logistic回歸結(jié)果具有規(guī)律性影響,而自變量事件率的影響需結(jié)合樣本量共同發(fā)揮作用。表1,給出不同方法和五個評價指標(biāo)下,EIV的具體選擇策略。基于MLE的Wald方法和基于PLE的輪廓似然方法,均可以較好地控制-類錯誤率,但是后者明顯優(yōu)于前者。基于MLE的Wald方法需要EIV達(dá)到20以上,一類錯誤率可以穩(wěn)定保持在4%到6%之間;而基于PLE的輪廓似然方法需要EIV達(dá)到12以上,一類錯誤率可以穩(wěn)定保持在5%附近。而基于MLE的輪廓似然方法需EIV達(dá)到12以上,但樣本量要達(dá)到200以上,一類錯誤率可以穩(wěn)定保持在5%附近;基于PLE的Wald方法需EIV達(dá)到45以上,且樣本量也需達(dá)到200以上,一類錯誤率可穩(wěn)定保持在5%附近。第二步為量化危險因素的強度,即參數(shù)估計的精準(zhǔn)性方面。采用MLE方法時,EIV需分別達(dá)到18、12、16以獲得穩(wěn)定的均方根誤差、準(zhǔn)確性和精確性;而采用PLE方法時,EIV需分別達(dá)到12、12、7。最后為置信區(qū)間覆蓋率方面,基于MLE的Wald方法和基于PLE的輪廓方法,可以將覆蓋率較好控制在預(yù)期范圍內(nèi),穩(wěn)定控制在95%附近,但后者明顯優(yōu)于前者;贛LE的Wald方法需要EIV達(dá)到30以上;而基于PLE的輪廓方法需要EIV達(dá)到14以上。而另外兩種情況,基于MLE的輪廓似然方法受其他因素影響較大,很多情況不能達(dá)到預(yù)期值;而基于PLE的Wald方法EIV達(dá)到45以上,且樣本量也需達(dá)到200以上。此外,自變量個數(shù)、回歸系數(shù)絕對值、樣本量及相關(guān)性對EIV界值存在一定影響,但在影響方向和強度上略微不同。結(jié)論在實際應(yīng)用logistic回歸模型時,應(yīng)結(jié)合EPV和EIV一起確定樣本量。就EIV而言,應(yīng)不小于12。當(dāng)EIV在12→20之間,可采用基于PLE的輪廓似然方法,以較好地控制一類錯誤并獲得精準(zhǔn)的參數(shù)估計;當(dāng)EIV大于等于20時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進一步,當(dāng)EIV在14→30之間,可采用基于PLE的輪廓似然方法,以較好地控制置信區(qū)間覆蓋率;當(dāng)EIV大于等于30時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用,優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無法擴大樣本量的情況下,logistic回歸模型中可考慮剔除該自變量,以避免產(chǎn)生偏倚結(jié)果。
【關(guān)鍵詞】:Logistic回歸 蒙特卡羅模擬 自變量事件數(shù) 罰分似然估計方法 輪廓似然方法
【學(xué)位授予單位】:南方醫(yī)科大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:R181.3
【目錄】:
  • 摘要3-7
  • ABSTRACT7-13
  • 第一章 前言13-15
  • 第二章 方法15-22
  • 2.1 logistic回歸方法簡介15-18
  • 2.2 研究設(shè)計18-22
  • 第三章 結(jié)果22-63
  • 3.1 一類錯誤22-30
  • 3.2 均方根誤差30-38
  • 3.3 準(zhǔn)確性38-45
  • 3.4 精確性45-52
  • 3.5 置信區(qū)間覆蓋率52-61
  • 3.6 小結(jié)61-63
  • 第四章 討論及結(jié)論63-65
  • 參考文獻(xiàn)65-69
  • 附錄69-75
  • 攻讀學(xué)位期間成果75-76
  • 致謝76-78

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 鄭海燕;廖志遠(yuǎn);劉四蘭;梁文瓊;張旭;歐春泉;;logistic回歸系數(shù)可信區(qū)間估計及假設(shè)檢驗的三種方法比較[J];數(shù)理醫(yī)藥學(xué)雜志;2012年04期

2 劉啟軍,曾慶,周燕榮;精確logistic回歸及其SAS應(yīng)用程序[J];中華流行病學(xué)雜志;2003年08期

,

本文編號:832386

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/832386.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶56b89***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com