混合型缺失數(shù)據(jù)填補方法比較與應用
發(fā)布時間:2021-05-09 21:52
目的針對混合型缺失數(shù)據(jù),使用幾種填補方法在缺失填補中的應用并評價填補效果。方法結合實際數(shù)據(jù),模擬出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近鄰填補法(KNN)和基于鏈式方程多重插補(MICE)四種方法進行填補;采用錯分類比例(PFC)、正則化均方根誤差(NRMSE)和回歸系數(shù)估計值比較填補效果。結果20FAMD與MissForest相比,對分類變量填補表現(xiàn)優(yōu)越。缺失比例是10%時,FAMD與MissForest表現(xiàn)優(yōu)于KNN和MICE;缺失比例是20%時FAMD明顯優(yōu)于其它三種方法,但是MissForest表現(xiàn)亦可;缺失比例是30%時,四種模型表現(xiàn)明顯下降,處理效果均不太理想;缺失比例是50%時,雖然FAMD仍有兩個變量符合優(yōu)良標準,但對某些變量估計誤差較大,其它三種方法填補均失效。結論20FAMD填補方法總體表現(xiàn)較好,面對混合型缺失數(shù)據(jù)時可以考慮優(yōu)先選用。
【文章來源】:中國衛(wèi)生統(tǒng)計. 2020,37(03)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
原理與方法
1.MissForest 填補
2.FMAD填補
3. KNN填補
4. MICE填補
模擬分析
1. 模擬思路
2. 模擬完整數(shù)據(jù)集與模型構建
3. 評價指標
4. 模擬結果
實例應用
1. 資料來源
2. 分析方法及評價標準
結果與分析
1. 四種方法的NRMSE和PFC
2. 不同缺失比例下變量的回歸系數(shù)
討 論
【參考文獻】:
期刊論文
[1]基于R軟件的缺失數(shù)據(jù)MICE填補效果研究[J]. 章濤,朱麟,季加東,袁中尚,薛付忠,李秀君. 中國衛(wèi)生統(tǒng)計. 2015(04)
[2]缺失森林算法在缺失值填補中的應用[J]. 沈琳,胡國清,陳立章,譚紅專. 中國衛(wèi)生統(tǒng)計. 2014(05)
本文編號:3178088
【文章來源】:中國衛(wèi)生統(tǒng)計. 2020,37(03)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
原理與方法
1.MissForest 填補
2.FMAD填補
3. KNN填補
4. MICE填補
模擬分析
1. 模擬思路
2. 模擬完整數(shù)據(jù)集與模型構建
3. 評價指標
4. 模擬結果
實例應用
1. 資料來源
2. 分析方法及評價標準
結果與分析
1. 四種方法的NRMSE和PFC
2. 不同缺失比例下變量的回歸系數(shù)
討 論
【參考文獻】:
期刊論文
[1]基于R軟件的缺失數(shù)據(jù)MICE填補效果研究[J]. 章濤,朱麟,季加東,袁中尚,薛付忠,李秀君. 中國衛(wèi)生統(tǒng)計. 2015(04)
[2]缺失森林算法在缺失值填補中的應用[J]. 沈琳,胡國清,陳立章,譚紅專. 中國衛(wèi)生統(tǒng)計. 2014(05)
本文編號:3178088
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/3178088.html
最近更新
教材專著