天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

缺失值填補效果:機器學(xué)習(xí)與統(tǒng)計學(xué)習(xí)的比較

發(fā)布時間:2021-06-22 05:01
  數(shù)據(jù)缺失是眾多影響數(shù)據(jù)質(zhì)量的因素中最常見的一種。如果處理不好缺失數(shù)據(jù),就會直接影響分析結(jié)果的可靠性,進而達不到分析的目的。文章以醫(yī)療領(lǐng)域的缺失值問題為例,通過靈敏度、準(zhǔn)確率和Kappa值三個指標(biāo)來比較分析機器填補法和統(tǒng)計填補法在不同缺失率下的填補效果。研究結(jié)果表明,在注重小比例人群的醫(yī)療領(lǐng)域,機器學(xué)習(xí)方法表現(xiàn)突出,該方法在三個方面皆優(yōu)于統(tǒng)計填補法。另外,隨著缺失率的增長,兩種填補方法的效果都有所下降,但值得注意的是,即使缺失率很高時,機器學(xué)習(xí)方法的填補效果仍然優(yōu)于統(tǒng)計方法,且具有很高的穩(wěn)定性。 

【文章來源】:統(tǒng)計與決策. 2020,36(17)北大核心CSSCI

【文章頁數(shù)】:5 頁

【部分圖文】:

缺失值填補效果:機器學(xué)習(xí)與統(tǒng)計學(xué)習(xí)的比較


不同缺失率下各填補方法的靈敏度變化情況100%100%90%C5.0SVMRFMI熱卡填補眾數(shù)填補90%85%10%30%40%50%0%10%30%40%50%

變化情況圖,缺失,眾數(shù),準(zhǔn)確率


謔?畈?0.0000.6500.000MI0.6170.6730.308熱卡填補0.6900.7650.5792.3.2不同評價方法下各模型的比較考慮不同缺失率下,代表機器學(xué)習(xí)和統(tǒng)計方法的各填補方法對填補效果的影響。以準(zhǔn)確率、精確率、一致性為分析對象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補眾數(shù)填補圖1不同缺失率下各填補方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補眾數(shù)填補圖2不同缺失率下各填補方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補眾數(shù)填補圖3不同缺失率下各填補方法的Kappa值變化情況圖1靈敏度的評價效果表明,支持向量機隨缺失率的變化呈現(xiàn)先增長再下降的趨勢,在缺失率為30%時,甚至達到最大值1.000;隨機森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評價效果表明,隨機森林填補法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機的各項指標(biāo)在10%~30%的缺失率下保持增長趨勢,并在30%處指標(biāo)值達到最大,此后有所下降;決策樹在缺失率40%之前呈穩(wěn)定變化,此后卻出現(xiàn)斷崖式下降。熱卡填補隨著缺失率的增加,不斷下降;多重填補法在缺失率不足30%時維持穩(wěn)定,此后出現(xiàn)明顯下降,當(dāng)缺失率大于40%時,已經(jīng)下降到0.65;眾數(shù)填補不隨缺失率的改變而變化,始終維持在0.65的水平。圖3一致性的評價效果表明,支?

趨勢圖,缺失,支持向量機,靈敏度


填補,眾數(shù)填補依然表現(xiàn)最差,除了準(zhǔn)確率維持0.650不變外,靈敏度和Kappa值均為0。表650%缺失率下不同模型的各評價指標(biāo)的情況方法模型靈敏度準(zhǔn)確率Kappa值機器學(xué)習(xí)法C5.00.8920.9500.889RF0.9580.9770.949SVM0.9420.9710.935統(tǒng)計方法眾數(shù)填補0.0000.6500.000MI0.6170.6730.308熱卡填補0.6900.7650.5792.3.2不同評價方法下各模型的比較考慮不同缺失率下,代表機器學(xué)習(xí)和統(tǒng)計方法的各填補方法對填補效果的影響。以準(zhǔn)確率、精確率、一致性為分析對象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補眾數(shù)填補圖1不同缺失率下各填補方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補眾數(shù)填補圖2不同缺失率下各填補方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補眾數(shù)填補圖3不同缺失率下各填補方法的Kappa值變化情況圖1靈敏度的評價效果表明,支持向量機隨缺失率的變化呈現(xiàn)先增長再下降的趨勢,在缺失率為30%時,甚至達到最大值1.000;隨機森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評價效果表明,隨機森林填補法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機的各項指標(biāo)在10%~30%的缺失率下保持增長趨勢,并在30%處指標(biāo)值達到最大,此后有所下降;決策樹在缺

【參考文獻】:
期刊論文
[1]基于優(yōu)化決策樹和EM的缺失數(shù)據(jù)填充算法[J]. 梁秉毅,蔡延光,蔡顥,戚遠航,黃何列,Ole Hejlesen.  自動化與信息工程. 2017(05)
[2]基于聚類分析的缺失數(shù)據(jù)最近鄰填補算法[J]. 張赤,豐洪才,金凱,楊婷.  計算機應(yīng)用與軟件. 2014(05)
[3]一種基于支持向量機的缺失值填補算法[J]. 張嬋.  計算機應(yīng)用與軟件. 2013(05)
[4]基于支持向量機的缺失數(shù)據(jù)補齊方法[J]. 趙磊,李國和,馬現(xiàn)峰.  計算機工程與應(yīng)用. 2006(36)



本文編號:3242174

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3242174.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a8fc1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com