基于收縮近鄰方法的征信缺失數(shù)據(jù)插補(bǔ)研究
本文選題:征信數(shù)據(jù) + 缺失插補(bǔ); 參考:《數(shù)學(xué)的實(shí)踐與認(rèn)識(shí)》2017年08期
【摘要】:在海量征信數(shù)據(jù)的背景下,為降低缺失數(shù)據(jù)插補(bǔ)的計(jì)算成本,提出收縮近鄰插補(bǔ)方法.收縮近鄰方法通過三階段完成數(shù)據(jù)插補(bǔ),第一階段基于樣本和變量的缺失比例計(jì)算入樣概率,通過不等概抽樣完成數(shù)據(jù)的收縮,第二階段基于樣本間距離,選取與缺失樣本近鄰的樣本組成訓(xùn)練集,第三階段建立隨機(jī)森林模型進(jìn)行迭代插補(bǔ).利用Australian數(shù)據(jù)集和中國各銀行數(shù)據(jù)集進(jìn)行模擬研究,結(jié)果表明在確保一定插補(bǔ)精度的情況下,收縮近鄰方法較大程度減少了計(jì)算量.
[Abstract]:In order to reduce the computational cost of missing data interpolation, a shrinking nearest neighbor interpolation method is proposed under the background of massive credit information data. The shrinkage nearest neighbor method completes data interpolation in three stages. In the first stage, the sample probability is calculated based on the missing ratio of samples and variables; the contraction of data is completed by unequal general sampling; the second stage is based on the distance between samples. The samples close to the missing samples are selected to form the training set. In the third stage, a stochastic forest model is established for iterative interpolation. The Australian data sets and the Chinese bank data sets are used to simulate the results. The results show that the shrinking nearest neighbor method can reduce the computational complexity greatly under the condition of ensuring certain interpolation accuracy.
【作者單位】: 中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心;
【基金】:教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目(15JJD910002)
【分類號(hào)】:O212.2
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 蔣勇敏,邱士安;無誤差插補(bǔ)方法初探[J];機(jī)械;2000年S1期
2 喬麗華;傅德印;;缺失數(shù)據(jù)的多重插補(bǔ)方法[J];統(tǒng)計(jì)教育;2006年12期
3 龐新生;;分層隨機(jī)抽樣條件下缺失數(shù)據(jù)的多重插補(bǔ)方法[J];統(tǒng)計(jì)與信息論壇;2009年05期
4 楊軍;趙宇;丁文興;;抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法[J];數(shù)理統(tǒng)計(jì)與管理;2008年05期
5 張岫云;按偏差最小原理進(jìn)行插補(bǔ)的計(jì)算方法[J];上海機(jī)械學(xué)院學(xué)報(bào);1980年02期
6 劉鳳芹;;基于鏈?zhǔn)椒匠痰氖杖胱兞咳笔е档亩嘀夭逖a(bǔ)[J];統(tǒng)計(jì)研究;2009年01期
7 馬樺;高性能曲線及空間曲面插補(bǔ)方法的探討[J];機(jī)械與電子;1995年06期
8 陳元芳;叢樹錚;;水文極值系列相關(guān)展延方法與條件的研究[J];河海大學(xué)學(xué)報(bào);1988年03期
9 袁超廷;數(shù)控中的最小誤差法插補(bǔ)原理[J];中國科學(xué)(A輯 數(shù)學(xué) 物理學(xué) 天文學(xué) 技術(shù)科學(xué));1987年08期
10 吳焱明,王純賢,王治森;基于參數(shù)方程的橢圓時(shí)間分割插補(bǔ)方法[J];機(jī)械與電子;1999年01期
相關(guān)碩士學(xué)位論文 前9條
1 李玲雪;缺失偏態(tài)數(shù)據(jù)下異方差模型的統(tǒng)計(jì)推斷[D];昆明理工大學(xué);2015年
2 趙偉;針對回歸模型的缺失數(shù)據(jù)插補(bǔ)方法模擬分析[D];天津財(cái)經(jīng)大學(xué);2014年
3 駱新珍;基于DA插補(bǔ)法的線性回歸模型系數(shù)估計(jì)量的模擬研究[D];天津財(cái)經(jīng)大學(xué);2014年
4 楊曉倩;缺失數(shù)據(jù)插補(bǔ)方法的選擇研究[D];蘭州財(cái)經(jīng)大學(xué);2016年
5 王錦霞;基于質(zhì)譜篩選差異表達(dá)蛋白的統(tǒng)計(jì)學(xué)方法研究[D];大連海事大學(xué);2016年
6 石麗;多重插補(bǔ)在成分?jǐn)?shù)據(jù)缺失值補(bǔ)全中的應(yīng)用[D];山西大學(xué);2012年
7 李靜華;基于PMM插補(bǔ)法的線性回歸模型系數(shù)估計(jì)量的模擬研究[D];天津財(cái)經(jīng)大學(xué);2015年
8 李萌;基于半?yún)?shù)模型的插補(bǔ)方法與實(shí)證研究[D];北京林業(yè)大學(xué);2014年
9 劉燕;基于Logistic回歸的近鄰擇優(yōu)插補(bǔ)法[D];天津財(cái)經(jīng)大學(xué);2013年
,本文編號(hào):1867201
本文鏈接:http://sikaile.net/kejilunwen/yysx/1867201.html