天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

九種常用缺失值插補方法的比較

發(fā)布時間:2018-06-17 02:09

  本文選題:兩類缺失模式 + 隨機缺失數(shù)據(jù)集; 參考:《云南師范大學(xué)》2017年碩士論文


【摘要】:數(shù)據(jù)集中缺失值的存在是一個常見但難于處理的問題,它會增大統(tǒng)計分析的復(fù)雜性和難度,導(dǎo)致分析結(jié)果的偏倚,降低統(tǒng)計工作的效率。雖然事前預(yù)防是避免缺失值最簡單有效的方法,但是由于種種常規(guī)原因和現(xiàn)實條件,事前預(yù)防并不能完善地解決問題。因此,對缺失值的事后處理顯得尤為重要,也越來越受到研究者們的高度重視。常見的缺失值的處理方法主要有直接刪除法和數(shù)據(jù)插補法兩種,鑒于直接刪除法會導(dǎo)致數(shù)據(jù)信息的再次損失,所以本文主要從數(shù)據(jù)插補方面入手,先對統(tǒng)計學(xué)中常用的九種缺失值的插補方法——均值插補、隨機插補、回歸插補、多重插補、k最近鄰插補、決策樹插補、支持向量機插補和神經(jīng)網(wǎng)絡(luò)插補等方法的插補原理作了介紹;接著按數(shù)據(jù)量從小到大的順序選取3個數(shù)據(jù)集salary、iris和Airfoil,以10%的樣本量缺失率,在R中按單個變量隨機缺失和多個變量隨機缺失兩種模式生成相應(yīng)的缺失數(shù)據(jù)集(這里隨機缺失的含義是將其中隨機抽取的10%的數(shù)據(jù)替換為缺失值),然后用上述九種插補方法對兩種缺失模式的數(shù)據(jù)集進行插補。為評價和比較各種插補方法的插補效果,本文從兩方面進行比較:(1)從數(shù)據(jù)插補誤差的角度,把單個變量缺失模式下的3個數(shù)據(jù)集的九種插補方法生成的諸插補值與對應(yīng)的數(shù)據(jù)真值(隨機缺失前)進行比較,計算對應(yīng)的平均絕對誤差(MAE)和均方誤差(MSE),按這兩個指標的大小評價比較這九種插補方法的優(yōu)劣。(2)從模型的角度,用缺失前的完整數(shù)據(jù)集和先缺失再插補后的諸數(shù)據(jù)集各自建立多元線性回歸模型,估計相應(yīng)的回歸系數(shù)(向量),計算出相應(yīng)的判定系數(shù),再進行比較和評價。最后指出了各插補方法的特點和異同,對本文的研究結(jié)果進行歸納總結(jié),并說明有待改進之處和可以進一步研究的內(nèi)容。
[Abstract]:The existence of missing values in data sets is a common but difficult problem, which will increase the complexity and difficulty of statistical analysis, lead to the bias of analysis results and reduce the efficiency of statistical work. Although pre-prevention is the simplest and most effective method to avoid missing value, due to various conventional reasons and practical conditions, pre-prevention can not solve the problem perfectly. Therefore, the post-processing of missing values is particularly important and has been paid more and more attention by researchers. There are two common methods to deal with missing values: direct deletion method and data interpolation method. In view of the fact that the direct deletion method will lead to the loss of data information again, so this paper mainly starts from the aspect of data interpolation. First, the interpolation methods of nine kinds of missing values commonly used in statistics are mean interpolation, random interpolation, regression interpolation, multi-interpolation nearest neighbor interpolation, decision tree interpolation, This paper introduces the interpolation principle of support vector machine interpolation and neural network interpolation, and then selects three data sets, Salarymiris and Airfoil, according to the order of data from small to large, and takes 10% sample loss rate. Generate the corresponding missing data set in R according to the two patterns of random deletion of single variable and random deletion of multiple variables (here the meaning of random deletion is to replace 10% of the randomly sampled data with the missing value), and then use the above. Nine interpolation methods are used to interpolate the data sets of two missing patterns. In order to evaluate and compare the interpolation effect of various interpolation methods, this paper compares the error of data interpolation from two aspects. The interpolation values generated by nine interpolation methods for three data sets in a single variable deletion mode are compared with the corresponding true values (before random deletion). Calculate the corresponding mean absolute error (mae) and mean square error (MSE), evaluate and compare the advantages and disadvantages of these nine interpolation methods according to the size of these two indexes) from the point of view of the model, The multivariate linear regression models are established by using the complete data sets before deletion and those before deletion and interpolation respectively. The corresponding regression coefficients (vectors) are estimated and the corresponding decision coefficients are calculated and compared and evaluated. Finally, the characteristics and similarities and differences of the interpolation methods are pointed out, the research results of this paper are summarized, and the points for improvement and the contents that can be further studied are explained.
【學(xué)位授予單位】:云南師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:O212.1

【相似文獻】

相關(guān)期刊論文 前10條

1 周家斌;一種氣象資料插補方法[J];科學(xué)通報;1987年15期

2 張時釗;;氣象哨溫度資料的插補[J];陜西氣象;1981年08期

3 曹宗智;利用電子計算機實現(xiàn)水文資料的自動插補[J];干旱區(qū)地理;1987年04期

4 蔣勇敏,邱士安;無誤差插補方法初探[J];機械;2000年S1期

5 喬麗華;傅德印;;缺失數(shù)據(jù)的多重插補方法[J];統(tǒng)計教育;2006年12期

6 楊偉東;朱紅春;劉麗冰;;計算機數(shù)據(jù)課程中插補原理教學(xué)方法的探討[J];實驗室科學(xué);2009年02期

7 屠其璞;一種氣溫場序列的延長插補方法[J];南京氣象學(xué)院學(xué)報;1986年01期

8 黃蓉;胡澤勇;關(guān)婷;孫根厚;楊耀先;劉火霖;;藏北高原氣溫資料插補及其變化的初步分析[J];高原氣象;2014年03期

9 龐新生;;分層隨機抽樣條件下缺失數(shù)據(jù)的多重插補方法[J];統(tǒng)計與信息論壇;2009年05期

10 楊軍;趙宇;丁文興;;抽樣調(diào)查中缺失數(shù)據(jù)的插補方法[J];數(shù)理統(tǒng)計與管理;2008年05期

相關(guān)會議論文 前5條

1 余予;李俊;任芝花;張志富;;標準序列法在日平均氣溫缺測數(shù)據(jù)插補中的應(yīng)用[A];第八屆全國優(yōu)秀青年氣象科技工作者學(xué)術(shù)研討會論文匯編[C];2014年

2 呂強;;編寫數(shù)控車、銑床加工多邊形插補程序的方法[A];數(shù)控技術(shù)學(xué)術(shù)研討會論文集[C];1999年

3 安金剛;;離線插補技術(shù)在運動控制中的應(yīng)用[A];全國第十二屆空間及運動體控制技術(shù)學(xué)術(shù)會議論文集[C];2006年

4 鄭金興;張銘鈞;孟慶鑫;;變插補周期的數(shù)控進給速度控制算法研究[A];先進制造技術(shù)論壇暨第五屆制造業(yè)自動化與信息化技術(shù)交流會論文集[C];2006年

5 谷永山;王銳;韋穗;;基于兩幅視圖的縱向插補方法[A];第十五屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前8條

1 王允森;基于樣條插補的高質(zhì)量加工關(guān)鍵技術(shù)的研究[D];中國科學(xué)院研究生院(沈陽計算技術(shù)研究所);2015年

2 金永喬;微小線段高速加工的軌跡優(yōu)化建模及前瞻插補技術(shù)研究[D];上海交通大學(xué);2015年

3 葉偉;數(shù)控系統(tǒng)納米插補及控制研究[D];北京交通大學(xué);2010年

4 梅鵬;中國群死群傷火災(zāi)數(shù)據(jù)插補及快速損失評估研究[D];中國科學(xué)技術(shù)大學(xué);2013年

5 孟書云;高精度開放式數(shù)控系統(tǒng)復(fù)雜曲線曲面插補關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年

6 劉巍;ARGO稀損數(shù)據(jù)插補與三維海洋要素場重構(gòu)研究[D];西南交通大學(xué);2012年

7 周勇;高速進給驅(qū)動系統(tǒng)動態(tài)特性分析及其運動控制研究[D];華中科技大學(xué);2008年

8 郝永江;復(fù)雜參數(shù)曲線曲面加工控制與狀態(tài)監(jiān)測技術(shù)研究[D];天津大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 廖祥超;九種常用缺失值插補方法的比較[D];云南師范大學(xué);2017年

2 劉艷玲;調(diào)查數(shù)據(jù)無回答的插補方法及模擬比較[D];天津財經(jīng)大學(xué);2012年

3 余威;氣象相似性網(wǎng)絡(luò)構(gòu)建及缺失氣象要素數(shù)據(jù)的插補[D];西南大學(xué);2015年

4 李玲雪;缺失偏態(tài)數(shù)據(jù)下異方差模型的統(tǒng)計推斷[D];昆明理工大學(xué);2015年

5 李永杰;基于PH曲線五軸數(shù)控插補策略的研究[D];遼寧科技大學(xué);2015年

6 趙偉;針對回歸模型的缺失數(shù)據(jù)插補方法模擬分析[D];天津財經(jīng)大學(xué);2014年

7 駱新珍;基于DA插補法的線性回歸模型系數(shù)估計量的模擬研究[D];天津財經(jīng)大學(xué);2014年

8 肖哲;基于STM32的嵌入式數(shù)控插補控制器的研究與實現(xiàn)[D];湖北工業(yè)大學(xué);2016年

9 李珍;不完全測量信息系統(tǒng)的辨識研究[D];安徽工程大學(xué);2016年

10 紀忠光;缺失數(shù)據(jù)的非參數(shù)插補[D];華中師范大學(xué);2016年

,

本文編號:2029136

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2029136.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01a2f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com