缺失的分類數(shù)據(jù)填補(bǔ)方法研究
發(fā)布時間:2021-02-01 16:29
缺失數(shù)據(jù)的處理是數(shù)據(jù)預(yù)處理中很重要的一部分.缺失數(shù)據(jù)的存在對模型的估計,模型的檢驗等造成了影響,研究如何有效的處理缺失數(shù)據(jù)具有很重要的意義.該文主要是探討對分類數(shù)據(jù)的缺失填補(bǔ)方法的研究.假設(shè)分類屬性數(shù)據(jù)是由一個潛在的服從標(biāo)準(zhǔn)正態(tài)分布的連續(xù)變量決定的,然后分別討論了兩類情況,一類是沒有因變量的數(shù)據(jù)集,另一類是含有因變量的數(shù)據(jù)集(這里僅對一個因變量的情況討論).對于無因變量的情況,考慮樣本之間的相似性,結(jié)合數(shù)據(jù)集轉(zhuǎn)化的思想提出了一種新的填補(bǔ)算法(TKNN填補(bǔ)算法).對于有一個因變量的情況,數(shù)據(jù)集轉(zhuǎn)化后再用回歸方程估計缺失值,即改進(jìn)的回歸填補(bǔ)算法(TReg填補(bǔ)算法).文中用均方根誤差RMSE作為評價指標(biāo),可以看到將數(shù)據(jù)集轉(zhuǎn)化后的填補(bǔ)算法在一定程度上的有效性.本文主要結(jié)論是:1.在缺失比例較小時,用完全個體分析就能得到較好的結(jié)果.2.TReg和TKNN填充算法在一定程度上比直接在原始數(shù)據(jù)集上做填充的效果好.希望本文對之后學(xué)者研究缺失數(shù)據(jù)及數(shù)據(jù)分析時有一定的借鑒意義.
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:41 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1缺失模式??
.本文一開始假設(shè)分類變量是由潛在的服從連續(xù)分布的變量決定的,正態(tài)分是連續(xù)分布的一種,現(xiàn)實生活中許多數(shù)據(jù)可以看成是來自于正態(tài)分布,正態(tài)分又常叫做高斯分布,是一個在概率上很重要的分布.所以接下來的一節(jié)內(nèi)容將紹分類變量和服從標(biāo)準(zhǔn)正態(tài)分布的變量以及潛變量表達(dá)式三者之間的轉(zhuǎn)化.??2.4.1服從一元正態(tài)分布變量的轉(zhuǎn)化??二元變量的轉(zhuǎn)化??下圖表明了一個服從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量Z與一個服從伯努利分布的散屬性變量具有兩個值0或1)之間的轉(zhuǎn)化,當(dāng)Pps:?=?1)?=?0.2,_PpS:=〇)?=P。=?1?—仍=?0.8時,求得g?=疒Ypo)?=?0.8416212,當(dāng)潛在變量Z是取值于g值時取值為0,當(dāng)Z取值大于等于值時,X取值為1.??
圖3.1條件期望填補(bǔ)和均值填補(bǔ)??TKNN填補(bǔ)算法??一節(jié)將介紹改進(jìn)的近鄰算法,這里定義為TKNN(Translated?KNN算法填補(bǔ)缺失數(shù)據(jù)步驟如下:??首先根據(jù)前面一章對數(shù)據(jù)集的轉(zhuǎn)化的內(nèi)容,將分類數(shù)據(jù)%轉(zhuǎn)化為對于每一個缺失數(shù)據(jù),計算它與其他事例之間的相似度.??s(Xi,Xj)?=?WjS_1Uj??d(xi,Xj)?=?exp(—s(xi,Xj))??根據(jù)計算得到的距離從小到大的順序,選取前k個事例??因為這里考慮的是分類數(shù)據(jù),所以以選取的k個事例的最大類進(jìn)
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)集特征的KNN最優(yōu)K值預(yù)測方法[J]. 李洪奇,楊中國,朱麗萍,劉薔. 計算機(jī)應(yīng)用與軟件. 2016(06)
[2]基于近鄰噪聲處理的KNN缺失數(shù)據(jù)填補(bǔ)算法[J]. 郝勝軒,宋宏,周曉鋒. 計算機(jī)仿真. 2014(07)
[3]二分類Logistic回歸插補(bǔ)法及其應(yīng)用[J]. 戴明鋒,金勇進(jìn),查奇芬,劉寅飛. 數(shù)學(xué)的實踐與認(rèn)識. 2013(21)
[4]基于BP神經(jīng)網(wǎng)絡(luò)的不完全測量數(shù)據(jù)處理方法研究[J]. 任云志,賀躍光,吳弘,姬方,戴瀟蕾. 現(xiàn)代測繪. 2013(01)
[5]基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補(bǔ)方法[J]. 武森,馮小東,單志廣. 計算機(jī)學(xué)報. 2012(08)
[6]基于EM和貝葉斯網(wǎng)絡(luò)的丟失數(shù)據(jù)填充算法[J]. 李宏,阿瑪尼,李平,吳敏. 計算機(jī)工程與應(yīng)用. 2010(05)
[7]基于馬氏距離和灰色分析的缺失值填充算法[J]. 劉星毅. 計算機(jī)應(yīng)用. 2009(09)
[8]列聯(lián)表的對數(shù)線性模型[J]. 孫鳳. 統(tǒng)計與決策. 2006(23)
[9]缺失數(shù)據(jù)處理方法的比較研究[J]. 劉鵬,雷蕾,張雪鳳. 計算機(jī)科學(xué). 2004(10)
[10]高屬性維稀疏數(shù)據(jù)聚類回歸邏輯神經(jīng)網(wǎng)絡(luò)模型及學(xué)習(xí)算法[J]. 周永權(quán),焦李成. 電子學(xué)報. 2004(08)
本文編號:3013081
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:41 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1缺失模式??
.本文一開始假設(shè)分類變量是由潛在的服從連續(xù)分布的變量決定的,正態(tài)分是連續(xù)分布的一種,現(xiàn)實生活中許多數(shù)據(jù)可以看成是來自于正態(tài)分布,正態(tài)分又常叫做高斯分布,是一個在概率上很重要的分布.所以接下來的一節(jié)內(nèi)容將紹分類變量和服從標(biāo)準(zhǔn)正態(tài)分布的變量以及潛變量表達(dá)式三者之間的轉(zhuǎn)化.??2.4.1服從一元正態(tài)分布變量的轉(zhuǎn)化??二元變量的轉(zhuǎn)化??下圖表明了一個服從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量Z與一個服從伯努利分布的散屬性變量具有兩個值0或1)之間的轉(zhuǎn)化,當(dāng)Pps:?=?1)?=?0.2,_PpS:=〇)?=P。=?1?—仍=?0.8時,求得g?=疒Ypo)?=?0.8416212,當(dāng)潛在變量Z是取值于g值時取值為0,當(dāng)Z取值大于等于值時,X取值為1.??
圖3.1條件期望填補(bǔ)和均值填補(bǔ)??TKNN填補(bǔ)算法??一節(jié)將介紹改進(jìn)的近鄰算法,這里定義為TKNN(Translated?KNN算法填補(bǔ)缺失數(shù)據(jù)步驟如下:??首先根據(jù)前面一章對數(shù)據(jù)集的轉(zhuǎn)化的內(nèi)容,將分類數(shù)據(jù)%轉(zhuǎn)化為對于每一個缺失數(shù)據(jù),計算它與其他事例之間的相似度.??s(Xi,Xj)?=?WjS_1Uj??d(xi,Xj)?=?exp(—s(xi,Xj))??根據(jù)計算得到的距離從小到大的順序,選取前k個事例??因為這里考慮的是分類數(shù)據(jù),所以以選取的k個事例的最大類進(jìn)
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)集特征的KNN最優(yōu)K值預(yù)測方法[J]. 李洪奇,楊中國,朱麗萍,劉薔. 計算機(jī)應(yīng)用與軟件. 2016(06)
[2]基于近鄰噪聲處理的KNN缺失數(shù)據(jù)填補(bǔ)算法[J]. 郝勝軒,宋宏,周曉鋒. 計算機(jī)仿真. 2014(07)
[3]二分類Logistic回歸插補(bǔ)法及其應(yīng)用[J]. 戴明鋒,金勇進(jìn),查奇芬,劉寅飛. 數(shù)學(xué)的實踐與認(rèn)識. 2013(21)
[4]基于BP神經(jīng)網(wǎng)絡(luò)的不完全測量數(shù)據(jù)處理方法研究[J]. 任云志,賀躍光,吳弘,姬方,戴瀟蕾. 現(xiàn)代測繪. 2013(01)
[5]基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補(bǔ)方法[J]. 武森,馮小東,單志廣. 計算機(jī)學(xué)報. 2012(08)
[6]基于EM和貝葉斯網(wǎng)絡(luò)的丟失數(shù)據(jù)填充算法[J]. 李宏,阿瑪尼,李平,吳敏. 計算機(jī)工程與應(yīng)用. 2010(05)
[7]基于馬氏距離和灰色分析的缺失值填充算法[J]. 劉星毅. 計算機(jī)應(yīng)用. 2009(09)
[8]列聯(lián)表的對數(shù)線性模型[J]. 孫鳳. 統(tǒng)計與決策. 2006(23)
[9]缺失數(shù)據(jù)處理方法的比較研究[J]. 劉鵬,雷蕾,張雪鳳. 計算機(jī)科學(xué). 2004(10)
[10]高屬性維稀疏數(shù)據(jù)聚類回歸邏輯神經(jīng)網(wǎng)絡(luò)模型及學(xué)習(xí)算法[J]. 周永權(quán),焦李成. 電子學(xué)報. 2004(08)
本文編號:3013081
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3013081.html
最近更新
教材專著