基于對抗生成網(wǎng)絡(luò)的隨機缺失數(shù)據(jù)填補及其效果研究
發(fā)布時間:2021-03-28 14:50
數(shù)據(jù)的缺失是統(tǒng)計分析中不可避免的問題,它與異常值處理共同組成數(shù)據(jù)預(yù)處理的兩大塊內(nèi)容。數(shù)據(jù)的缺失不僅會導(dǎo)致樣本信息的縮減,還會使得很多統(tǒng)計學(xué)習(xí)方法無法使用。統(tǒng)計分析的結(jié)果取決于數(shù)據(jù)質(zhì)量的好壞,如果不能對缺失數(shù)據(jù)進(jìn)行恰當(dāng)?shù)奶幚?那么最終的分析結(jié)果也很難具有代表性。對于缺失數(shù)據(jù)的處理思路主要分為刪除和填補兩種,由于刪除會導(dǎo)致樣本信息的減少,故一般采用填補策略。隨著大數(shù)據(jù)時代到來,數(shù)據(jù)維度的增大也帶來了大量缺失數(shù)據(jù)出現(xiàn)的情況,如何對缺失數(shù)據(jù)進(jìn)行準(zhǔn)確且快速的填補成為了一個亟待解決的問題。GAN(對抗生成網(wǎng)絡(luò))近年來在深度學(xué)習(xí)領(lǐng)域的研究越來越多,其在樣本生成方面有獨到之處。本文在國內(nèi)外研究的基礎(chǔ)上,基于缺失數(shù)據(jù)填補和圖像修復(fù)問題的相似性,將GAN的理論框架應(yīng)用至缺失數(shù)據(jù)填補問題,設(shè)計了適用于該問題的網(wǎng)絡(luò)結(jié)構(gòu),并將該方法與多重插補法、缺失森林法和EM法對比,分析各種方法的適用性。在模擬部分,本文通過計算機生成復(fù)雜分布的隨機數(shù),按照不同的觀測數(shù)、變量數(shù)、缺失比例的組合分別用上述3種方法和GAN方法對同一缺失數(shù)據(jù)集進(jìn)行重復(fù)填補,對比其填補精度、填補效果和填補速度,最后得出結(jié)論:在同一情況下GAN方法填補...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
原始GAN網(wǎng)絡(luò)結(jié)構(gòu)圖
上海師范大學(xué)碩士學(xué)位論文第3章基于GAN填補方法的模擬與結(jié)果分析12第3章基于GAN填補方法的模擬與結(jié)果分析3.1網(wǎng)絡(luò)結(jié)構(gòu)介紹GAN網(wǎng)絡(luò)的原始結(jié)構(gòu)如下圖所示:圖3-1原始GAN網(wǎng)絡(luò)結(jié)構(gòu)圖本文根據(jù)缺失數(shù)據(jù)的機制,參照J(rèn)insungYoon[32]2018年的論文《GAIN:MissingDataImputationusingGenerativeAdversarialNets》和DeepakPathak[33]2016年的論文《ContextEncoders:FeatureLearningbyInpainting》,設(shè)計本文網(wǎng)絡(luò)整體結(jié)構(gòu)如下:圖3-2本文GAN網(wǎng)絡(luò)結(jié)構(gòu)圖其中,生成器的輸入由噪聲數(shù)據(jù)集和提示矩陣組成,缺失的部分填補上服從
上海師范大學(xué)碩士學(xué)位論文第3章基于GAN填補方法的模擬與結(jié)果分析16的函數(shù),計算快捷:′()=()(1())公式(3-4)但是作為激活函數(shù),它有一個很大的缺點,就是當(dāng)輸入的值很大或很小時,它的導(dǎo)數(shù)都近似0,這就會產(chǎn)生梯度消失問題。如上一小節(jié)所說,在GAN中這個問題尤為突出。Sigmoid函數(shù)與導(dǎo)函數(shù)圖如下:圖3-3Logit函數(shù)及其導(dǎo)函數(shù)圖像故本文目標(biāo)是找到一個函數(shù),其具有類似Sigmoid函數(shù)的形狀,并且在其圖像中間部分近似線性。作為其的替代,本文選用函數(shù)圖像與之非常相似的正態(tài)分布的分布函數(shù)與密度函數(shù)(連續(xù)型分布的分布函數(shù)均可),該正態(tài)分布服從于均值為0,方差為2的正態(tài)分布,隨著2的變大,分布函數(shù)越加平緩,隨之它的密度函數(shù)也更加平緩,密度函數(shù)的兩端趨近0的速度更慢。如下圖所示:
【參考文獻(xiàn)】:
期刊論文
[1]生成對抗網(wǎng)絡(luò)GAN綜述[J]. 程顯毅,謝璐,朱建新,胡彬,施佺. 計算機科學(xué). 2019(03)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的缺失數(shù)據(jù)填充方法[J]. 張網(wǎng)娟,許國艷,李敏佳,朱帥. 微電子學(xué)與計算機. 2019(03)
[3]采用改進(jìn)生成式對抗網(wǎng)絡(luò)的電力系統(tǒng)量測缺失數(shù)據(jù)重建方法[J]. 王守相,陳海文,潘志新,王建明. 中國電機工程學(xué)報. 2019(01)
[4]ReLU激活函數(shù)優(yōu)化研究[J]. 蔣昂波,王維維. 傳感器與微系統(tǒng). 2018(02)
[5]數(shù)據(jù)缺失及其處理方法綜述[J]. 曄沙. 電子測試. 2017(18)
[6]針對機器學(xué)習(xí)中殘缺數(shù)據(jù)的近似補全方法[J]. 曹衛(wèi)權(quán),褚衍杰,李顯. 西安交通大學(xué)學(xué)報. 2017(10)
[7]基于隨機森林模型的成分?jǐn)?shù)據(jù)缺失值填補法[J]. 張曉琴,程譽瑩. 應(yīng)用概率統(tǒng)計. 2017(01)
[8]基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法[J]. 卜范玉,陳志奎,張清辰. 微電子學(xué)與計算機. 2014(12)
[9]基于隨機森林模型的分類數(shù)據(jù)缺失值插補[J]. 孟杰,李春林. 統(tǒng)計與信息論壇. 2014(09)
[10]基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法[J]. 武森,馮小東,單志廣. 計算機學(xué)報. 2012(08)
本文編號:3105747
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
原始GAN網(wǎng)絡(luò)結(jié)構(gòu)圖
上海師范大學(xué)碩士學(xué)位論文第3章基于GAN填補方法的模擬與結(jié)果分析12第3章基于GAN填補方法的模擬與結(jié)果分析3.1網(wǎng)絡(luò)結(jié)構(gòu)介紹GAN網(wǎng)絡(luò)的原始結(jié)構(gòu)如下圖所示:圖3-1原始GAN網(wǎng)絡(luò)結(jié)構(gòu)圖本文根據(jù)缺失數(shù)據(jù)的機制,參照J(rèn)insungYoon[32]2018年的論文《GAIN:MissingDataImputationusingGenerativeAdversarialNets》和DeepakPathak[33]2016年的論文《ContextEncoders:FeatureLearningbyInpainting》,設(shè)計本文網(wǎng)絡(luò)整體結(jié)構(gòu)如下:圖3-2本文GAN網(wǎng)絡(luò)結(jié)構(gòu)圖其中,生成器的輸入由噪聲數(shù)據(jù)集和提示矩陣組成,缺失的部分填補上服從
上海師范大學(xué)碩士學(xué)位論文第3章基于GAN填補方法的模擬與結(jié)果分析16的函數(shù),計算快捷:′()=()(1())公式(3-4)但是作為激活函數(shù),它有一個很大的缺點,就是當(dāng)輸入的值很大或很小時,它的導(dǎo)數(shù)都近似0,這就會產(chǎn)生梯度消失問題。如上一小節(jié)所說,在GAN中這個問題尤為突出。Sigmoid函數(shù)與導(dǎo)函數(shù)圖如下:圖3-3Logit函數(shù)及其導(dǎo)函數(shù)圖像故本文目標(biāo)是找到一個函數(shù),其具有類似Sigmoid函數(shù)的形狀,并且在其圖像中間部分近似線性。作為其的替代,本文選用函數(shù)圖像與之非常相似的正態(tài)分布的分布函數(shù)與密度函數(shù)(連續(xù)型分布的分布函數(shù)均可),該正態(tài)分布服從于均值為0,方差為2的正態(tài)分布,隨著2的變大,分布函數(shù)越加平緩,隨之它的密度函數(shù)也更加平緩,密度函數(shù)的兩端趨近0的速度更慢。如下圖所示:
【參考文獻(xiàn)】:
期刊論文
[1]生成對抗網(wǎng)絡(luò)GAN綜述[J]. 程顯毅,謝璐,朱建新,胡彬,施佺. 計算機科學(xué). 2019(03)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的缺失數(shù)據(jù)填充方法[J]. 張網(wǎng)娟,許國艷,李敏佳,朱帥. 微電子學(xué)與計算機. 2019(03)
[3]采用改進(jìn)生成式對抗網(wǎng)絡(luò)的電力系統(tǒng)量測缺失數(shù)據(jù)重建方法[J]. 王守相,陳海文,潘志新,王建明. 中國電機工程學(xué)報. 2019(01)
[4]ReLU激活函數(shù)優(yōu)化研究[J]. 蔣昂波,王維維. 傳感器與微系統(tǒng). 2018(02)
[5]數(shù)據(jù)缺失及其處理方法綜述[J]. 曄沙. 電子測試. 2017(18)
[6]針對機器學(xué)習(xí)中殘缺數(shù)據(jù)的近似補全方法[J]. 曹衛(wèi)權(quán),褚衍杰,李顯. 西安交通大學(xué)學(xué)報. 2017(10)
[7]基于隨機森林模型的成分?jǐn)?shù)據(jù)缺失值填補法[J]. 張曉琴,程譽瑩. 應(yīng)用概率統(tǒng)計. 2017(01)
[8]基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法[J]. 卜范玉,陳志奎,張清辰. 微電子學(xué)與計算機. 2014(12)
[9]基于隨機森林模型的分類數(shù)據(jù)缺失值插補[J]. 孟杰,李春林. 統(tǒng)計與信息論壇. 2014(09)
[10]基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法[J]. 武森,馮小東,單志廣. 計算機學(xué)報. 2012(08)
本文編號:3105747
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3105747.html
最近更新
教材專著