基于生成式模型的不平衡分類算法研究
發(fā)布時(shí)間:2021-03-16 20:16
不平衡問題是指在數(shù)據(jù)集中不同類別的數(shù)據(jù)分布不均勻,而傳統(tǒng)的分類算法是基于數(shù)據(jù)大致平衡的假設(shè),因而對(duì)少數(shù)類數(shù)據(jù)關(guān)注度不夠,忽略了它們蘊(yùn)含的珍貴信息,影響分類效果。研究者分別從數(shù)據(jù)層面和算法層面提出了相應(yīng)的解決方案并取得了一定的效果。其中,數(shù)據(jù)層面解決方案是作為數(shù)據(jù)預(yù)處理的一部分,其通過采樣算法對(duì)數(shù)據(jù)分布進(jìn)行調(diào)整使其平衡,應(yīng)用范圍更加廣泛。但是在數(shù)據(jù)層面解決方案中,針對(duì)多數(shù)類數(shù)據(jù)進(jìn)行欠采樣可能會(huì)導(dǎo)致信息損失;針對(duì)少數(shù)類數(shù)據(jù)進(jìn)行隨機(jī)過采樣無法保證過采樣前后數(shù)據(jù)分布一致性;基于概率分布函數(shù)的過采樣需要假設(shè)數(shù)據(jù)分布形式,算法受限。除此之外,單獨(dú)過采樣算法產(chǎn)生的數(shù)據(jù)僅僅保證了樣本平衡性,不能確保提高分類器性能。針對(duì)以上問題,本文進(jìn)行了以下3個(gè)方面的研究:針對(duì)不平衡率無法體現(xiàn)數(shù)據(jù)分布的問題,本文提出了一種改進(jìn)廣義不平衡度衡量指標(biāo),本文對(duì)廣義不平衡度中計(jì)算近鄰均值的過程進(jìn)行距離加權(quán),并計(jì)算正負(fù)子集均值的乘積而非廣義不平衡率中的差值,提高了不平衡指標(biāo)與分類結(jié)果的相關(guān)性。針對(duì)基于數(shù)據(jù)分布的過采樣算法需要假設(shè)數(shù)據(jù)分布形式的問題,提出了一種基于變分自編碼器的過采樣方法,以變分自編碼器作為數(shù)據(jù)分布的擬合函數(shù),基...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)分布示意圖
變分自編碼器映射示意圖
結(jié)果示意圖(b)F1與分類結(jié)果示意圖(a)IR與分類
【參考文獻(xiàn)】:
期刊論文
[1]生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍. 自動(dòng)化學(xué)報(bào). 2017(03)
[2]聚類邊界過采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2013(06)
本文編號(hào):3086542
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)分布示意圖
變分自編碼器映射示意圖
結(jié)果示意圖(b)F1與分類結(jié)果示意圖(a)IR與分類
【參考文獻(xiàn)】:
期刊論文
[1]生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍. 自動(dòng)化學(xué)報(bào). 2017(03)
[2]聚類邊界過采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2013(06)
本文編號(hào):3086542
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3086542.html
最近更新
教材專著