天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于生成式模型的不平衡分類算法研究

發(fā)布時(shí)間:2021-03-16 20:16
  不平衡問題是指在數(shù)據(jù)集中不同類別的數(shù)據(jù)分布不均勻,而傳統(tǒng)的分類算法是基于數(shù)據(jù)大致平衡的假設(shè),因而對(duì)少數(shù)類數(shù)據(jù)關(guān)注度不夠,忽略了它們蘊(yùn)含的珍貴信息,影響分類效果。研究者分別從數(shù)據(jù)層面和算法層面提出了相應(yīng)的解決方案并取得了一定的效果。其中,數(shù)據(jù)層面解決方案是作為數(shù)據(jù)預(yù)處理的一部分,其通過采樣算法對(duì)數(shù)據(jù)分布進(jìn)行調(diào)整使其平衡,應(yīng)用范圍更加廣泛。但是在數(shù)據(jù)層面解決方案中,針對(duì)多數(shù)類數(shù)據(jù)進(jìn)行欠采樣可能會(huì)導(dǎo)致信息損失;針對(duì)少數(shù)類數(shù)據(jù)進(jìn)行隨機(jī)過采樣無法保證過采樣前后數(shù)據(jù)分布一致性;基于概率分布函數(shù)的過采樣需要假設(shè)數(shù)據(jù)分布形式,算法受限。除此之外,單獨(dú)過采樣算法產(chǎn)生的數(shù)據(jù)僅僅保證了樣本平衡性,不能確保提高分類器性能。針對(duì)以上問題,本文進(jìn)行了以下3個(gè)方面的研究:針對(duì)不平衡率無法體現(xiàn)數(shù)據(jù)分布的問題,本文提出了一種改進(jìn)廣義不平衡度衡量指標(biāo),本文對(duì)廣義不平衡度中計(jì)算近鄰均值的過程進(jìn)行距離加權(quán),并計(jì)算正負(fù)子集均值的乘積而非廣義不平衡率中的差值,提高了不平衡指標(biāo)與分類結(jié)果的相關(guān)性。針對(duì)基于數(shù)據(jù)分布的過采樣算法需要假設(shè)數(shù)據(jù)分布形式的問題,提出了一種基于變分自編碼器的過采樣方法,以變分自編碼器作為數(shù)據(jù)分布的擬合函數(shù),基... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:60 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于生成式模型的不平衡分類算法研究


數(shù)據(jù)分布示意圖

基于生成式模型的不平衡分類算法研究


變分自編碼器映射示意圖

基于生成式模型的不平衡分類算法研究


結(jié)果示意圖(b)F1與分類結(jié)果示意圖(a)IR與分類

【參考文獻(xiàn)】:
期刊論文
[1]生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.  自動(dòng)化學(xué)報(bào). 2017(03)
[2]聚類邊界過采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤.  浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2013(06)



本文編號(hào):3086542

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3086542.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c369***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com