基于生成對抗網(wǎng)絡(luò)的非均衡數(shù)據(jù)分類研究
發(fā)布時(shí)間:2021-09-19 14:32
近年來,人工智能興起,深度學(xué)習(xí)是目前人工智能的主要研究領(lǐng)域之一。深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)方法,對數(shù)據(jù)的數(shù)量和質(zhì)量的要求都很高。在眾多應(yīng)用領(lǐng)域中,很多數(shù)據(jù)需求都可以滿足,但是在部分領(lǐng)域中,例如金融風(fēng)險(xiǎn),故障檢測等方面,正常數(shù)據(jù)量和異常數(shù)據(jù)量是非常不對等的。數(shù)據(jù)集中,不同類別的樣本量之間比例極度不平衡的數(shù)據(jù)集被稱為非均衡數(shù)據(jù)集。由于非均衡數(shù)據(jù)集中不同類別樣本所含信息量不同,訓(xùn)練過程中重要程度不同,使用傳統(tǒng)的分類器去分類非均衡數(shù)據(jù)集的難度較大,而且普通的評估標(biāo)準(zhǔn)難以正確地評價(jià)分類器。本文提出一種基于生成對抗網(wǎng)絡(luò)(GAN)的非均衡數(shù)據(jù)集分類方法,生成對抗網(wǎng)絡(luò)由生成器和判別器組成,生成器的功能是盡量擬合輸入真實(shí)數(shù)據(jù)的分布,判別器則是盡量去判斷樣本是來自生成器還是真實(shí)數(shù)據(jù),兩者之間相互競爭共同提升,直到達(dá)到納什均衡。使用GAN的強(qiáng)大生成能力可以擴(kuò)增非均衡數(shù)據(jù)集中少數(shù)類樣本。本文首先介紹了傳統(tǒng)分類算法和目前常用的非均衡數(shù)據(jù)分類算法以及分類效果評估標(biāo)準(zhǔn)。介紹了一種基于隨機(jī)過采樣算法的非均衡數(shù)據(jù)集數(shù)據(jù)分類方法。本文提出了一種基于WGAN(Wasserstein GAN)的非均衡數(shù)據(jù)集分類,使用WGAN...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)圖2.1分類問題分類
決策樹模型8
支持向量機(jī)根據(jù)數(shù)據(jù)不同可分為線性可分支持向量機(jī)、線性支持向量機(jī)和非線性支持向量機(jī)。二分類問題如圖2.3所示。圖中圈代表正例,叉代表負(fù)例。訓(xùn)練數(shù)據(jù)集線性可分,這時(shí)有可以正確劃分?jǐn)?shù)據(jù)集的直線有很多。線性可分支持向量機(jī)就對應(yīng)著將訓(xùn)練數(shù)據(jù)集正確劃分并且間隔最大的直線。圖2.3二分類問題2.1.2評估指標(biāo)評價(jià)分類器的性能最經(jīng)常使用的指標(biāo)是精確度(accuracy),其定義是:在測試集中,正確分類的樣本數(shù)量與所有樣本總數(shù)之比。accuracy =++ + +(2.2)精確度能夠整體反映分類器的分類性能,但是對于非均衡數(shù)據(jù)集,它是沒有參考價(jià)值的。精確度作為分類器的評估指標(biāo)有一個(gè)默認(rèn)條件,即各類樣本量之間較為接近,此時(shí)各類樣本所含信息量基本相等,在計(jì)算評估指標(biāo)時(shí)可以將不同類別樣本相同對待。但是在非均衡數(shù)據(jù)集中,多數(shù)類樣本和少數(shù)類樣本所含信息量顯然不同。在測試過程中,如果針對一個(gè)多數(shù)類樣本判斷正確,直觀理解上,這并不能表明這個(gè)分類器的分類性能多優(yōu)秀,同樣的,如果判斷錯(cuò)一個(gè)多數(shù)類樣本
【參考文獻(xiàn)】:
期刊論文
[1]一種面向單個(gè)正例的Fisher線性判別分類方法[J]. 尹軍梅,楊明. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2008(03)
[2]非平衡數(shù)據(jù)集Fisher線性判別模型[J]. 謝紀(jì)剛,裘正定. 北京交通大學(xué)學(xué)報(bào). 2006(05)
本文編號:3401788
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
系統(tǒng)圖2.1分類問題分類
決策樹模型8
支持向量機(jī)根據(jù)數(shù)據(jù)不同可分為線性可分支持向量機(jī)、線性支持向量機(jī)和非線性支持向量機(jī)。二分類問題如圖2.3所示。圖中圈代表正例,叉代表負(fù)例。訓(xùn)練數(shù)據(jù)集線性可分,這時(shí)有可以正確劃分?jǐn)?shù)據(jù)集的直線有很多。線性可分支持向量機(jī)就對應(yīng)著將訓(xùn)練數(shù)據(jù)集正確劃分并且間隔最大的直線。圖2.3二分類問題2.1.2評估指標(biāo)評價(jià)分類器的性能最經(jīng)常使用的指標(biāo)是精確度(accuracy),其定義是:在測試集中,正確分類的樣本數(shù)量與所有樣本總數(shù)之比。accuracy =++ + +(2.2)精確度能夠整體反映分類器的分類性能,但是對于非均衡數(shù)據(jù)集,它是沒有參考價(jià)值的。精確度作為分類器的評估指標(biāo)有一個(gè)默認(rèn)條件,即各類樣本量之間較為接近,此時(shí)各類樣本所含信息量基本相等,在計(jì)算評估指標(biāo)時(shí)可以將不同類別樣本相同對待。但是在非均衡數(shù)據(jù)集中,多數(shù)類樣本和少數(shù)類樣本所含信息量顯然不同。在測試過程中,如果針對一個(gè)多數(shù)類樣本判斷正確,直觀理解上,這并不能表明這個(gè)分類器的分類性能多優(yōu)秀,同樣的,如果判斷錯(cuò)一個(gè)多數(shù)類樣本
【參考文獻(xiàn)】:
期刊論文
[1]一種面向單個(gè)正例的Fisher線性判別分類方法[J]. 尹軍梅,楊明. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2008(03)
[2]非平衡數(shù)據(jù)集Fisher線性判別模型[J]. 謝紀(jì)剛,裘正定. 北京交通大學(xué)學(xué)報(bào). 2006(05)
本文編號:3401788
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3401788.html
最近更新
教材專著