天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

針對(duì)不平衡數(shù)據(jù)復(fù)雜分布特征的分類方法研究

發(fā)布時(shí)間:2020-12-19 03:11
  不平衡數(shù)據(jù)分類是機(jī)器學(xué)習(xí)理論研究和實(shí)際應(yīng)用面臨的挑戰(zhàn)問(wèn)題之一,在醫(yī)療診斷、網(wǎng)絡(luò)入侵檢測(cè)、生物特征識(shí)別、故障檢測(cè)、文本分類等領(lǐng)域廣泛存在。傳統(tǒng)分類方法對(duì)類不平衡數(shù)據(jù)進(jìn)行分類時(shí)性能降低,尤其是少數(shù)類的識(shí)別率比較低,而少數(shù)類通常是實(shí)際應(yīng)用中人們更為關(guān)注且錯(cuò)分代價(jià)較高的一類。因此,分析不平衡分類性能降低的原因,探究不平衡分類問(wèn)題的解決方法具有重要的理論意義和應(yīng)用價(jià)值。不平衡集分類性能降低的根本原因在于不平衡數(shù)據(jù)固有的復(fù)雜分布特征,主要包括小區(qū)塊、類間覆蓋、少數(shù)類空間存在較多的稀缺樣例和離群點(diǎn)等。傳統(tǒng)分類方法以最小化錯(cuò)誤率為目標(biāo)建立分類器,稀缺的少數(shù)類樣本以及復(fù)雜分布特征使傳統(tǒng)方法偏向多數(shù)類,降低了少數(shù)類的泛化性能。為了提高小類樣本的識(shí)別率,降低錯(cuò)分代價(jià),本文針對(duì)上述三種不平衡數(shù)據(jù)復(fù)雜分布特征,分別在數(shù)據(jù)層面對(duì)不平衡集進(jìn)行預(yù)處理,在算法層面優(yōu)化基分類器,改進(jìn)下采樣集成方法,在決策層面,提出適合處理不平衡集的拒絕分類模型。主要工作包括以下四個(gè)內(nèi)容:首先,從數(shù)據(jù)層面提出一種基于加權(quán)編輯近鄰規(guī)則的混合采樣方法,解決由于小類樣本局部密度較低,編輯近鄰規(guī)則下采樣時(shí)壓縮小類空間的問(wèn)題?紤]與局部分布相關(guān)的兩... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:137 頁(yè)

【學(xué)位級(jí)別】:博士

【部分圖文】:

針對(duì)不平衡數(shù)據(jù)復(fù)雜分布特征的分類方法研究


不平衡數(shù)據(jù)復(fù)雜分布特征示意圖,其中

示意圖,樣本,數(shù)據(jù),性能


ㄆ壅┘觳馕侍。因此?綰味圓黃膠?數(shù)據(jù)進(jìn)行預(yù)處理或改進(jìn)傳統(tǒng)分類算法提高小類識(shí)別率,降低錯(cuò)分代價(jià)是值得研究的課題。1.2不平衡數(shù)據(jù)復(fù)雜分布特征不平衡分類性能下降的根本原因是不平衡數(shù)據(jù)固有的復(fù)雜分布特征。類分布不平衡只是數(shù)據(jù)集的表面特征,不是分類困難的根本原因。復(fù)雜分布特征會(huì)導(dǎo)致分類性能降低,不平衡的類分布和正類樣本的稀缺會(huì)加劇性能降低的程度。不平衡數(shù)據(jù)復(fù)雜分布特征[9]主要包括稀缺樣例和離群點(diǎn)(rarecasesandoutliers),小區(qū)塊(smalldisjuncts),以及類間覆蓋(overlappingbetweenclasses)等,如圖1-1所示。a)小區(qū)塊a)Smalldisjunctsb)類間覆蓋b)Overlappingbetweenclassesc)稀缺樣例和離群點(diǎn)c)Rarecasesandoutliers圖1-1不平衡數(shù)據(jù)復(fù)雜分布特征示意圖,其中圓圈和五星分別表示多數(shù)類樣本和少數(shù)類樣本Fig.1-1Illustrationofcomplexdistributioncharacteristicsinimbalanceddatawherecirclesandstarsindicatethemajorityandminorityclassexamples,respectively不平衡的類分布:嚴(yán)格來(lái)講,任何存在不相等樣本量的數(shù)據(jù)集都可認(rèn)為是不平衡集,但是在研究中人們的共識(shí)是不平衡集的類間分布存在顯著或極端差異,可能是10:1,100:1,1000:1,甚至更大[10],這稱為類間不平衡(between-classimbalance)。Weiss等[11]研究了訓(xùn)練樣本的類分布與決策樹(shù)分類性能間的關(guān)系,結(jié)果表明不平衡比越大,分類性能越差,在相對(duì)平衡的數(shù)據(jù)集上通常獲得更好的分類結(jié)果。Wu[12]和Liu[13]探究了類不平衡(不平衡比分別為10:1,100:1和300:1)對(duì)SVM的影響,發(fā)現(xiàn)對(duì)于較小的不平衡比(10:1),SVM的類邊界接近理想邊界,而當(dāng)不平衡比越來(lái)越大(100:1和300:1)時(shí),類邊界明顯地偏到小類樣本空間。但是,不平衡比究竟使分類性能?

示意圖,數(shù)據(jù)集,樣本,小區(qū)


統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法根據(jù)訓(xùn)練樣本歸納映射規(guī)則,若訓(xùn)練樣本少,算法沒(méi)有足夠信息歸納出樣本的分布規(guī)律,如圖1-2所示為KEEL數(shù)據(jù)庫(kù)[3]中yeast4真實(shí)數(shù)據(jù)集20%樣本和全部樣本在屬性Gvh和Mit上的分布示意圖。當(dāng)類分布絕對(duì)不平衡時(shí),稀缺的正類樣本不能充分描述其所在空間,導(dǎo)致類邊界不清晰,學(xué)習(xí)算法會(huì)弱化或忽視對(duì)正類的學(xué)習(xí)。當(dāng)遇到高維不平衡數(shù)據(jù)時(shí),建立合適的分類規(guī)則或分類器更加困難。若小類樣本分布不集中,比較分散,易被當(dāng)做噪聲。a)20%的原始樣本a)20%oforiginalexamplesb)全部樣本b)alloriginalexamples圖1-2yeast4數(shù)據(jù)集樣本稀缺示意圖Fig.1-2Illustrationofexamplescarcityondatasetyeast4小區(qū)塊:樣本空間中出現(xiàn)成簇的少量同類樣本稱為小區(qū)塊[16,17],正類和負(fù)類空間中都可能出現(xiàn)小區(qū)塊,但是小區(qū)塊通常由樣本欠表達(dá)(under-representation)導(dǎo)致,所以小區(qū)塊更多出現(xiàn)在小類空間中。這些小區(qū)域和與其同類的主導(dǎo)區(qū)域(dom-inantregion)間出現(xiàn)類內(nèi)不平衡(within-classimbalance)[18],主導(dǎo)區(qū)域中的樣本明顯多于同類小區(qū)塊中的樣本。小區(qū)塊會(huì)加劇基于分治策略的分類方法的難度,這類方法把原問(wèn)題劃分為多個(gè)子問(wèn)題,會(huì)導(dǎo)致數(shù)據(jù)碎片[19],即會(huì)出現(xiàn)幾個(gè)樣本構(gòu)成的小簇,當(dāng)不平衡比比較高時(shí),這種現(xiàn)象更嚴(yán)重。針對(duì)小區(qū)塊問(wèn)題,可采用的解決思路和策略有:數(shù)據(jù)稀缺導(dǎo)致小區(qū)塊,可通過(guò)上采樣填充這些簇狀區(qū)域;傳統(tǒng)分類方法為得到高的泛化能力會(huì)偏向大類,忽視對(duì)小區(qū)塊的學(xué)習(xí),為避免這種情況,應(yīng)調(diào)整歸納偏置,對(duì)于小區(qū)塊,使用復(fù)雜的歸納方法,重點(diǎn)學(xué)習(xí)小類樣本;改變傳統(tǒng)學(xué)習(xí)算法的優(yōu)化指標(biāo)或?yàn)樾☆悩颖痉峙漭^大權(quán)重,使得建立分類模型時(shí)更重視小類樣本;使用決策樹(shù)進(jìn)行分類時(shí),建議不采用剪枝策略,剪枝會(huì)因泛化學(xué)習(xí)規(guī)?


本文編號(hào):2925144

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2925144.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1b22c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com