基于構(gòu)造性覆蓋的不平衡數(shù)據(jù)欠采樣分類方法研究
發(fā)布時(shí)間:2021-10-21 04:22
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)分類已廣泛應(yīng)用于日常生活的多個(gè)領(lǐng)域。分類算法通過對(duì)已有的數(shù)據(jù)進(jìn)行分析并且建立模型,從而對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測。目前,已經(jīng)有了很多成熟的分類算法,比如支持向量機(jī)、決策樹、神經(jīng)網(wǎng)絡(luò)等,這些算法大多是針對(duì)平衡數(shù)據(jù)集而設(shè)計(jì)的。但是,在實(shí)際應(yīng)用中,數(shù)據(jù)集大多都是不平衡的。這些分類算法在對(duì)不平衡數(shù)據(jù)進(jìn)行分類時(shí),往往比較注重?cái)?shù)據(jù)集整體的分類準(zhǔn)確率,而少數(shù)類樣本的分類準(zhǔn)確率比較容易被忽略。如何在保證不平衡數(shù)據(jù)整體分類準(zhǔn)確率的同時(shí),提高少數(shù)類樣本的分類準(zhǔn)確率是亟待解決的問題。當(dāng)前對(duì)不平衡數(shù)據(jù)分類的研究方法主要從數(shù)據(jù)集和算法的層面考慮。在數(shù)據(jù)集的層面,過采樣方法通過增加樣本信息來提升不平衡數(shù)據(jù)的分類準(zhǔn)確率,欠采樣方法通過刪除多數(shù)類樣本來加強(qiáng)分類算法對(duì)少數(shù)類樣本的關(guān)注。大量研究表明,這些方法都可以在一定條件下提高少數(shù)類樣本的分類精度,但都存在對(duì)不平衡數(shù)據(jù)集中的樣本分布考慮不足的問題。鑒于此,本文從數(shù)據(jù)集層面考慮,對(duì)如何利用樣本的空間分布信息來提升不平衡數(shù)據(jù)的分類性能進(jìn)行研究,主要研究內(nèi)容總結(jié)如下:(1)提出了基于構(gòu)造性覆蓋(Constructive Covering Algor...
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SDUS算法流程圖
安徽大學(xué)碩士學(xué)位論文29(SPNk)。一個(gè)SPN中,只包含與xk同類別的樣本。為了方便理解,圖4.2給出了SPN的二維圖形展示。圖中樣本A和D分別為SPN1和SPN2的中心,r1和r2表示由公式(2.4)和(2.5)計(jì)算的異類最近距離和同類最遠(yuǎn)距離,r表示SPN的鄰域范圍。在SPN1中,r1是A與C的距離,r2是A與B的距離,共包含四個(gè)樣本。在SPN2中,由于在r1的范圍內(nèi)沒有與樣本D同類別的樣本,所以r2取0,其中只包含球心樣本D。圖4.2SPN形成過程示意圖Figure4.2ThediagramofSPNdetectingprocess4.1.2樣本選擇在CCA處理不平衡數(shù)據(jù)集之后,會(huì)得到多數(shù)類和少數(shù)類的若干個(gè)SPN。SPN形成之后,SDUS方法將從SPN中選擇樣本,從而將樣本選擇區(qū)域進(jìn)一步細(xì)化。并且處在同一個(gè)SPN中的樣本都體現(xiàn)了樣本的高度聚集效應(yīng),每一個(gè)SPN的大小以及其中包含的樣本數(shù)量都不一樣。本節(jié)提出兩種從SPN中選擇樣本的方法。在進(jìn)行樣本選擇之前,首先計(jì)算多數(shù)類SPN中的樣本相對(duì)于所有多數(shù)類樣本的比例,以及應(yīng)該從該SPN中選擇的樣本個(gè)數(shù)。對(duì)于SPNk來說,首先根據(jù)公式(4.1)計(jì)算樣本比例,其中|SPNk|表示SPNk中所包含的樣本數(shù)量,Nn表示多數(shù)類樣本的數(shù)量。然后,可以根據(jù)公式(4.2)計(jì)算出在SPNk中應(yīng)該選擇的樣本數(shù)量NSPNk,其中Np表示少數(shù)類樣本的數(shù)量。根據(jù)上述描述可以計(jì)算出在任意給定的SPNk中應(yīng)該選擇的樣本數(shù)量,以保證樣本選擇之后會(huì)生成一個(gè)平衡數(shù)據(jù)集。但是每一個(gè)SPN中樣本的分布并不是一樣的,所以從SPN中選擇哪些樣本是本節(jié)內(nèi)容的關(guān)鍵。Dk=|SPNk|/Nn(4.1)NSPNk=Np*Dk(4.2)
第四章基于構(gòu)造性覆蓋的欠采樣方法(SDUS)30本節(jié)從不同的切入點(diǎn)提出了兩種樣本選擇方案。第一種是基于多樣性的樣本選擇方案(SDUS1),將每一個(gè)SPN都作為一個(gè)獨(dú)立的局部數(shù)據(jù)集來處理,在選擇樣本的時(shí)候,根據(jù)每個(gè)局部空間中的樣本分布選擇候選樣本。第二種是基于余弦相似度的樣本選擇方案(SDUS2),通過計(jì)算樣本之間的余弦相似度將SPN劃分為四個(gè)部分,然后在四個(gè)部分中根據(jù)樣本數(shù)量選擇樣本。(1)基于多樣性的樣本選擇(SDUS1)由于每一個(gè)SPN中樣本的分布并不是均勻的。所以在一個(gè)SPN中,樣本聚集度較高的區(qū)域可能會(huì)包含更多的冗余信息,而分布比較離散的樣本也有可能攜帶更多的數(shù)據(jù)信息。在采用SDUS1方案選擇樣本時(shí),對(duì)于SPNk中的任意一個(gè)樣本xi,定義一個(gè)度量樣本之間多樣性的函數(shù),如公式(4.3)所示。D(xi)=∑dist(xi,xj)|SPNk|j=1(4.3)其中dist(xi,xj)表示樣本xi與樣本xj之間的距離,對(duì)于SPNk中的任意一個(gè)樣本xi來說,都可以計(jì)算它的D(xi)值。然后可以根據(jù)D(xi)值,計(jì)算樣本xi在整個(gè)SPN中的權(quán)重,如公式(4.4)所示。w(xi)=D(xi)∑D(xi)|SPNk|i=1(4.4)為了便于理解,在圖4.3中給出了SDUS1的圖示說明。圖4.3基于多樣性的樣本選擇示意圖Figure4.3Illustrationofthediversitybasedsampleselectionprocess圖4.3中的O點(diǎn)表示SPN的中心樣本,對(duì)于樣本A來說,可以根據(jù)公式(4.3)和(4.4)計(jì)算其多樣性函數(shù)值以及樣本權(quán)重值,對(duì)于樣本B來說也是一樣。將每一個(gè)帶有權(quán)重的數(shù)據(jù)作為結(jié)果集,采用加權(quán)隨機(jī)采樣的方法[62],可以得到權(quán)重最大的NSPNk個(gè)多數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于樣本權(quán)重的不平衡數(shù)據(jù)欠抽樣方法[J]. 熊冰妍,王國胤,鄧維斌. 計(jì)算機(jī)研究與發(fā)展. 2016(11)
[2]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計(jì)算機(jī)應(yīng)用研究. 2014(05)
[3]不平衡分類問題研究綜述[J]. 葉志飛,文益民,呂寶糧. 智能系統(tǒng)學(xué)報(bào). 2009(02)
[4]覆蓋算法的概率模型[J]. 張鈴,吳濤,周瑛,張燕平. 軟件學(xué)報(bào). 2007(11)
[5]構(gòu)造性覆蓋算法的知識(shí)發(fā)現(xiàn)方法研究[J]. 張旻,張鈴. 電子與信息學(xué)報(bào). 2006(07)
[6]M-P神經(jīng)元模型的幾何意義及其應(yīng)用[J]. 張鈴,張鈸. 軟件學(xué)報(bào). 1998(05)
碩士論文
[1]基于數(shù)據(jù)篩選的不平衡數(shù)據(jù)重采樣方法研究[D]. 劉焱昕.山西財(cái)經(jīng)大學(xué) 2019
本文編號(hào):3448231
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SDUS算法流程圖
安徽大學(xué)碩士學(xué)位論文29(SPNk)。一個(gè)SPN中,只包含與xk同類別的樣本。為了方便理解,圖4.2給出了SPN的二維圖形展示。圖中樣本A和D分別為SPN1和SPN2的中心,r1和r2表示由公式(2.4)和(2.5)計(jì)算的異類最近距離和同類最遠(yuǎn)距離,r表示SPN的鄰域范圍。在SPN1中,r1是A與C的距離,r2是A與B的距離,共包含四個(gè)樣本。在SPN2中,由于在r1的范圍內(nèi)沒有與樣本D同類別的樣本,所以r2取0,其中只包含球心樣本D。圖4.2SPN形成過程示意圖Figure4.2ThediagramofSPNdetectingprocess4.1.2樣本選擇在CCA處理不平衡數(shù)據(jù)集之后,會(huì)得到多數(shù)類和少數(shù)類的若干個(gè)SPN。SPN形成之后,SDUS方法將從SPN中選擇樣本,從而將樣本選擇區(qū)域進(jìn)一步細(xì)化。并且處在同一個(gè)SPN中的樣本都體現(xiàn)了樣本的高度聚集效應(yīng),每一個(gè)SPN的大小以及其中包含的樣本數(shù)量都不一樣。本節(jié)提出兩種從SPN中選擇樣本的方法。在進(jìn)行樣本選擇之前,首先計(jì)算多數(shù)類SPN中的樣本相對(duì)于所有多數(shù)類樣本的比例,以及應(yīng)該從該SPN中選擇的樣本個(gè)數(shù)。對(duì)于SPNk來說,首先根據(jù)公式(4.1)計(jì)算樣本比例,其中|SPNk|表示SPNk中所包含的樣本數(shù)量,Nn表示多數(shù)類樣本的數(shù)量。然后,可以根據(jù)公式(4.2)計(jì)算出在SPNk中應(yīng)該選擇的樣本數(shù)量NSPNk,其中Np表示少數(shù)類樣本的數(shù)量。根據(jù)上述描述可以計(jì)算出在任意給定的SPNk中應(yīng)該選擇的樣本數(shù)量,以保證樣本選擇之后會(huì)生成一個(gè)平衡數(shù)據(jù)集。但是每一個(gè)SPN中樣本的分布并不是一樣的,所以從SPN中選擇哪些樣本是本節(jié)內(nèi)容的關(guān)鍵。Dk=|SPNk|/Nn(4.1)NSPNk=Np*Dk(4.2)
第四章基于構(gòu)造性覆蓋的欠采樣方法(SDUS)30本節(jié)從不同的切入點(diǎn)提出了兩種樣本選擇方案。第一種是基于多樣性的樣本選擇方案(SDUS1),將每一個(gè)SPN都作為一個(gè)獨(dú)立的局部數(shù)據(jù)集來處理,在選擇樣本的時(shí)候,根據(jù)每個(gè)局部空間中的樣本分布選擇候選樣本。第二種是基于余弦相似度的樣本選擇方案(SDUS2),通過計(jì)算樣本之間的余弦相似度將SPN劃分為四個(gè)部分,然后在四個(gè)部分中根據(jù)樣本數(shù)量選擇樣本。(1)基于多樣性的樣本選擇(SDUS1)由于每一個(gè)SPN中樣本的分布并不是均勻的。所以在一個(gè)SPN中,樣本聚集度較高的區(qū)域可能會(huì)包含更多的冗余信息,而分布比較離散的樣本也有可能攜帶更多的數(shù)據(jù)信息。在采用SDUS1方案選擇樣本時(shí),對(duì)于SPNk中的任意一個(gè)樣本xi,定義一個(gè)度量樣本之間多樣性的函數(shù),如公式(4.3)所示。D(xi)=∑dist(xi,xj)|SPNk|j=1(4.3)其中dist(xi,xj)表示樣本xi與樣本xj之間的距離,對(duì)于SPNk中的任意一個(gè)樣本xi來說,都可以計(jì)算它的D(xi)值。然后可以根據(jù)D(xi)值,計(jì)算樣本xi在整個(gè)SPN中的權(quán)重,如公式(4.4)所示。w(xi)=D(xi)∑D(xi)|SPNk|i=1(4.4)為了便于理解,在圖4.3中給出了SDUS1的圖示說明。圖4.3基于多樣性的樣本選擇示意圖Figure4.3Illustrationofthediversitybasedsampleselectionprocess圖4.3中的O點(diǎn)表示SPN的中心樣本,對(duì)于樣本A來說,可以根據(jù)公式(4.3)和(4.4)計(jì)算其多樣性函數(shù)值以及樣本權(quán)重值,對(duì)于樣本B來說也是一樣。將每一個(gè)帶有權(quán)重的數(shù)據(jù)作為結(jié)果集,采用加權(quán)隨機(jī)采樣的方法[62],可以得到權(quán)重最大的NSPNk個(gè)多數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于樣本權(quán)重的不平衡數(shù)據(jù)欠抽樣方法[J]. 熊冰妍,王國胤,鄧維斌. 計(jì)算機(jī)研究與發(fā)展. 2016(11)
[2]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計(jì)算機(jī)應(yīng)用研究. 2014(05)
[3]不平衡分類問題研究綜述[J]. 葉志飛,文益民,呂寶糧. 智能系統(tǒng)學(xué)報(bào). 2009(02)
[4]覆蓋算法的概率模型[J]. 張鈴,吳濤,周瑛,張燕平. 軟件學(xué)報(bào). 2007(11)
[5]構(gòu)造性覆蓋算法的知識(shí)發(fā)現(xiàn)方法研究[J]. 張旻,張鈴. 電子與信息學(xué)報(bào). 2006(07)
[6]M-P神經(jīng)元模型的幾何意義及其應(yīng)用[J]. 張鈴,張鈸. 軟件學(xué)報(bào). 1998(05)
碩士論文
[1]基于數(shù)據(jù)篩選的不平衡數(shù)據(jù)重采樣方法研究[D]. 劉焱昕.山西財(cái)經(jīng)大學(xué) 2019
本文編號(hào):3448231
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3448231.html
最近更新
教材專著