不平衡數(shù)據(jù)集均衡化方法研究及其應(yīng)用
發(fā)布時(shí)間:2021-10-10 08:22
在機(jī)器學(xué)習(xí)領(lǐng)域中,基于訓(xùn)練樣本實(shí)例建立模型可用于數(shù)據(jù)預(yù)測(cè)和解釋,但其有效性、精準(zhǔn)性受到數(shù)據(jù)不平衡等因素影響,會(huì)出現(xiàn)分類面偏倚的現(xiàn)象,從而降低模型的分類性能,為此提出了兩種基于Isolation Forest(iForest)的采樣算法:iForest-RM欠采樣和iForest-SMOTE過采樣算法。iForest-RM針對(duì)負(fù)類(多數(shù)類)樣本進(jìn)行欠采樣均衡數(shù)據(jù)集。首先,利用iForest形成每個(gè)樣本在樣本空間中的分布特征評(píng)估值,進(jìn)而定義其概率分布;然后,根據(jù)概率分布,按給定采樣率,通過輪盤轉(zhuǎn)算法在負(fù)類樣本中選取樣本;最后,通過K-means方法形成若干負(fù)類樣本聚類中心,并以聚類中心為最終負(fù)類選取樣本,實(shí)現(xiàn)正負(fù)類樣本均衡。iForest-SMOTE針對(duì)正類(少數(shù)類)樣本進(jìn)行過采樣均衡數(shù)據(jù)集。首先,使用iForest定義并生成所有樣本的概率分布;然后,剔除最近鄰為負(fù)類的正類樣本,在每次SMOTE過程中隨機(jī)選擇正類樣本p及其近鄰的k個(gè)正類樣本,使用輪盤轉(zhuǎn)算法按照近鄰樣本的概率分布選擇樣本q;最后在p與q構(gòu)成的M維球體內(nèi)插值,生成足夠的正類樣本,實(shí)現(xiàn)正負(fù)類樣本均衡。通過UCI數(shù)據(jù)集和地震物探相...
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Page按不同比例均衡化后分類效果
空間分布信息缺失,維護(hù)了樣本空間分布,從而提高建模效果。3.2.2.2 正負(fù)樣本均衡化程度正負(fù)樣本均衡化通常使正負(fù)類數(shù)量均衡化為 1:1,但對(duì)于負(fù)類樣本數(shù)遠(yuǎn)遠(yuǎn)大于正類樣本數(shù)的極不平衡數(shù)據(jù)集,如 Yeast 和 Page,正負(fù)類樣本數(shù)比例分別為 3.54%和 2.14%,這類樣本數(shù)量的不平衡性也是其固有特性。因此,強(qiáng)行均衡正負(fù)類樣本數(shù)為 1:1,往往導(dǎo)致負(fù)類樣本的空間分布信息缺失,影響真實(shí)樣本的空間分布。對(duì)Yeast 和 Page 采用 iForest-RM 進(jìn)行均衡化,使負(fù)類樣本聚類簇的數(shù)目大于正類樣本數(shù),實(shí)驗(yàn)結(jié)果如圖 3.1、3.2 所示(其他實(shí)驗(yàn)參數(shù)同上)。圖中橫軸表示經(jīng)過iForest-RM 均衡化方法處理后的負(fù)類樣本和正類樣本的數(shù)量比值,縱軸為 G-mean和 AUC 的指標(biāo)。從圖中可見,當(dāng) Page 和 Yeast 正負(fù)類樣本數(shù)量比值分別為 1:3 與1:2 時(shí),分類效果達(dá)到最優(yōu),因此,對(duì)于極不平衡數(shù)據(jù)集,不能簡(jiǎn)單設(shè)置負(fù)類樣本數(shù)與正類樣本數(shù)為 1:1,而是需要采用不同正負(fù)類樣本數(shù)量比,以確保均衡化后較好的分類效果。
第4 章 數(shù)據(jù)均衡化方法在地震相巖性識(shí)別上的應(yīng)用頻特征等,這些特征的符號(hào)表示如表 4.1 所示。5G20-35 井地震數(shù)據(jù)屬性曲線圖如圖 4.1 所示,圖中縱軸為時(shí)間,橫軸為屬性值。表 4.1 地震屬性表Table 4.1 The table of seismic attribute地震屬性名稱時(shí)間原始采樣的地震道希爾伯特變換瞬時(shí)相位瞬時(shí)頻率均方根振幅10Hz~80Hz的分頻符號(hào)表示t s(t) h(t) 3 (t) ω(t)rmsAmp 10Hz~80Hz
【參考文獻(xiàn)】:
期刊論文
[1]基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[J]. 武森,劉露,盧丹. 工程科學(xué)學(xué)報(bào). 2017(08)
[2]Atlas測(cè)井儀GR曲線擴(kuò)徑校正方法的改進(jìn)及應(yīng)用效果[J]. 夏竹,趙磊,李凱,王志寶,張勝,趙師權(quán). 石油地球物理勘探. 2016(S1)
[3]基于自適應(yīng)K值選擇的K近鄰算法研究[J]. 閆中亞,汪云甲,劉克強(qiáng),王行風(fēng). 測(cè)繪地理信息. 2016(06)
[4]神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J]. 焦李成,楊淑媛,劉芳,王士剛,馮志璽. 計(jì)算機(jī)學(xué)報(bào). 2016(08)
[5]蒙特卡洛交叉驗(yàn)證用于偏最小二乘建模數(shù)據(jù)質(zhì)量的評(píng)價(jià)(英文)[J]. 王家俊,李正風(fēng),王蘿萍,卞;,蔡文生,邵學(xué)廣. 計(jì)算機(jī)與應(yīng)用化學(xué). 2015(12)
[6]基于數(shù)據(jù)密度分布的欠采樣方法研究[J]. 楊杰明,閆欣,曲朝陽,宋晨晨,喬媛媛. 計(jì)算機(jī)應(yīng)用研究. 2016(10)
[7]SP測(cè)井小波變換在單井層序劃分中的應(yīng)用[J]. 賀聰,蘇奧,吉利明,吳遠(yuǎn)東,梁曉飛. 特種油氣藏. 2015(06)
[8]基于KM-SMOTE和隨機(jī)森林的不平衡數(shù)據(jù)分類[J]. 陳斌,蘇一丹,黃山. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(09)
[9]應(yīng)用傅里葉尺度變換提高地震資料分辨率[J]. 陳雙全,李向陽. 石油地球物理勘探. 2015(02)
[10]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計(jì)算機(jī)應(yīng)用. 2011(09)
本文編號(hào):3428008
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Page按不同比例均衡化后分類效果
空間分布信息缺失,維護(hù)了樣本空間分布,從而提高建模效果。3.2.2.2 正負(fù)樣本均衡化程度正負(fù)樣本均衡化通常使正負(fù)類數(shù)量均衡化為 1:1,但對(duì)于負(fù)類樣本數(shù)遠(yuǎn)遠(yuǎn)大于正類樣本數(shù)的極不平衡數(shù)據(jù)集,如 Yeast 和 Page,正負(fù)類樣本數(shù)比例分別為 3.54%和 2.14%,這類樣本數(shù)量的不平衡性也是其固有特性。因此,強(qiáng)行均衡正負(fù)類樣本數(shù)為 1:1,往往導(dǎo)致負(fù)類樣本的空間分布信息缺失,影響真實(shí)樣本的空間分布。對(duì)Yeast 和 Page 采用 iForest-RM 進(jìn)行均衡化,使負(fù)類樣本聚類簇的數(shù)目大于正類樣本數(shù),實(shí)驗(yàn)結(jié)果如圖 3.1、3.2 所示(其他實(shí)驗(yàn)參數(shù)同上)。圖中橫軸表示經(jīng)過iForest-RM 均衡化方法處理后的負(fù)類樣本和正類樣本的數(shù)量比值,縱軸為 G-mean和 AUC 的指標(biāo)。從圖中可見,當(dāng) Page 和 Yeast 正負(fù)類樣本數(shù)量比值分別為 1:3 與1:2 時(shí),分類效果達(dá)到最優(yōu),因此,對(duì)于極不平衡數(shù)據(jù)集,不能簡(jiǎn)單設(shè)置負(fù)類樣本數(shù)與正類樣本數(shù)為 1:1,而是需要采用不同正負(fù)類樣本數(shù)量比,以確保均衡化后較好的分類效果。
第4 章 數(shù)據(jù)均衡化方法在地震相巖性識(shí)別上的應(yīng)用頻特征等,這些特征的符號(hào)表示如表 4.1 所示。5G20-35 井地震數(shù)據(jù)屬性曲線圖如圖 4.1 所示,圖中縱軸為時(shí)間,橫軸為屬性值。表 4.1 地震屬性表Table 4.1 The table of seismic attribute地震屬性名稱時(shí)間原始采樣的地震道希爾伯特變換瞬時(shí)相位瞬時(shí)頻率均方根振幅10Hz~80Hz的分頻符號(hào)表示t s(t) h(t) 3 (t) ω(t)rmsAmp 10Hz~80Hz
【參考文獻(xiàn)】:
期刊論文
[1]基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[J]. 武森,劉露,盧丹. 工程科學(xué)學(xué)報(bào). 2017(08)
[2]Atlas測(cè)井儀GR曲線擴(kuò)徑校正方法的改進(jìn)及應(yīng)用效果[J]. 夏竹,趙磊,李凱,王志寶,張勝,趙師權(quán). 石油地球物理勘探. 2016(S1)
[3]基于自適應(yīng)K值選擇的K近鄰算法研究[J]. 閆中亞,汪云甲,劉克強(qiáng),王行風(fēng). 測(cè)繪地理信息. 2016(06)
[4]神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J]. 焦李成,楊淑媛,劉芳,王士剛,馮志璽. 計(jì)算機(jī)學(xué)報(bào). 2016(08)
[5]蒙特卡洛交叉驗(yàn)證用于偏最小二乘建模數(shù)據(jù)質(zhì)量的評(píng)價(jià)(英文)[J]. 王家俊,李正風(fēng),王蘿萍,卞;,蔡文生,邵學(xué)廣. 計(jì)算機(jī)與應(yīng)用化學(xué). 2015(12)
[6]基于數(shù)據(jù)密度分布的欠采樣方法研究[J]. 楊杰明,閆欣,曲朝陽,宋晨晨,喬媛媛. 計(jì)算機(jī)應(yīng)用研究. 2016(10)
[7]SP測(cè)井小波變換在單井層序劃分中的應(yīng)用[J]. 賀聰,蘇奧,吉利明,吳遠(yuǎn)東,梁曉飛. 特種油氣藏. 2015(06)
[8]基于KM-SMOTE和隨機(jī)森林的不平衡數(shù)據(jù)分類[J]. 陳斌,蘇一丹,黃山. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(09)
[9]應(yīng)用傅里葉尺度變換提高地震資料分辨率[J]. 陳雙全,李向陽. 石油地球物理勘探. 2015(02)
[10]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計(jì)算機(jī)應(yīng)用. 2011(09)
本文編號(hào):3428008
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3428008.html
最近更新
教材專著