近鄰感知的標簽噪聲過濾算法
發(fā)布時間:2021-01-07 07:21
基于k近鄰的標簽噪聲過濾對近鄰參數(shù)k的選取較敏感.針對此問題,文中提出近鄰感知的標簽噪聲過濾算法,可有效解決二分類數(shù)據(jù)集的類內(nèi)標簽噪聲的問題.算法分開考慮正類樣本和負類樣本,使分類問題中的標簽噪聲檢測問題轉(zhuǎn)化為兩個單類別數(shù)據(jù)的離群點檢測問題.首先通過近鄰感知策略自動確定每個樣本的個性化近鄰參數(shù),避免近鄰參數(shù)敏感的問題.然后根據(jù)噪聲因子將樣本分為核心樣本與非核心樣本,并把非核心樣本作為標簽噪聲候選集.最后結(jié)合候選樣本的近鄰標簽信息,進行噪聲的識別與過濾.實驗表明,文中方法的噪聲過濾效果和分類預(yù)測性能均較優(yōu).
【文章來源】:模式識別與人工智能. 2020,33(06)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
各算法在分類預(yù)測中F1值的CD圖
圖1給出含有標簽噪聲的示例數(shù)據(jù)集分布圖,圖中標出樣本p的第1、2、3近鄰.在基于KNN的標簽噪聲檢測模型中,近鄰參數(shù)k的選取極為重要,k值會對決策結(jié)果產(chǎn)生較大影響.以負類樣本p進行說明:當k=1時,p的1近鄰的標簽為正類樣本,與p的標簽不同,因此p被視為噪聲點;當k=2時,p的1近鄰和2近鄰均為正類樣本,與p的標簽不同,因此p被視為噪聲點;當k=3時,p的3近鄰中,有2個為正類樣本,1個為負類樣本,多數(shù)近鄰標簽與p不同,因此p依然被作為噪聲點.這3種情況均是由于k取值過小導致的.而當p取值過大(p>14)時,會涵蓋多數(shù)的圓形樣本,即正類樣本,同樣產(chǎn)生錯誤的決策結(jié)果.由圖1的例子可看出,如果只是簡單地設(shè)定k值而不考慮數(shù)據(jù)分布,這種方式并不一定合理.PKNN給出自適應(yīng)k近鄰的求解方式,雖然它最初提出是針對無標簽或單類別數(shù)據(jù)集,但對于二分類問題,可以將數(shù)據(jù)集看成兩個單類別數(shù)據(jù)集,這樣就可以將其用于標簽噪聲檢測問題.
圖6給出各算法在6種噪聲水平下的平均Re值.由圖可看出,PNN的Re值均為最小,ANN的Re值均為最高.其余對比算法在不同數(shù)據(jù)集上的表現(xiàn)相差不大.PNN將樣本分成核心樣本與非核心樣本,在噪聲過濾階段僅對非核心樣本進行進一步識別,而其它算法是對所有樣本執(zhí)行同樣的操作,所以PNN的Re值低于其它算法.本次實驗中ANN的參數(shù)k=3,需要執(zhí)行3次噪聲過濾,而其它算法均只執(zhí)行1次噪聲過濾,所以ANN的Re值明顯高于其它算法.整體來看,PNN的過濾數(shù)量最保守,可避免過濾太多的非噪聲樣本.ANN過濾數(shù)量太高,會出現(xiàn)過度過濾現(xiàn)象.從樣本移除率的角度上看,PNN是一種具有低移除率的保守過濾方法,尤其是在噪聲水平較高的情況下.泛化誤差上界一般與樣本量成反比.PNN的低移除率意味著去除的樣本量較少,即使出現(xiàn)少量錯誤的噪聲識別,也能有效限制錯誤的樣本,移除對泛化誤差界的影響.
【參考文獻】:
期刊論文
[1]一種個性化k近鄰的離群點檢測算法[J]. 樊瑞宣,姜高霞,王文劍. 小型微型計算機系統(tǒng). 2020(04)
本文編號:2962155
【文章來源】:模式識別與人工智能. 2020,33(06)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
各算法在分類預(yù)測中F1值的CD圖
圖1給出含有標簽噪聲的示例數(shù)據(jù)集分布圖,圖中標出樣本p的第1、2、3近鄰.在基于KNN的標簽噪聲檢測模型中,近鄰參數(shù)k的選取極為重要,k值會對決策結(jié)果產(chǎn)生較大影響.以負類樣本p進行說明:當k=1時,p的1近鄰的標簽為正類樣本,與p的標簽不同,因此p被視為噪聲點;當k=2時,p的1近鄰和2近鄰均為正類樣本,與p的標簽不同,因此p被視為噪聲點;當k=3時,p的3近鄰中,有2個為正類樣本,1個為負類樣本,多數(shù)近鄰標簽與p不同,因此p依然被作為噪聲點.這3種情況均是由于k取值過小導致的.而當p取值過大(p>14)時,會涵蓋多數(shù)的圓形樣本,即正類樣本,同樣產(chǎn)生錯誤的決策結(jié)果.由圖1的例子可看出,如果只是簡單地設(shè)定k值而不考慮數(shù)據(jù)分布,這種方式并不一定合理.PKNN給出自適應(yīng)k近鄰的求解方式,雖然它最初提出是針對無標簽或單類別數(shù)據(jù)集,但對于二分類問題,可以將數(shù)據(jù)集看成兩個單類別數(shù)據(jù)集,這樣就可以將其用于標簽噪聲檢測問題.
圖6給出各算法在6種噪聲水平下的平均Re值.由圖可看出,PNN的Re值均為最小,ANN的Re值均為最高.其余對比算法在不同數(shù)據(jù)集上的表現(xiàn)相差不大.PNN將樣本分成核心樣本與非核心樣本,在噪聲過濾階段僅對非核心樣本進行進一步識別,而其它算法是對所有樣本執(zhí)行同樣的操作,所以PNN的Re值低于其它算法.本次實驗中ANN的參數(shù)k=3,需要執(zhí)行3次噪聲過濾,而其它算法均只執(zhí)行1次噪聲過濾,所以ANN的Re值明顯高于其它算法.整體來看,PNN的過濾數(shù)量最保守,可避免過濾太多的非噪聲樣本.ANN過濾數(shù)量太高,會出現(xiàn)過度過濾現(xiàn)象.從樣本移除率的角度上看,PNN是一種具有低移除率的保守過濾方法,尤其是在噪聲水平較高的情況下.泛化誤差上界一般與樣本量成反比.PNN的低移除率意味著去除的樣本量較少,即使出現(xiàn)少量錯誤的噪聲識別,也能有效限制錯誤的樣本,移除對泛化誤差界的影響.
【參考文獻】:
期刊論文
[1]一種個性化k近鄰的離群點檢測算法[J]. 樊瑞宣,姜高霞,王文劍. 小型微型計算機系統(tǒng). 2020(04)
本文編號:2962155
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2962155.html
最近更新
教材專著