提升小類準(zhǔn)確度的代價敏感局部泛化誤差模型研究
發(fā)布時間:2021-06-08 08:42
不平衡數(shù)據(jù)集主要是可以分為類間的不平衡和類內(nèi)不平衡。類間不平衡指的是不同類別之間的樣本數(shù)目差別較大;類內(nèi)不平衡是指在某一個類別的內(nèi)部,不同部分的數(shù)據(jù)分布成不同的簇(Cluster),不同的簇之間樣本數(shù)目差距較大的情況。因為大多數(shù)的傳統(tǒng)的機器學(xué)習(xí)方法默認(rèn)使用的數(shù)據(jù)樣本相互之間是平等的,并且假設(shè)其數(shù)據(jù)量是相對平衡的,所以數(shù)據(jù)集不平衡問題的最根本難點是樣本的不平衡性往往會顯著地影響大多數(shù)機器學(xué)習(xí)方法的性能和學(xué)習(xí)的結(jié)果。當(dāng)學(xué)習(xí)不平衡數(shù)據(jù)集的時候,特別是當(dāng)數(shù)據(jù)量非常小,在處理類間不平衡的同時,也可能有類內(nèi)的不平衡的情況發(fā)生,在這樣的情況下,傳統(tǒng)的機器學(xué)習(xí)方法可能難以通過簡單的學(xué)習(xí)泛化到未知的樣本空間上。在二類問題中,具體的表現(xiàn)是分類器趨向于將樣本數(shù)目較少(小類)的樣本判定成樣本數(shù)目較多(大類)的樣本。本文提出通過一種通過最小化基于代價敏感的局部泛化誤差模型(c-LGEM,costsensitive Localized Generalization Error Model)的目標(biāo)函數(shù)的方法來優(yōu)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,在保留代價敏感方法在效率上的優(yōu)勢的同時,提升分類器對小類樣本的泛化能力。更詳細(xì)地說,代價...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
邊界比較清晰、分布較為均勻的不平衡數(shù)據(jù)分布
則因為不同類別的樣本在樣本空間中存在重疊分布不連續(xù),不同的樣本形成了不同的簇(Cluster),樣的簇,并且簇與簇之間包含的樣本的數(shù)據(jù)量的差異,作噪聲數(shù)據(jù),即存在在訓(xùn)練過程中被忽略的可能性,進器的性能。類似于這樣的不平衡又可以被稱為類內(nèi)不平圖 1-1 邊界比較清晰、分布較為均勻的不平衡數(shù)據(jù)分布
除此之外,與基于數(shù)據(jù)層面的方法相比,代價。而對混合方法而言,集成學(xué)習(xí)的使用同樣可能讓其輸出對訓(xùn)練加入的人為的誤差也就越大。綜上所述,為了可能得到保障的分類器,本文研究將基于代價敏感方法來習(xí)方法已經(jīng)被學(xué)者們提出,但是這些方法在并沒有給予致了在數(shù)據(jù)集不平衡比例增大的時候,已有方法對小類分類準(zhǔn)確率難以進一步提升的情況[1]。如圖 1-3 所示,決策邊界線之間所夾的區(qū)域里面,錯分的小類產(chǎn)生的代價按照黑色的決策邊界線一樣全部劃分成小類,一方面可分代價;另外一方面,因為大類樣本數(shù)據(jù)量較大,那么不僅能做到可以有效地提升小類的準(zhǔn)確率,另外得到一個意味著可以在小類樣本與大類樣本之間找到一個更合理小類樣本和大類樣本的分類結(jié)果直接找到一個更合理的
【參考文獻】:
期刊論文
[1]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[2]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計算機應(yīng)用研究. 2014(05)
[3]Robust Multiclass Classification for Learning from Imbalanced Biomedical Data[J]. Piyaphol Phoungphol. Tsinghua Science and Technology. 2012(06)
[4]一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J]. 李雄飛,李軍,董元方,屈成偉. 計算機學(xué)報. 2012(02)
[5]不平衡分類問題研究綜述[J]. 葉志飛,文益民,呂寶糧. 智能系統(tǒng)學(xué)報. 2009(02)
博士論文
[1]面向樣本不平衡的故障特征提取方法[D]. 王健.東北大學(xué) 2015
[2]基于支持向量機的代價敏感數(shù)據(jù)挖掘研究與應(yīng)用[D]. 鄭恩輝.浙江大學(xué) 2006
本文編號:3218075
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
邊界比較清晰、分布較為均勻的不平衡數(shù)據(jù)分布
則因為不同類別的樣本在樣本空間中存在重疊分布不連續(xù),不同的樣本形成了不同的簇(Cluster),樣的簇,并且簇與簇之間包含的樣本的數(shù)據(jù)量的差異,作噪聲數(shù)據(jù),即存在在訓(xùn)練過程中被忽略的可能性,進器的性能。類似于這樣的不平衡又可以被稱為類內(nèi)不平圖 1-1 邊界比較清晰、分布較為均勻的不平衡數(shù)據(jù)分布
除此之外,與基于數(shù)據(jù)層面的方法相比,代價。而對混合方法而言,集成學(xué)習(xí)的使用同樣可能讓其輸出對訓(xùn)練加入的人為的誤差也就越大。綜上所述,為了可能得到保障的分類器,本文研究將基于代價敏感方法來習(xí)方法已經(jīng)被學(xué)者們提出,但是這些方法在并沒有給予致了在數(shù)據(jù)集不平衡比例增大的時候,已有方法對小類分類準(zhǔn)確率難以進一步提升的情況[1]。如圖 1-3 所示,決策邊界線之間所夾的區(qū)域里面,錯分的小類產(chǎn)生的代價按照黑色的決策邊界線一樣全部劃分成小類,一方面可分代價;另外一方面,因為大類樣本數(shù)據(jù)量較大,那么不僅能做到可以有效地提升小類的準(zhǔn)確率,另外得到一個意味著可以在小類樣本與大類樣本之間找到一個更合理小類樣本和大類樣本的分類結(jié)果直接找到一個更合理的
【參考文獻】:
期刊論文
[1]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[2]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計算機應(yīng)用研究. 2014(05)
[3]Robust Multiclass Classification for Learning from Imbalanced Biomedical Data[J]. Piyaphol Phoungphol. Tsinghua Science and Technology. 2012(06)
[4]一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J]. 李雄飛,李軍,董元方,屈成偉. 計算機學(xué)報. 2012(02)
[5]不平衡分類問題研究綜述[J]. 葉志飛,文益民,呂寶糧. 智能系統(tǒng)學(xué)報. 2009(02)
博士論文
[1]面向樣本不平衡的故障特征提取方法[D]. 王健.東北大學(xué) 2015
[2]基于支持向量機的代價敏感數(shù)據(jù)挖掘研究與應(yīng)用[D]. 鄭恩輝.浙江大學(xué) 2006
本文編號:3218075
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3218075.html
最近更新
教材專著