基于鄰域三支決策的不平衡數(shù)據(jù)二分類方法及其應(yīng)用研究
發(fā)布時(shí)間:2024-01-31 19:30
不平衡數(shù)據(jù)是指具有類間分布不平衡特點(diǎn)的數(shù)據(jù),用基于數(shù)據(jù)類間分布均衡的經(jīng)典分類算法處理這類數(shù)據(jù),會(huì)導(dǎo)致算法對(duì)少數(shù)類數(shù)據(jù)的學(xué)習(xí)率不足,分類表現(xiàn)較差。重采樣可以改變數(shù)據(jù)類間分布,降低數(shù)據(jù)的不平衡度,解決不平衡數(shù)據(jù)問題。然而多數(shù)重采樣方法缺乏對(duì)數(shù)據(jù)空間的評(píng)估,以致與原有的數(shù)據(jù)空間分布差異過大,影響算法的分類性能,使泛化能力變?nèi)酢@每蛇m當(dāng)衡量樣本空間的鄰域模型與可解決復(fù)雜問題框架的三支決策理論進(jìn)行重采樣,可以有指導(dǎo)性地降低數(shù)據(jù)的不平衡度,解決不平衡數(shù)據(jù)的二分類問題。因此,結(jié)合鄰域模型及三支決策理論,本文對(duì)不平衡數(shù)據(jù)的二分類問題進(jìn)行研究,其主要工作如下:(1)針對(duì)不平衡數(shù)據(jù)的二分類問題,結(jié)合鄰域模型和三支決策理論,提出了基于鄰域三支決策的不平衡數(shù)據(jù)的二分類方法(NT-IDBC)。首先,根據(jù)鄰域模型以及三支決策理論,定義用于數(shù)據(jù)空間劃分的相關(guān)公式及參數(shù);其次,根據(jù)決策函數(shù)劃分?jǐn)?shù)據(jù)的區(qū)域空間,對(duì)多數(shù)類數(shù)據(jù)與少數(shù)類數(shù)據(jù)類間分布相對(duì)均衡的空間采用有選擇的過采樣方法處理,并對(duì)多數(shù)類數(shù)據(jù)分布較密集的空間采用過采樣與欠采樣結(jié)合的混合采樣方法處理;最后,采用若干UCI數(shù)據(jù)庫中的不平衡數(shù)據(jù)集,在F-value和A...
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3891424
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1正域空間的劃分示例
01111(())1#jimnx類數(shù)據(jù)和少數(shù)類數(shù)據(jù)平均密著0m1((())1)/(1))#jjxm增大多,x屬于負(fù)域空間的可能性))/(1))n越大時(shí),f(x)越大,說的可能性較高。同時(shí)為了避免法處理。文將給出簡(jiǎn)單的數(shù)據(jù)空間劃分
圖3.2邊界域空間的劃分示例
第3章基于鄰域三支決數(shù)類數(shù)據(jù),減號(hào)表示少數(shù)類數(shù)((x))=2,若1n1()#iix=x)>,x1被劃分至正域空間
圖3.3負(fù)域空間的劃分示例
x1被劃分至正域空間圖3.2邊界域空間的劃分示例數(shù)類數(shù)據(jù),減號(hào)表示少數(shù)類數(shù)=3,若=1.2,x1被劃分至邊界域空間。
圖3.4邊界域空間過采樣的基本原理圖
圖3.4邊界域空間過采樣的基本原理圖3.4給出了邊界域空間中少數(shù)類數(shù)據(jù)的過采樣基本原理。其中,實(shí)線示邊界域空間,實(shí)線圓外部表示負(fù)域空間。以少數(shù)類數(shù)據(jù)S1為例,。先搜索距離S1最近的N(N=5)個(gè)少數(shù)類數(shù)據(jù)(S2、S3、S4、S5和S6),的少數(shù)類數(shù)據(jù)(N1、N2、....
本文編號(hào):3891424
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3891424.html
最近更新
教材專著