天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于三支決策的不平衡數(shù)據(jù)采樣方法研究

發(fā)布時(shí)間:2021-02-21 03:57
  不平衡數(shù)據(jù)是指在數(shù)據(jù)集中樣本數(shù)量在類間分布不平衡的一類數(shù)據(jù),傳統(tǒng)的分類算法在對不平衡數(shù)據(jù)進(jìn)行分類時(shí),分類結(jié)果更多的傾向于多數(shù)類,從而使得對少數(shù)類的識(shí)別率不盡人意。過采樣是解決不平衡數(shù)據(jù)分類問題的一條有效途徑,F(xiàn)有的過采樣算法雖然在一定程度上能夠提高少數(shù)類的識(shí)別率,但針對性不強(qiáng),容易導(dǎo)致新合成的少數(shù)類樣本影響多數(shù)類樣本的泛化空間,使得多數(shù)類樣本的識(shí)別率下降,而且容易合成冗余數(shù)據(jù)。近些年關(guān)于三支決策理論的應(yīng)用研究獲得了一定的進(jìn)展,若將三支決策理論應(yīng)用到不平衡數(shù)據(jù)處理方面,有可能是一條解決不平衡數(shù)據(jù)分類問題的有效途徑。受其啟發(fā),結(jié)合三支決策理論,本文開展了基于三支決策的不平衡數(shù)據(jù)采樣方法研究,主要工作在于:(1)結(jié)合鄰域粗糙集模型和三支決策模型,提出了基于三支決策的不平衡數(shù)據(jù)過采樣方法(TWD-IDOS)。首先,定義了鄰域三支決策模型的相關(guān)概念;其次,利用鄰域三支決策模型將訓(xùn)練集中的樣本劃分成正域樣本、邊界域樣本和負(fù)域樣本;再次,對邊界域和負(fù)域中的少數(shù)類樣本分別進(jìn)行過采樣處理;最后,在多個(gè)UCI數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),并與其他過采樣方法、欠采樣方法和集成方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,在C4.5... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:63 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景和意義
    1.2 不平衡數(shù)據(jù)分類問題的研究現(xiàn)狀
        1.2.1 數(shù)據(jù)層面
        1.2.2 算法層面
    1.3 論文主要工作
    1.4 本文的組織結(jié)構(gòu)
第2章 粗糙集與三支決策
    2.1 粗糙集理論介紹
    2.2 三支決策理論研究現(xiàn)狀
    2.3 本章小結(jié)
第3章 基于三支決策的不平衡數(shù)據(jù)過采樣算法
    3.1 鄰域粗糙集模型
    3.2 鄰域三支決策模型
    3.3 基于三支決策的不平衡數(shù)據(jù)過采樣算法
        3.3.1 確定樣本的鄰域半徑
        3.3.2 對不同區(qū)域的樣本過采樣
        3.3.3 算法描述
        3.3.4 算法的復(fù)雜度分析
    3.4 實(shí)驗(yàn)評(píng)價(jià)
        3.4.1 實(shí)驗(yàn)數(shù)據(jù)
        3.4.2 評(píng)價(jià)指標(biāo)
    3.5 實(shí)驗(yàn)方法
        3.5.1 確定鄰域半徑
        3.5.2 實(shí)驗(yàn)方法及參數(shù)設(shè)定
        3.5.3 實(shí)驗(yàn)結(jié)果及分析
    3.6 本章小結(jié)
第四章 基于三支決策的不平衡數(shù)據(jù)并行過采樣算法
    4.1 MapReduce與Spark
        4.1.1 MapReduce
        4.1.2 Spark
        4.1.3 MapReduce與Spark
    4.2 基于三支決策的不平衡數(shù)據(jù)過采樣算法的并行化
        4.2.1 訓(xùn)練集劃分階段的并行化
        4.2.2 邊界域采樣階段的并行化
        4.2.3 負(fù)域采樣階段的并行化
        4.2.4 分類學(xué)習(xí)
    4.3 算法的實(shí)驗(yàn)結(jié)果及分析
        4.3.1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)說明
        4.3.2 并行算法的有效性
        4.3.3 并行算法的高效性
    4.4 參數(shù)敏感性分析
    4.5 本章小結(jié)
第5章 總結(jié)及未來工作
    5.1 總結(jié)
    5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果



本文編號(hào):3043808

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3043808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ee3d8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com