融合混合采樣技術(shù)與Adaboost思想的不平衡數(shù)據(jù)分類學習算法的研究

發(fā)布時間：2024-02-24 01:25

　　不平衡數(shù)據(jù)集指的是數(shù)據(jù)集中某一類(下稱多數(shù)類)的樣本數(shù)量相對其他類(少數(shù)類)多得多。傳統(tǒng)的分類算法默認訓練集中各樣本類別的樣本數(shù)量基本均衡,然而實際的數(shù)據(jù)集中樣本可能不平衡,不平衡數(shù)據(jù)集的分類問題中,傳統(tǒng)的分類算法更關(guān)注整體的分類精度,實際應用中有時候更關(guān)注少數(shù)類的正確分類。本研究從樣本分布特點和樣本特征兩方面對不平衡數(shù)據(jù)集進行分析研究,提出聚類思想的欠采樣方法和特征對類別影響的過采樣方法,最后將兩種方法與Adaboost算法融合,提出一個針對不平衡數(shù)據(jù)集的集成學習分類算法。首先,本研究根據(jù)樣本分布特點,提出一個基于聚類的樣本欠采樣方法。該方法通過對不平衡數(shù)據(jù)集中多數(shù)類樣本進行聚類,通過聚類的簇的大小判別簇中樣本所攜帶的信息量,對攜帶不同信息量的簇采用不同的采樣策略,去掉多數(shù)類中的離群點和邊緣樣本,減少多數(shù)類中的難分樣本,同時降低數(shù)據(jù)集的不平衡性。其次,本研究針對不平衡數(shù)據(jù)集的基于特征影響提出過采樣方法。在數(shù)據(jù)集中,樣本特征對各個類別的影響是不一樣的,因此樣本的每個特征對每個類別存在不同的重要程度。由此可將樣本特征進行分類,然后根據(jù)特征分類結(jié)果對少數(shù)類進行過采樣,實現(xiàn)數(shù)據(jù)的平衡。經(jīng)實驗...

【文章頁數(shù)】：60 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 分類中數(shù)據(jù)不平衡的研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)層面的方法
        1.2.2 算法層面的方法
    1.3 本文研究內(nèi)容
    1.4 本文結(jié)構(gòu)安排
第2章不平衡數(shù)據(jù)集研究概述
    2.1 不平衡數(shù)據(jù)集概述
    2.2 不平衡數(shù)據(jù)集分類學習的難點
        2.2.1 少數(shù)類樣本稀缺
        2.2.2 樣本邊界分布問題
        2.2.3 數(shù)據(jù)碎片
        2.2.4 噪聲樣本
    2.3 不平衡數(shù)據(jù)的評價準則
        2.3.1 F-measure準則
        2.3.2 G-mean準則
        2.3.3 ROC曲線以及AUC
    2.4 相關(guān)理論知識點
        2.4.1 k-means聚類算法
        2.4.2 SMOTE算法
        2.4.3 遺傳算法
        2.4.4 Adaboost算法
    2.5 本章小結(jié)
第3章基于樣本分布特點的聚類欠采樣方法
    3.1 基于樣本分布特點的聚類欠采樣方法
        3.1.1 SDC-US算法的思想
        3.1.2 SDC-US算法的描述
    3.2 實驗分析
        3.2.1 實驗數(shù)據(jù)集
        3.2.2 實驗過程及結(jié)果分析
    3.3 本章小結(jié)
第4章基于特征對類別影響的過采樣方法
    4.1 基于特征對類別影響的過采樣方法
        4.1.1 FI-OS算法思想
        4.1.2 FI-OS算法描述
    4.2 實驗分析
        4.2.1 實驗結(jié)果及分析
    4.3 本章小結(jié)
第5章融合混合采樣與Adaboost算法的分類學習算法
    5.1 融合混合采樣與Adaboost算法的分類學習算法
        5.1.1 MSAdaBoost算法描述
        5.1.2 MSAdaBoost算法步驟
    5.2 實驗分析
        5.2.1 實驗結(jié)果及分析
    5.3 本章小結(jié)
總結(jié)與展望
參考文獻
致謝
攻讀碩士學位期間發(fā)表的學術(shù)論文

本文編號：3908297

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3908297.html

上一篇：基于語義分割的行人屬性識別技術(shù)的研究與實現(xiàn)
下一篇：基于壓縮感知的無線傳感器網(wǎng)絡數(shù)據(jù)收集研究綜述

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合混合采樣技術(shù)與Adaboost思想的不平衡數(shù)據(jù)分類學習算法的研究