天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

一種基于GMM-EM的非平衡數(shù)據(jù)集概率算法研究

發(fā)布時(shí)間:2025-03-15 01:06
  非平衡數(shù)據(jù)集的分類問題是機(jī)器學(xué)習(xí)領(lǐng)域重要的研究課題。一般地,少數(shù)類樣本在數(shù)量上比多數(shù)類樣本少且空間分布不均勻,但信息價(jià)值卻高于多數(shù)類。為此,在處理非平衡數(shù)據(jù)集的分類問題時(shí),已有的分類算法是基于樣本空間分布均勻的前提下平衡數(shù)據(jù)集,導(dǎo)致少數(shù)類樣本更易錯(cuò)分。因此,有效地處理非平衡數(shù)據(jù)集的分類問題是信息化時(shí)代的熱點(diǎn)問題。雖然現(xiàn)有算法在類別樣本數(shù)量上做到平衡的基礎(chǔ)上也考慮了數(shù)據(jù)集的空間分布特點(diǎn),但并無考慮到數(shù)據(jù)集本身的統(tǒng)計(jì)特征;同時(shí),在生成新樣本時(shí)基本采用隨機(jī)生成法,導(dǎo)致新生成的樣本質(zhì)量較差,從而降低了少數(shù)類的分類精度。針對(duì)這兩個(gè)問題,本文從數(shù)據(jù)統(tǒng)計(jì)特征和提高新樣本的質(zhì)量兩個(gè)角度對(duì)非平衡數(shù)據(jù)集進(jìn)行研究,提出了概率增強(qiáng)算法和均值翻轉(zhuǎn)算法,并驗(yàn)證了兩種算法分類的有效性。本文的主要研究內(nèi)容如下:(1)概率增強(qiáng)算法:該算法先利用GMM獲取高斯型少數(shù)類數(shù)據(jù)集,并通過EM算法獲得了少數(shù)類數(shù)據(jù)集的概率密度函數(shù);然后,根據(jù)高概率密度的樣本優(yōu)先生成新樣本的性質(zhì),對(duì)少數(shù)類進(jìn)行過采樣,從而平衡數(shù)據(jù)集。為了提高新生成樣本的質(zhì)量,本文設(shè)計(jì)了新的計(jì)算方法來避免新樣本出現(xiàn)交叉或者重疊的現(xiàn)象;最后,C4.5決策樹被用來對(duì)平衡后的...

【文章頁數(shù)】:58 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 論文主要研究內(nèi)容
    1.4 論文組織結(jié)構(gòu)
2 預(yù)備知識(shí)概述
    2.1 高斯混合模型(GMM)概述
        2.1.1 高斯混合模型
        2.1.2 GMM協(xié)方差矩陣約束
        2.1.3 GMM階數(shù)的數(shù)量
    2.2 期望最大化(EM)算法
        2.2.1 不完整數(shù)據(jù)的表示
        2.2.2 EM算法初始化
        2.2.3 EM算法的基本原理
    2.3 EM算法應(yīng)用于GMM
    2.4 決策樹分類器
        2.4.1 熵與條件熵
        2.4.2 信息增益準(zhǔn)則
        2.4.3 C4.5決策樹
    2.5 本章小結(jié)
3 非平衡數(shù)據(jù)集相關(guān)知識(shí)
    3.1 非平衡數(shù)據(jù)集的特點(diǎn)
    3.2 非平衡數(shù)據(jù)集的分類策略
    3.3 模型性能評(píng)價(jià)指標(biāo)
        3.3.1 ROC曲線
        3.3.2 準(zhǔn)確率
        3.3.3 靈敏度
        3.3.4 查準(zhǔn)率
        3.3.5 特效性
        3.3.6 F值
    3.4 評(píng)價(jià)方法
        3.4.1 交叉驗(yàn)證法
        3.4.2 保持法
    3.5 本章小結(jié)
4 一種基于GMM-EM的非平衡數(shù)據(jù)集概率增強(qiáng)算法研究
    4.1 基于GMM-EM的非平衡數(shù)據(jù)集概率增強(qiáng)算法
    4.2 算例分析
        4.2.1 數(shù)據(jù)集的選擇
        4.2.2 參數(shù)估計(jì)的結(jié)果
        4.2.3 實(shí)驗(yàn)結(jié)果
        4.2.4 算法時(shí)間復(fù)雜度探討
    4.3 本章小結(jié)
5 一種基于GMM-EM的非平衡數(shù)據(jù)集均值翻轉(zhuǎn)算法研究
    5.1 基于GMM-EM的非平衡數(shù)據(jù)集均值翻轉(zhuǎn)算法
    5.2 算例分析
        5.2.1 數(shù)據(jù)集的選擇
        5.2.2 參數(shù)估計(jì)的結(jié)果
        5.2.3 實(shí)驗(yàn)結(jié)果
        5.2.4 算法時(shí)間復(fù)雜度探討
    5.3 本章小結(jié)
6 結(jié)論與展望
    6.1 結(jié)論
    6.2 展望
參考文獻(xiàn)
致謝
作者簡歷及攻讀碩士學(xué)位期間的科研成果



本文編號(hào):4034909

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/4034909.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ffb8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com