天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 領導決策論文 >

一種基于GMM-EM的非平衡數(shù)據(jù)集對稱翻轉算法研究

發(fā)布時間:2022-04-23 11:34
  非平衡數(shù)據(jù)的分類問題是機器學習和數(shù)據(jù)挖掘中的重要研究方向。在實際生活中非平衡數(shù)據(jù)廣泛存在,許多重要信息存在于少數(shù)類樣本數(shù)據(jù)中,因而非平衡數(shù)據(jù)的分類問題愈顯重要。由于非平衡數(shù)據(jù)少數(shù)類樣本所占的比例較少,容易造成少數(shù)類樣本的分類錯誤。因此,傳統(tǒng)的分類器對非平衡數(shù)據(jù)的分類效果并不理想。當前已有的改進算法在不同程度上都可以提高非平衡數(shù)據(jù)的分類效果,但都存在一定的弊端。一方面,忽略了非平衡數(shù)據(jù)的統(tǒng)計特性,隨機生成的樣本容易與多數(shù)類產(chǎn)生重疊;另一方面,在生成數(shù)據(jù)時并沒有考慮數(shù)據(jù)的生成方向,生成的新樣本質量不佳。針對以上問題,本文考慮了非平衡數(shù)據(jù)集的統(tǒng)計特性與數(shù)據(jù)的生成方向,在對生成新樣本的原始數(shù)據(jù)的選擇上更加注重少數(shù)類的分布情況,根據(jù)多數(shù)類入侵少數(shù)類的范圍,對非平衡數(shù)據(jù)提出一種數(shù)據(jù)邊界的對稱翻轉算法并進行了數(shù)據(jù)實驗,驗證了新算法的有效性。首先,利用GMM-EM算法獲得兩類數(shù)據(jù)的概率密度函數(shù),得到多數(shù)類與少數(shù)類數(shù)據(jù)的均值和均方差;然后選擇少數(shù)類的均值為對稱中心,利用統(tǒng)計學中的“3σ法則”,確定多數(shù)類入侵少數(shù)類的翻轉邊界,再根據(jù)翻轉邊界確定少數(shù)類的翻轉區(qū)域,將翻轉區(qū)域中的少數(shù)類樣本進行翻轉重采樣并且剔... 

【文章頁數(shù)】:54 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景及意義
    1.2 國內外研究現(xiàn)狀
    1.3 論文主要研究內容
    1.4 論文組織結構
2 基礎理論知識
    2.1 高斯混合模型(GMM)概述
        2.1.1 高斯混合模型
        2.1.2 3σ法則
    2.2 期望最大化(EM)算法
        2.2.1 EM算法
        2.2.2 缺失數(shù)據(jù)的理解
        2.2.3 EM算法初始化方法
    2.3 基于EM的GMM模型
    2.4 決策樹分類器
        2.4.1 熵
        2.4.2 ID3決策樹
        2.4.3 C4.5決策樹
    2.5 本章小結
3 非平衡數(shù)據(jù)集
    3.1 非平衡數(shù)據(jù)研究現(xiàn)狀
        3.1.1 非平衡數(shù)據(jù)集研究存在的問題
    3.2 SMOTE算法
    3.3 距離計算方法
        3.3.1 歐氏距離
        3.3.2 標準化歐氏距離
        3.3.3 馬氏距離
        3.3.4 曼哈頓距離
    3.4 模型評價指標
        3.4.1 分類精度
        3.4.2 靈敏性
        3.4.3 精準度
        3.4.4 特效性
        3.4.5 F值
        3.4.6 ROC曲線
    3.5 交叉驗證評價方法
        3.5.1 簡單交叉驗證
        3.5.2 2折交叉驗證
        3.5.3 K-折交叉驗證
        3.5.4 留一交叉驗證
    3.6 本章小結
4 一種基于高斯混合模型的非平衡數(shù)據(jù)對稱翻轉算法
    4.1 基于GMM-EM的非平衡數(shù)據(jù)對稱翻轉算法的提出
        4.1.1 非平衡數(shù)據(jù)翻轉算法的提出
        4.1.2 多維非平衡數(shù)據(jù)翻轉算法的描述
    4.2 基于GMM-EM的非平衡數(shù)據(jù)對稱翻轉算法
    4.3 算例分析
        4.3.1 數(shù)據(jù)集的選擇
        4.3.2 一維數(shù)據(jù)集參數(shù)估計結果
        4.3.3 一維數(shù)據(jù)集實驗結果
        4.3.4 二維數(shù)據(jù)集參數(shù)估計結果
        4.3.5 二維數(shù)據(jù)集實驗結果
        4.3.6 算例實驗結果分析
    4.4 本章小結
5 結論與展望
    5.1 結論
    5.2 展望
參考文獻
致謝
作者簡歷及攻讀碩士學位期間的科研成果


【參考文獻】:
期刊論文
[1]一種基于Spark的不確定數(shù)據(jù)集頻繁模式挖掘算法[J]. 楊陽,丁家滿,李海濱,賈連印,游進國,姜瑛.  信息與控制. 2019(03)
[2]一種基于GMM-EM的非平衡數(shù)據(jù)的概率增強算法[J]. 陳剛,吳振家.  控制與決策. 2020(03)
[3]一種基于聚類分組的快速聯(lián)合兼容SLAM數(shù)據(jù)關聯(lián)算法[J]. 劉丹,段建民,王昶人.  機器人. 2018(02)
[4]基于深度學習的視覺SLAM綜述[J]. 趙洋,劉國良,田國會,羅勇,王梓任,張威,李軍偉.  機器人. 2017(06)
[5]一種新型自適應估計高斯混合模型階數(shù)的快速EM算法[J]. 戴卿.  蘭州工業(yè)學院學報. 2017(01)
[6]基于遺傳算法改進的少數(shù)類樣本合成過采樣技術的非平衡數(shù)據(jù)集分類算法[J]. 霍玉丹,谷瓊,蔡之華,袁磊.  計算機應用. 2015(01)
[7]一種基于聚類的非平衡分類算法[J]. 武永成,劉釗.  荊楚理工學院學報. 2014(02)
[8]一種新的過采樣算法DBSMOTE[J]. 劉余霞,劉三民,劉濤,王忠群.  計算機工程與應用. 2014(06)
[9]基于歐式距離的最近鄰改進算法[J]. 劉星毅,韋小鈴.  廣西科學院學報. 2010(04)
[10]基于加權歐式距離的kmeans算法研究[J]. 張忠林,曹志宇,李元韜.  鄭州大學學報(工學版). 2010(01)

碩士論文
[1]面向非平衡類數(shù)據(jù)的分類器性能比較研究與方法改進[D]. 于文莉.大連海事大學 2017
[2]基于改進EM算法的混合模型參數(shù)估計及聚類分析[D]. 史鵬飛.西北大學 2009



本文編號:3647093

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3647093.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶38122***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com