天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不平衡數(shù)據(jù)集分類及相關(guān)問題研究

發(fā)布時間:2022-12-04 19:45
  不平衡數(shù)據(jù)集分類問題是數(shù)據(jù)分類領(lǐng)域的研究熱點。利用過采樣技術(shù)對不平衡數(shù)據(jù)進行預(yù)處理從而幫助分類器識別出更多的少數(shù)類樣本是一種常見的解決辦法。由于已有的過采樣方法普遍存在無法讓數(shù)據(jù)集在平衡化處理前后數(shù)據(jù)密度趨于一致、產(chǎn)生新樣本的區(qū)域過小、采樣倍率較高時樣本容易重疊等問題,所以本文針對以上問題進行改進而提出新的過采樣算法以便更好地完成不平衡數(shù)據(jù)集分類任務(wù)。針對數(shù)字型的不平衡數(shù)據(jù)集,本文提出了兩種全新的過采樣方法以對數(shù)據(jù)集進行平衡化處理。因為文本型數(shù)據(jù)進行線性插值可解釋性差,所以針對不平衡的文本型數(shù)據(jù)集分類問題本文提出了一種改進的文本表示方法來改善不平衡的文本數(shù)據(jù)分類結(jié)果。為了更好地解決不同類型的不平衡數(shù)據(jù)集分類問題,本文主要做了以下工作:1.針對現(xiàn)有過采樣方法存在抽樣前后數(shù)據(jù)密度不一致、抽樣權(quán)重分配不合理、數(shù)據(jù)集稀疏性評價不合理等問題,本文利用樣本間的最小距離來衡量數(shù)據(jù)集的稀疏性,并且距離越遠的鄰居越先被用于抽樣,從而提出了一種基于少數(shù)類樣本間最小和最大距離的過采樣策略。這種過采樣算法使得分類器在經(jīng)過平衡化處理后的數(shù)據(jù)集上進行訓(xùn)練后能夠識別出更多的少數(shù)類樣本,并且正確識別多數(shù)類樣本的能力也... 

【文章頁數(shù)】:94 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
        1.1.1 背景
        1.1.2 意義
    1.2 國內(nèi)外研究歷史與現(xiàn)狀
        1.2.1 數(shù)據(jù)層面的解決辦法
        1.2.2 算法層面的解決辦法
    1.3 本文的主要貢獻與創(chuàng)新
    1.4 本文的研究內(nèi)容和結(jié)構(gòu)安排
第二章 相關(guān)理論與技術(shù)的介紹
    2.1 不平衡數(shù)據(jù)集分類困難的主要因素
        2.1.1 算法方面的因素
        2.1.2 數(shù)據(jù)方面的因素
    2.2 過采樣技術(shù)
        2.2.1 隨機過采樣
        2.2.2 基于距離的過采樣
        2.2.3 基于聚類的過采樣
    2.3 分類評價指標
        2.3.1 一般分類評價指標
        2.3.2 不平衡數(shù)據(jù)集分類評價指標
    2.4 文本表示方法
        2.4.1 One-hot獨熱編碼表示法
        2.4.2 詞袋模型
        2.4.3 TF-IDF
    2.5 分類方法
        2.5.1 分類概述
        2.5.2 基于機器學(xué)習(xí)的分類方法
    2.6 聚類算法
        2.6.1 聚類算法概述
        2.6.2 K-Means聚類算法
    2.7 本章小結(jié)
第三章 基于少數(shù)類樣本間最大與最小距離的過采樣
    3.1 引言
    3.2 已有過采樣方案的研究
    3.3 基本少數(shù)類樣本間最大與最小距離的過采樣
        3.3.1 模型細節(jié)
        3.3.2 實驗設(shè)計
    3.4 實驗結(jié)果與分析
        3.4.1 比較方法
        3.4.2 實驗結(jié)果
        3.4.3 結(jié)果分析
    3.5 本章小結(jié)
第四章 三角過采樣
    4.1 引言
    4.2 已有方案的分析
    4.3 三角過采樣
        4.3.1 模型細節(jié)
        4.3.2 實驗設(shè)計
    4.4 實驗結(jié)果與分析
        4.4.1 對比方案
        4.4.2 實驗結(jié)果
        4.4.3 結(jié)果分析
        4.4.4 橫向?qū)Ρ?br>    4.5 本章小結(jié)
第五章 TF-IDF-ρ算法及實驗驗證
    5.1 引言
    5.2 關(guān)于其他改進方案的分析
    5.3 TF-IDF-ρ
        5.3.1 模型細節(jié)
        5.3.2 利用TF-IDF-ρ進行文本分類的流程
        5.3.3 類區(qū)分能力ρ在訓(xùn)練集與測試集中相同
    5.4 實驗
        5.4.1 實驗設(shè)計
        5.4.2 實驗結(jié)果
        5.4.3 結(jié)果分析
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 全文總結(jié)
    6.2 未來展望
致謝
參考文獻
攻讀碩士期間取得的成果


【參考文獻】:
期刊論文
[1]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超.  計算機工程與應(yīng)用. 2019(23)
[2]SMOTE過采樣及其改進算法研究綜述[J]. 石洪波,陳雨文,陳鑫.  智能系統(tǒng)學(xué)報. 2019(06)
[3]面向不平衡數(shù)據(jù)的分類算法[J]. 蔣宗禮,史倩月.  計算機系統(tǒng)應(yīng)用. 2019(08)
[4]基于混合采樣的不平衡數(shù)據(jù)集算法研究[J]. 張明,胡曉輝,吳嘉昕.  計算機工程與應(yīng)用. 2019(17)
[5]基于混合采樣的非平衡數(shù)據(jù)分類算法[J]. 吳藝凡,梁吉業(yè),王俊紅.  計算機科學(xué)與探索. 2019(02)
[6]基于k最近鄰和改進TF-IDF的文本分類框架[J]. 龔靜,黃欣陽.  計算機工程與設(shè)計. 2018(05)
[7]基于改進TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉.  廈門理工學(xué)院學(xué)報. 2017(05)
[8]基于鄰域混合抽樣和動態(tài)集成的不平衡數(shù)據(jù)分類方法[J]. 高鋒,黃海燕.  計算機科學(xué). 2017(08)
[9]基于Document Triage的TF-IDF算法的改進[J]. 李鎮(zhèn)君,周竹榮.  計算機應(yīng)用. 2015(12)
[10]不平衡數(shù)據(jù)處理的新方法——基于樣本相似度的少數(shù)類合成法[J]. 馬景義,胡迪,孫梟梟.  數(shù)理統(tǒng)計與管理. 2015(05)

碩士論文
[1]基于混合采樣的非平衡數(shù)據(jù)分類算法研究[D]. 吳藝凡.山西大學(xué) 2019
[2]基于傳遞距離的密度峰值聚類算法研究[D]. 閆高亮.西南大學(xué) 2019
[3]基于集成學(xué)習(xí)的不平衡樣本分類問題研究[D]. 郭建威.哈爾濱工業(yè)大學(xué) 2017
[4]過抽樣算法在不平衡數(shù)據(jù)學(xué)習(xí)中的應(yīng)用[D]. 韓秋玲.華南理工大學(xué) 2011



本文編號:3708879

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3708879.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f8878***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com