基于改進(jìn)SMOTE算法的不平衡數(shù)據(jù)集處理方法研究
發(fā)布時(shí)間:2021-01-14 01:58
隨著信息技術(shù)的飛速發(fā)展,各式各樣的信息數(shù)據(jù)給人們帶來不同的有用信息,其中不平衡數(shù)據(jù)集內(nèi)所蘊(yùn)含的有用信息逐漸被人們挖掘和使用,不平衡數(shù)據(jù)集內(nèi)部數(shù)據(jù)分布嚴(yán)重不平衡且其中的有用信息大概率都只占有相對(duì)較少的數(shù)量,但其中的少數(shù)類事件的發(fā)生對(duì)其所屬的領(lǐng)域有著很重要的使用價(jià)值,由于少數(shù)類樣本的稀少性,需要研發(fā)人員投入更多的精力去分析和挖掘其中的有用信息。在眾多對(duì)不平衡數(shù)據(jù)集的采樣算法中,SMOTE算法的提出有效的解決了以往處理數(shù)據(jù)采樣方法的隨機(jī)性,消除了因隨機(jī)復(fù)制增加少數(shù)類樣本點(diǎn)帶來的過擬合現(xiàn)象。該算法的提出為處理不平衡數(shù)據(jù)集提供了有力的指導(dǎo)思想,但其本身也存在著一定的局限性,SMOTE算法在隨機(jī)選取一個(gè)少數(shù)類樣本點(diǎn)后,要求找到其k個(gè)近鄰點(diǎn),但是算法并沒有明確的指出該如何確定k的數(shù)值,故只能根據(jù)所得到的數(shù)據(jù)集進(jìn)行測(cè)試,來得到k的最優(yōu)解,這種做法使k值得選擇存在盲目性,也浪費(fèi)研究人員的時(shí)間資源。在找到近鄰點(diǎn)生成新樣本點(diǎn)時(shí),根據(jù)其在邊界的樣本點(diǎn)生成新樣本點(diǎn)時(shí),會(huì)使新樣本點(diǎn)越來越邊緣化,漸漸的就會(huì)模糊樣本的正負(fù)類邊界,也會(huì)影響原有的數(shù)據(jù)分布。本文具體工作如下:首先,針對(duì)SMOTE算法存在的問題進(jìn)行了理論分...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)層面研究現(xiàn)狀
1.2.2 算法層面研究現(xiàn)狀
1.3 本文研究內(nèi)容及論文結(jié)構(gòu)
第2章 相關(guān)理論研究
2.1 不平衡數(shù)據(jù)集分析
2.2 K-means算法
2.2.1 K-means算法原理
2.2.2 K-means算法工作流程
2.3 SMOTE算法
2.3.1 SMOTE算法基本原理
2.3.2 Boderline-SMOTE算法
2.4 邏輯回歸模型
2.5 本章小結(jié)
第3章 KB-SMOTE算法
3.1 SMOTE算法的不足
3.2 SMOTE算法改進(jìn)思想
3.3 KB-SMOTE算法
3.3.1 KB-SMOTE算法理論基礎(chǔ)
3.3.2 KB-SMOTE 算法的研究過程
3.3.3 KB-SMOTE算法具體描述
3.4 本章小結(jié)
第4章 KB-SMOTE算法驗(yàn)證與分析
4.1 算法的驗(yàn)證流程
4.2 數(shù)據(jù)來源及預(yù)處理
4.2.1 數(shù)據(jù)集的背景及來源
4.2.2 數(shù)據(jù)預(yù)處理
4.3 分類模型訓(xùn)練及KB-SMOTE算法驗(yàn)證
4.3.1 正則化懲罰項(xiàng)的設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 工作展望
參考文獻(xiàn)
作者簡介及在學(xué)期間取得的科研成果
致謝
本文編號(hào):2975980
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)層面研究現(xiàn)狀
1.2.2 算法層面研究現(xiàn)狀
1.3 本文研究內(nèi)容及論文結(jié)構(gòu)
第2章 相關(guān)理論研究
2.1 不平衡數(shù)據(jù)集分析
2.2 K-means算法
2.2.1 K-means算法原理
2.2.2 K-means算法工作流程
2.3 SMOTE算法
2.3.1 SMOTE算法基本原理
2.3.2 Boderline-SMOTE算法
2.4 邏輯回歸模型
2.5 本章小結(jié)
第3章 KB-SMOTE算法
3.1 SMOTE算法的不足
3.2 SMOTE算法改進(jìn)思想
3.3 KB-SMOTE算法
3.3.1 KB-SMOTE算法理論基礎(chǔ)
3.3.2 KB-SMOTE 算法的研究過程
3.3.3 KB-SMOTE算法具體描述
3.4 本章小結(jié)
第4章 KB-SMOTE算法驗(yàn)證與分析
4.1 算法的驗(yàn)證流程
4.2 數(shù)據(jù)來源及預(yù)處理
4.2.1 數(shù)據(jù)集的背景及來源
4.2.2 數(shù)據(jù)預(yù)處理
4.3 分類模型訓(xùn)練及KB-SMOTE算法驗(yàn)證
4.3.1 正則化懲罰項(xiàng)的設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 工作展望
參考文獻(xiàn)
作者簡介及在學(xué)期間取得的科研成果
致謝
本文編號(hào):2975980
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2975980.html
最近更新
教材專著