非均衡數(shù)據(jù)處理算法的研究與應(yīng)用
發(fā)布時(shí)間:2023-04-16 22:03
近年來(lái),隨著計(jì)算機(jī)科學(xué)和電子通信技術(shù)的發(fā)展,人們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。原始數(shù)據(jù)的數(shù)據(jù)量以及數(shù)據(jù)種類(lèi)的爆炸式增長(zhǎng),使各行各業(yè)對(duì)數(shù)據(jù)處理技術(shù)的需求極為迫切,為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)提供了巨大的機(jī)遇。傳統(tǒng)的算法都建立在數(shù)據(jù)集類(lèi)分布均衡以及誤分代價(jià)相等的基礎(chǔ)之上,但在實(shí)際任務(wù)場(chǎng)景中,我們需要處理的絕大部分?jǐn)?shù)據(jù)都是非均衡的,例如指紋識(shí)別、面部識(shí)別、面部年齡估計(jì)等。因此對(duì)非均衡數(shù)據(jù)分類(lèi)算法的研究已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。本文主要研究非均衡數(shù)據(jù)的處理算法,并且從以下三個(gè)方面開(kāi)展研究工作:首先,傳統(tǒng)算法在處理非均衡數(shù)據(jù)時(shí)通常僅考慮數(shù)據(jù)的空間分布而忽略空間距離,針對(duì)這一不足,本文提出基于K-means和改進(jìn)MaxDistance規(guī)則的集成方法。該方法結(jié)合了原始數(shù)據(jù)的空間分布和空間距離的特點(diǎn),在不丟失任何有用信息、不增加任何人造數(shù)據(jù)的條件下將二類(lèi)非均衡問(wèn)題轉(zhuǎn)化成均衡問(wèn)題。與現(xiàn)有的二類(lèi)非均衡數(shù)據(jù)處理算法相比,實(shí)驗(yàn)證明了此方法在處理相同的標(biāo)準(zhǔn)公開(kāi)數(shù)據(jù)集時(shí)具有更好的分類(lèi)效果。其次,本文提出一種基于特征權(quán)重和聚類(lèi)方法相結(jié)合的欠采樣算法—Uscfk算法。該方法針對(duì)二類(lèi)非均衡數(shù)據(jù),通過(guò)將對(duì)分類(lèi)結(jié)果影響較大的特征...
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題背景與研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文組織結(jié)構(gòu)
第二章 相關(guān)背景知識(shí)介紹
2.1 特征選擇算法
2.1.1 過(guò)濾式特征選擇算法
2.1.2 包裹式特征選擇算法
2.1.3 嵌入式特征選擇算法
2.2 聚類(lèi)算法
2.2.1 劃分法
2.2.2 層次法
2.2.3 密度聚類(lèi)法
2.2.4 網(wǎng)格聚類(lèi)法
2.2.5 模型聚類(lèi)法
2.3 集成學(xué)習(xí)算法
2.3.1 Bagging算法
2.3.2 Boosting算法
2.4 分類(lèi)算法性能評(píng)估指標(biāo)介紹
2.5 本章小結(jié)
第三章 基于K-means和改進(jìn)MaxDistance規(guī)則的集成方法
3.1 機(jī)器學(xué)習(xí)相關(guān)算法介紹
3.1.1 機(jī)器學(xué)習(xí)算法分類(lèi)
3.1.2 常見(jiàn)的機(jī)器學(xué)習(xí)算法介紹
3.2 基分類(lèi)器
3.2.1 支持向量機(jī)(SVM)
3.2.2 支持向量聚類(lèi)(SVC)
3.2.3 支持向量機(jī)中的核函數(shù)
3.2.4 本章采用的基分類(lèi)器
3.3 提出的算法
3.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)集
3.4.2 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第四章 基于特征權(quán)重和聚類(lèi)方法相結(jié)合的欠采樣方法
4.1 采樣算法介紹
4.2 提出的算法
4.2.1 數(shù)據(jù)特征權(quán)重的選取
4.2.2 基于特征權(quán)重的聚類(lèi)
4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 實(shí)驗(yàn)過(guò)程設(shè)置
4.3.3 實(shí)驗(yàn)參數(shù)及實(shí)驗(yàn)評(píng)估方法設(shè)置
4.4 本章小結(jié)
第五章 本文算法在葡萄酒分類(lèi)中的應(yīng)用
5.1 葡萄酒分類(lèi)的研究背景與意義
5.2 實(shí)驗(yàn)數(shù)據(jù)集
5.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
5.4 本章小結(jié)
總結(jié)與展望
總結(jié)
展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
致謝
本文編號(hào):3791965
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題背景與研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文組織結(jié)構(gòu)
第二章 相關(guān)背景知識(shí)介紹
2.1 特征選擇算法
2.1.1 過(guò)濾式特征選擇算法
2.1.2 包裹式特征選擇算法
2.1.3 嵌入式特征選擇算法
2.2 聚類(lèi)算法
2.2.1 劃分法
2.2.2 層次法
2.2.3 密度聚類(lèi)法
2.2.4 網(wǎng)格聚類(lèi)法
2.2.5 模型聚類(lèi)法
2.3 集成學(xué)習(xí)算法
2.3.1 Bagging算法
2.3.2 Boosting算法
2.4 分類(lèi)算法性能評(píng)估指標(biāo)介紹
2.5 本章小結(jié)
第三章 基于K-means和改進(jìn)MaxDistance規(guī)則的集成方法
3.1 機(jī)器學(xué)習(xí)相關(guān)算法介紹
3.1.1 機(jī)器學(xué)習(xí)算法分類(lèi)
3.1.2 常見(jiàn)的機(jī)器學(xué)習(xí)算法介紹
3.2 基分類(lèi)器
3.2.1 支持向量機(jī)(SVM)
3.2.2 支持向量聚類(lèi)(SVC)
3.2.3 支持向量機(jī)中的核函數(shù)
3.2.4 本章采用的基分類(lèi)器
3.3 提出的算法
3.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)集
3.4.2 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第四章 基于特征權(quán)重和聚類(lèi)方法相結(jié)合的欠采樣方法
4.1 采樣算法介紹
4.2 提出的算法
4.2.1 數(shù)據(jù)特征權(quán)重的選取
4.2.2 基于特征權(quán)重的聚類(lèi)
4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 實(shí)驗(yàn)過(guò)程設(shè)置
4.3.3 實(shí)驗(yàn)參數(shù)及實(shí)驗(yàn)評(píng)估方法設(shè)置
4.4 本章小結(jié)
第五章 本文算法在葡萄酒分類(lèi)中的應(yīng)用
5.1 葡萄酒分類(lèi)的研究背景與意義
5.2 實(shí)驗(yàn)數(shù)據(jù)集
5.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
5.4 本章小結(jié)
總結(jié)與展望
總結(jié)
展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
致謝
本文編號(hào):3791965
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3791965.html
最近更新
教材專(zhuān)著