基于不平衡數(shù)據(jù)的分類方法研究
發(fā)布時間:2017-09-07 21:28
本文關(guān)鍵詞:基于不平衡數(shù)據(jù)的分類方法研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測地距離 K-近鄰 數(shù)據(jù)引力
【摘要】:數(shù)據(jù)分類作為數(shù)據(jù)挖掘的一項重要任務(wù),國內(nèi)外學(xué)者進行了大量的研究。但是這些傳統(tǒng)方法都是基于平衡數(shù)據(jù)進行分類的,當(dāng)基于如醫(yī)學(xué)診斷、異常檢測等領(lǐng)域的數(shù)據(jù)時,由于這些數(shù)據(jù)在分布上不平衡,導(dǎo)致了少數(shù)類的漏報,所以基于不平衡數(shù)據(jù)的分類方法是本文的研究課題。本文的研究工作是:對傳統(tǒng)的分類算法進行研究,根據(jù)這些方法在不平衡數(shù)據(jù)集上的缺陷,學(xué)習(xí)了目前存在的不平衡數(shù)據(jù)分類方法;重點研究了DGC和IDGC模型,針對其局限性,提出了改進的GIDGC-KNN分類模型,并進行了實驗評估。(1)基礎(chǔ)算法研究。從傳統(tǒng)分類算法如SVM、KNN、決策樹和AdaBoost等進行學(xué)習(xí),從不平衡分類算法如數(shù)據(jù)層面、代價敏感、單分類和集成學(xué)習(xí)等方面進行研究,如SMOTE、weight SVM、One Class SVM、SSLM和SMOTEBoost。(2)針對DGC和IDGC分類模型,提出基于測地距離的局部相關(guān)分類模型GIDGC-KNN。首先從數(shù)據(jù)引力、特征權(quán)值選擇、數(shù)據(jù)質(zhì)點創(chuàng)建分析了DGC和IDGC的分類原理。由于這兩個模型沒有考慮數(shù)據(jù)分布性狀和待測數(shù)據(jù)近鄰類相關(guān)性而存在準(zhǔn)確率低的問題,提出了GIDGC-KNN模型。該模型繼承了IDGC的引力放大系數(shù)AGC,同時結(jié)合測地距離和KNN算法得到數(shù)據(jù)分布隱含的全局幾何結(jié)構(gòu)和近鄰樣本類相關(guān)性。而且該模型在數(shù)據(jù)質(zhì)點創(chuàng)建過程中采用了MNP,相對于IDGC中使用的MDP一定程度保留了原始數(shù)據(jù)的分布性狀和局部相關(guān)性,體現(xiàn)了改進模型的先進性。(3)實驗驗證。實驗采用來自KEEL數(shù)據(jù)集倉庫中22個不平衡二類分類數(shù)據(jù),用AUC和GM作為分類性能評估的指標(biāo),將GIDGC-KNN分類模型與傳統(tǒng)的采樣技術(shù)、代價敏感和提升方法比較。實驗結(jié)果證明了該模型有明顯的分類性能。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測地距離 K-近鄰 數(shù)據(jù)引力
【學(xué)位授予單位】:中北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-17
- 1.1 課題研究背景及意義9-11
- 1.2 不平衡數(shù)據(jù)分類研究背景及現(xiàn)狀11-12
- 1.3 不平衡數(shù)據(jù)分類研究目的與成果12-13
- 1.4 本文的組織結(jié)構(gòu)13-15
- 1.5 本章小結(jié)15-17
- 2 不平衡分類方法概述17-29
- 2.1 問題引出17-18
- 2.2 傳統(tǒng)分類方法18-23
- 2.2.1 SVM18-20
- 2.2.2 KNN方法20-21
- 2.2.3 決策樹21-22
- 2.2.4 AdaBoost22-23
- 2.3 不平衡數(shù)據(jù)集概述23-24
- 2.4 不平衡分類方法24-27
- 2.4.1 SMOTE24-25
- 2.4.2 加權(quán)SVM25-26
- 2.4.3 One Class SVM26
- 2.4.4 SSLM26-27
- 2.4.5 SMOTEBoost27
- 2.5 本章小結(jié)27-29
- 3 DGC和IDGC原理29-39
- 3.1 牛頓萬有引力定理29
- 3.2 DGC29-32
- 3.2.1 數(shù)據(jù)引力29-31
- 3.2.2 數(shù)據(jù)引力定律31
- 3.2.3 DGC分類原理31-32
- 3.3 IDGC32-35
- 3.3.1 IDGC分類原理33-34
- 3.3.2 特征權(quán)值計算34-35
- 3.3.3 適應(yīng)值評估35
- 3.4 數(shù)據(jù)質(zhì)點創(chuàng)建35-37
- 3.5 本章小結(jié)37-39
- 4 改進算法原理和仿真實驗39-55
- 4.1 IDGC-KNN算法原理40-44
- 4.1.1 測地距離40-41
- 4.1.2 IDGC-KNN算法原理41-42
- 4.1.3 GIDGC-KNN數(shù)據(jù)質(zhì)點創(chuàng)建42-43
- 4.1.4 IDGC-KNN加權(quán)特征43
- 4.1.5 IDGC-KNN算法步驟43-44
- 4.2 仿真實驗和分析44-54
- 4.2.1 實驗數(shù)據(jù)集44-46
- 4.2.2 實驗參數(shù)設(shè)置46-47
- 4.2.3 算法評估47
- 4.2.4 實驗結(jié)果和分析47-54
- 4.3 本章小結(jié)54-55
- 5 總結(jié)和展望55-59
- 5.1 總結(jié)55-56
- 5.2 展望56-59
- 參考文獻59-65
- 攻讀碩士學(xué)位期間發(fā)表的論文及所取得的研究成果65-67
- 致謝67-69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 支曉斌;高W氱,
本文編號:809996
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/809996.html
最近更新
教材專著