天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于不平衡數(shù)據(jù)的分類方法研究

發(fā)布時間:2017-09-07 21:28

  本文關(guān)鍵詞:基于不平衡數(shù)據(jù)的分類方法研究


  更多相關(guān)文章: 數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測地距離 K-近鄰 數(shù)據(jù)引力


【摘要】:數(shù)據(jù)分類作為數(shù)據(jù)挖掘的一項重要任務(wù),國內(nèi)外學(xué)者進行了大量的研究。但是這些傳統(tǒng)方法都是基于平衡數(shù)據(jù)進行分類的,當(dāng)基于如醫(yī)學(xué)診斷、異常檢測等領(lǐng)域的數(shù)據(jù)時,由于這些數(shù)據(jù)在分布上不平衡,導(dǎo)致了少數(shù)類的漏報,所以基于不平衡數(shù)據(jù)的分類方法是本文的研究課題。本文的研究工作是:對傳統(tǒng)的分類算法進行研究,根據(jù)這些方法在不平衡數(shù)據(jù)集上的缺陷,學(xué)習(xí)了目前存在的不平衡數(shù)據(jù)分類方法;重點研究了DGC和IDGC模型,針對其局限性,提出了改進的GIDGC-KNN分類模型,并進行了實驗評估。(1)基礎(chǔ)算法研究。從傳統(tǒng)分類算法如SVM、KNN、決策樹和AdaBoost等進行學(xué)習(xí),從不平衡分類算法如數(shù)據(jù)層面、代價敏感、單分類和集成學(xué)習(xí)等方面進行研究,如SMOTE、weight SVM、One Class SVM、SSLM和SMOTEBoost。(2)針對DGC和IDGC分類模型,提出基于測地距離的局部相關(guān)分類模型GIDGC-KNN。首先從數(shù)據(jù)引力、特征權(quán)值選擇、數(shù)據(jù)質(zhì)點創(chuàng)建分析了DGC和IDGC的分類原理。由于這兩個模型沒有考慮數(shù)據(jù)分布性狀和待測數(shù)據(jù)近鄰類相關(guān)性而存在準(zhǔn)確率低的問題,提出了GIDGC-KNN模型。該模型繼承了IDGC的引力放大系數(shù)AGC,同時結(jié)合測地距離和KNN算法得到數(shù)據(jù)分布隱含的全局幾何結(jié)構(gòu)和近鄰樣本類相關(guān)性。而且該模型在數(shù)據(jù)質(zhì)點創(chuàng)建過程中采用了MNP,相對于IDGC中使用的MDP一定程度保留了原始數(shù)據(jù)的分布性狀和局部相關(guān)性,體現(xiàn)了改進模型的先進性。(3)實驗驗證。實驗采用來自KEEL數(shù)據(jù)集倉庫中22個不平衡二類分類數(shù)據(jù),用AUC和GM作為分類性能評估的指標(biāo),將GIDGC-KNN分類模型與傳統(tǒng)的采樣技術(shù)、代價敏感和提升方法比較。實驗結(jié)果證明了該模型有明顯的分類性能。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測地距離 K-近鄰 數(shù)據(jù)引力
【學(xué)位授予單位】:中北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 1 緒論9-17
  • 1.1 課題研究背景及意義9-11
  • 1.2 不平衡數(shù)據(jù)分類研究背景及現(xiàn)狀11-12
  • 1.3 不平衡數(shù)據(jù)分類研究目的與成果12-13
  • 1.4 本文的組織結(jié)構(gòu)13-15
  • 1.5 本章小結(jié)15-17
  • 2 不平衡分類方法概述17-29
  • 2.1 問題引出17-18
  • 2.2 傳統(tǒng)分類方法18-23
  • 2.2.1 SVM18-20
  • 2.2.2 KNN方法20-21
  • 2.2.3 決策樹21-22
  • 2.2.4 AdaBoost22-23
  • 2.3 不平衡數(shù)據(jù)集概述23-24
  • 2.4 不平衡分類方法24-27
  • 2.4.1 SMOTE24-25
  • 2.4.2 加權(quán)SVM25-26
  • 2.4.3 One Class SVM26
  • 2.4.4 SSLM26-27
  • 2.4.5 SMOTEBoost27
  • 2.5 本章小結(jié)27-29
  • 3 DGC和IDGC原理29-39
  • 3.1 牛頓萬有引力定理29
  • 3.2 DGC29-32
  • 3.2.1 數(shù)據(jù)引力29-31
  • 3.2.2 數(shù)據(jù)引力定律31
  • 3.2.3 DGC分類原理31-32
  • 3.3 IDGC32-35
  • 3.3.1 IDGC分類原理33-34
  • 3.3.2 特征權(quán)值計算34-35
  • 3.3.3 適應(yīng)值評估35
  • 3.4 數(shù)據(jù)質(zhì)點創(chuàng)建35-37
  • 3.5 本章小結(jié)37-39
  • 4 改進算法原理和仿真實驗39-55
  • 4.1 IDGC-KNN算法原理40-44
  • 4.1.1 測地距離40-41
  • 4.1.2 IDGC-KNN算法原理41-42
  • 4.1.3 GIDGC-KNN數(shù)據(jù)質(zhì)點創(chuàng)建42-43
  • 4.1.4 IDGC-KNN加權(quán)特征43
  • 4.1.5 IDGC-KNN算法步驟43-44
  • 4.2 仿真實驗和分析44-54
  • 4.2.1 實驗數(shù)據(jù)集44-46
  • 4.2.2 實驗參數(shù)設(shè)置46-47
  • 4.2.3 算法評估47
  • 4.2.4 實驗結(jié)果和分析47-54
  • 4.3 本章小結(jié)54-55
  • 5 總結(jié)和展望55-59
  • 5.1 總結(jié)55-56
  • 5.2 展望56-59
  • 參考文獻59-65
  • 攻讀碩士學(xué)位期間發(fā)表的論文及所取得的研究成果65-67
  • 致謝67-69

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 支曉斌;高W氱,

本文編號:809996


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/809996.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f97c1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品久久av一二三区| 中国一区二区三区人妻| 亚洲成人免费天堂诱惑| 大伊香蕉一区二区三区| 国产欧美高清精品一区| 久热在线视频这里只有精品| 亚洲精品一区二区三区免| 91亚洲国产成人久久| 国产日韩欧美在线亚洲| 国产亚洲欧美日韩国亚语| 国产一区二区在线免费| 91爽人人爽人人插人人爽| 老司机精品一区二区三区| 欧美自拍系列精品在线| 激情五月综五月综合网| 一区二区三区在线不卡免费| 人妻久久这里只有精品| 欧美日韩国产另类一区二区| 99热在线精品视频观看| 国产精品一区二区视频大全| 欧美亚洲三级视频在线观看| 午夜视频成人在线免费| 色丁香之五月婷婷开心| 国产成人午夜av一区二区| 久久青青草原中文字幕| 日本久久中文字幕免费| 日韩三级黄色大片免费观看| 国产日韩中文视频一区| 日本淫片一区二区三区| 日本高清视频在线播放| 美女黄色三级深夜福利| 久久人人爽人人爽大片av| 免费亚洲黄色在线观看| 91麻豆精品欧美视频| 久久91精品国产亚洲| 五月激情综合在线视频| 内射精子视频欧美一区二区| 国产a天堂一区二区专区| 国产亚洲欧美一区二区| 国产精品亚洲一级av第二区| 色综合久久中文综合网|