面向失衡數(shù)據(jù)集分類問題的研究與應用
本文關鍵詞:面向失衡數(shù)據(jù)集分類問題的研究與應用,由筆耕文化傳播整理發(fā)布。
【摘要】:面向失衡數(shù)據(jù)集的分類問題是數(shù)據(jù)挖掘與機器學習領域中最具有挑戰(zhàn)性的熱點研究問題之一。近年來,隨著計算機技術的發(fā)展和信息化的進步,越來越多的決策需要數(shù)據(jù)的支持。在大數(shù)據(jù)時代的背景下,基于數(shù)據(jù)挖掘技術的分類問題成為企業(yè)快速決策、精準營銷和提高綜合競爭力的有力手段。失衡數(shù)據(jù)集是現(xiàn)實領域中存在的一種數(shù)據(jù)形態(tài),真實客觀的描述了某些事物本質(zhì)的特征,即大量數(shù)據(jù)中只有很少的一部分是人們所格外關心的,而這部分數(shù)據(jù)卻往往隱藏在大量的數(shù)據(jù)之中,難以被準確的分類。失衡數(shù)據(jù)集分類問題是數(shù)據(jù)挖掘領域中的一個難題,很多適用于傳統(tǒng)分類問題的常用分類策略并不能很好的處理這一問題,因此引起了全世界各國專家學者的極大重視。 本文首先介紹了失衡數(shù)據(jù)集的概念,介紹了各國專家和學者在失衡數(shù)據(jù)集分類問題領域的研究進展,闡述了失衡數(shù)據(jù)集分類困難的原因和目前普遍采用的解決方法以及分類器的性能評價指標。在充分考慮到失衡數(shù)據(jù)信息匱乏,數(shù)據(jù)淹沒和采樣后信息損失等因素的基礎上,,提出了基于聚類簇邊界采樣的失衡數(shù)據(jù)重采樣策略。并結合基于支持向量機的集成學習方法,從數(shù)據(jù)端和算法端兩方面提出了失衡數(shù)據(jù)集分類問題的解決策略。在實驗構建與分析部分分別用四種典型形態(tài)的失衡數(shù)據(jù)集驗證了該策略的有效性和穩(wěn)定性。最后,結合集成學習方法將失衡數(shù)據(jù)集分類問題應用到了電信客戶關系預測領域,使用真實的電信客戶關系數(shù)據(jù)把具體的采樣和分類策略集成到應用系統(tǒng)當中,取得了較好的分類效果。
【關鍵詞】:失衡數(shù)據(jù)集 分類 重采樣 集成學習
【學位授予單位】:哈爾濱理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 課題研究的目的和意義10-11
- 1.2 失衡數(shù)據(jù)集問題的研究概況與發(fā)展趨勢11-14
- 1.2.1 國外研究現(xiàn)狀11-13
- 1.2.2 國內(nèi)研究概況13-14
- 1.3 本課題研究的主要內(nèi)容14-16
- 1.3.1 課題來源14-15
- 1.3.2 課題的主要研究內(nèi)容15-16
- 第2章 失衡數(shù)據(jù)集分類問題16-24
- 2.1 失衡數(shù)據(jù)集分類問題概述16-17
- 2.2 失衡數(shù)據(jù)集分類困難的原因分析17-18
- 2.3 解決失衡數(shù)據(jù)集分類問題的主要方法18-19
- 2.4 失衡數(shù)據(jù)集分類性能評價指標19-23
- 2.4.1 傳統(tǒng)分類性能評價指標20-21
- 2.4.2 接受者操作特征曲線及 AUC21-23
- 2.5 本章小結23-24
- 第3章 基于聚類簇邊界的采樣方法24-33
- 3.1 數(shù)據(jù)重采樣方法24-25
- 3.2 基于聚類的重采樣方法25-27
- 3.2.1 聚類分析技術概述25-26
- 3.2.2 聚類采樣技術 SBC26-27
- 3.3 密度聚類簇邊界采樣方法27-32
- 3.3.1 密度聚類及 DBSCAN 算法概述27-29
- 3.3.2 密度聚類簇的邊界識別方法29-31
- 3.3.3 密度聚類簇邊界采樣方法31-32
- 3.4 本章小結32-33
- 第4章 集成學習的失衡數(shù)據(jù)集分類方法33-47
- 4.1 支持向量機33-37
- 4.1.1 支持向量機原理33-35
- 4.1.2 常用核函數(shù)35-36
- 4.1.3 懲罰因子36-37
- 4.2 集成學習方法37-40
- 4.2.1 集成學習基本思想37-38
- 4.2.2 分類器集成方法38-40
- 4.3 實驗與分析40-46
- 4.3.1 實驗數(shù)據(jù)選取40
- 4.3.2 聚類簇邊界采樣實驗與分析40-42
- 4.3.3 聚類簇邊界采樣分類效果分析42-45
- 4.3.4 集成學習方法實驗與分析45-46
- 4.4 本章小結46-47
- 第5章 失衡數(shù)據(jù)集分類問題在電信客戶關系管理中的應用47-53
- 5.1 電信客戶關系47-48
- 5.2 需求分析48-49
- 5.2.1 系統(tǒng)用途48
- 5.2.2 功能需求48-49
- 5.3 總體設計49-50
- 5.3.1 總體架構49-50
- 5.3.2 軟/硬件需求50
- 5.4 模塊設計50-52
- 5.5 本章小結52-53
- 結論53-54
- 參考文獻54-60
- 攻讀碩士學位期間發(fā)表的學術論文60-61
- 致謝61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 謝紀剛;裘正定;;非平衡數(shù)據(jù)集Fisher線性判別模型[J];北京交通大學學報;2006年05期
2 李鵬;王曉龍;劉遠超;王寶勛;;一種基于混合策略的失衡數(shù)據(jù)集分類方法[J];電子學報;2007年11期
3 曾志強;吳群;廖備水;高濟;;一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J];電子學報;2009年11期
4 郝秀蘭;陶曉鵬;徐和祥;胡運發(fā);;kNN文本分類器類偏斜問題的一種處理對策[J];計算機研究與發(fā)展;2009年01期
5 肖健華;吳今培;;樣本數(shù)目不對稱時的SVM模型[J];計算機科學;2003年02期
6 劉靜,鐘偉才,劉芳焦,李成;組織協(xié)同進化分類算法[J];計算機學報;2003年04期
7 李雄飛;李軍;董元方;屈成偉;;一種新的不平衡數(shù)據(jù)學習算法PCBoost[J];計算機學報;2012年02期
8 秦鋒;楊波;程澤凱;;分類器性能評價標準研究[J];計算機技術與發(fā)展;2006年10期
9 曠嶺;;電信客戶流失數(shù)據(jù)分析方案設計與應用研究[J];中南林業(yè)科技大學學報;2011年06期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 谷瓊;面向非均衡數(shù)據(jù)集的機器學習及在地學數(shù)據(jù)處理中的應用[D];中國地質(zhì)大學;2009年
本文關鍵詞:面向失衡數(shù)據(jù)集分類問題的研究與應用,由筆耕文化傳播整理發(fā)布。
本文編號:418001
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/418001.html