不平衡模糊加權(quán)極限學習機及其集成方法研究
本文關(guān)鍵詞:不平衡模糊加權(quán)極限學習機及其集成方法研究
更多相關(guān)文章: 不平衡數(shù)據(jù) 分類 極限學習機 模糊加權(quán) 集成學習
【摘要】:隨著信息科學技術(shù)的迅猛發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲都變的極為簡單快捷,如何從如此海量的數(shù)據(jù)中提取出有用的信息和知識,成為人們亟待解決的問題。數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,它的目的就是從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的知識與信息,有效提高了閑置數(shù)據(jù)的利用率。分類任務(wù),即確定樣本屬于哪一預(yù)定義的目標類,是數(shù)據(jù)挖掘的核心技術(shù)之一。目前,分類技術(shù)的發(fā)展已經(jīng)趨于成熟,各類算法都有各自的優(yōu)異表現(xiàn),但是傳統(tǒng)的分類算法多數(shù)是基于平衡數(shù)據(jù)集學習構(gòu)造模型的。而實際應(yīng)用中存在著大量不平衡數(shù)據(jù)集的情況,即數(shù)據(jù)類別分布嚴重失衡,有價值的樣本所占比例相對較小,如醫(yī)療診斷、識別信用卡欺詐、文本分類和醫(yī)藥檢測。傳統(tǒng)的分類算法在處理不平衡數(shù)據(jù)集時,往往會將少數(shù)類樣本錯分為多數(shù)類樣本類別,導(dǎo)致我們重視的少數(shù)類樣本分類精度很低。極限學習機是近幾年興起的一種快速學習算法,其體現(xiàn)出了訓練速度快、泛化能力強等優(yōu)點。但是,當其用于解決不平衡分類問題時,同樣受到數(shù)據(jù)不平衡分布的影響,從而得出較差的分類結(jié)果。針對這一問題,本文的主要工作如下:(1)類不平衡模糊加權(quán)極限學習機研究:通過結(jié)合不平衡數(shù)據(jù)集的分布特點及極限學習機的構(gòu)造機理,從理論上論證類不平衡分布對極限學習機產(chǎn)生的負面影響,并探討了不平衡比率、類覆蓋、樣本規(guī)模及噪聲等因素對其性能的影響機制。進一步,充分挖掘并耦合訓練數(shù)據(jù)的先驗分布信息,從代價敏感加權(quán)的角度提出了類不平衡模糊加權(quán)極限學習機算法。實驗結(jié)果表明,與加權(quán)極限學習機及幾種傳統(tǒng)的類不平衡極限學習機算法相比,模糊加權(quán)極限學習機可明顯獲得更優(yōu)的分類性能。而與模糊加權(quán)支持向量機系列算法相比,其可獲得與之相當?shù)姆诸愋阅?但時間開銷卻要更小。(2)基于Bagging集成的類不平衡模糊加權(quán)極限學習機研究:分析了類不平衡模糊加權(quán)極限學習機算法可能存在不穩(wěn)定和過適應(yīng)的問題,通過引入Bagging集成學習框架,以同構(gòu)集成的方式將FWELM分類器嵌入到Bagging集成學習模型中,構(gòu)造出了Bag-FWELM系列算法。通過實驗證明,Bag-FWELM系列算法是更加精確、魯棒與高效的類不平衡極限學習算法。
【關(guān)鍵詞】:不平衡數(shù)據(jù) 分類 極限學習機 模糊加權(quán) 集成學習
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181;TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-17
- 1.1 研究背景和意義9-10
- 1.2 不平衡數(shù)據(jù)分類面臨的困難10-11
- 1.3 國內(nèi)外研究現(xiàn)狀及分析11-15
- 1.3.1 類不平衡學習11-13
- 1.3.2 極限學習機13-14
- 1.3.3 類不平衡極限學習機14-15
- 1.4 本文的主要內(nèi)容15-16
- 1.5 本文的組織結(jié)構(gòu)16-17
- 第二章 不平衡數(shù)據(jù)分類研究基礎(chǔ)17-33
- 2.1 極限學習機17-23
- 2.1.1 極限學習機理論模型17-20
- 2.1.2 極限學習機的算法步驟20
- 2.1.3 極限學習機優(yōu)缺點20-21
- 2.1.4 極限學習機性能評估21-23
- 2.2 加權(quán)極限學習機23-25
- 2.2.1 不平衡數(shù)據(jù)集對極限學習機性能的影響23-25
- 2.2.2 加權(quán)極限學習機理論模型25
- 2.3 集成學習25-30
- 2.3.1 集成學習的產(chǎn)生和發(fā)展25-26
- 2.3.2 集成學習的框架26-27
- 2.3.3 AdaBoost算法27-29
- 2.3.4 Bagging算法29-30
- 2.4 不平衡數(shù)據(jù)分類的性能評價30-32
- 2.4.1 F-measure和G-means30-31
- 2.4.2 ROC曲線31-32
- 2.5 本章小結(jié)32-33
- 第三章 類不平衡模糊加權(quán)極限學習機33-45
- 3.0 引言33
- 3.1 類不平衡分布對ELM性能影響理論分析33-35
- 3.2 WELM的有效性理論分析35
- 3.3 類不平衡模糊加權(quán)極限學習機算法35-39
- 3.3.1 算法基本思想35-36
- 3.3.2 隸屬函數(shù)的設(shè)計36-37
- 3.3.3 算法描述37-39
- 3.4 實驗結(jié)果與討論39-43
- 3.4.1 數(shù)據(jù)集與參數(shù)設(shè)置39
- 3.4.2 結(jié)果與討論39-43
- 3.5 本章小結(jié)43-45
- 第四章 基于Bagging集成的類不平衡模糊加權(quán)極限學習機45-53
- 4.1 引言45
- 4.2 集成學習基礎(chǔ)理論概述45-47
- 4.2.1 集成學習有效性分析45-46
- 4.2.2 基分類器FWELM差異度構(gòu)造策略46
- 4.2.3 極限學習機集成學習算法回顧46-47
- 4.3 基于Bagging的FWELM集成算法47-48
- 4.3.1 算法基本思想47
- 4.3.2 算法描述及流程圖47-48
- 4.4 實驗結(jié)果與討論48-52
- 4.4.1 數(shù)據(jù)集與參數(shù)設(shè)置48
- 4.4.2 結(jié)果與討論48-52
- 4.5 本章小結(jié)52-53
- 第五章 總結(jié)與展望53-55
- 5.1 本文研究內(nèi)容總結(jié)53
- 5.2 進一步工作展望53-55
- 致謝55-57
- 參考文獻57-63
- 作者簡介63
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳東軍,黃平,劉景宇;基于單片機的皮革面積模糊加權(quán)測量法[J];北方交通大學學報;1999年01期
2 周麗娟;王加陽;;基于子集測度的模糊加權(quán)指數(shù)進化計算方法[J];計算機工程與設(shè)計;2011年05期
3 杜北;李偉華;史豪斌;;一種新的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘算法[J];計算機工程;2008年20期
4 李正,宋保維,毛昭勇;無失效指數(shù)分布參數(shù)的模糊加權(quán)最小二乘估計[J];系統(tǒng)仿真學報;2005年06期
5 亢海力;王來生;蔡永旺;;基于概率的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘[J];計算機應(yīng)用;2006年S1期
6 方汝云,范植華,王勇;模糊加權(quán)知識及其在輔助決策決心案綜合評判中的應(yīng)用[J];計算機工程與應(yīng)用;2003年03期
7 張輝;朱玉冉;王培峰;;基于預(yù)測的多模型模糊加權(quán)控制[J];輕工機械;2008年04期
8 肖滿生;陽娣蘭;張居武;唐文評;;基于模糊相關(guān)度的模糊C均值聚類加權(quán)指數(shù)研究[J];計算機應(yīng)用;2010年12期
9 朱華勇;張慶杰;沈林成;;基于模糊加權(quán)的多模態(tài)切換控制器設(shè)計與仿真[J];系統(tǒng)仿真學報;2007年18期
10 周剛;賈振紅;覃錫忠;;一種新的圖像去噪混合濾波方法[J];激光雜志;2007年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 焦永;趙銳;陳躍躍;;基于模糊加權(quán)的動態(tài)自適應(yīng)分支預(yù)測算法研究[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學與技術(shù)應(yīng)用(CACIS)學術(shù)會議論文集(下冊)[C];2006年
2 馬蓓蓓;梁德群;;一種改進的模糊加權(quán)去噪濾波器[A];第十二屆全國圖象圖形學學術(shù)會議論文集[C];2005年
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 姚喬兵;不平衡模糊加權(quán)極限學習機及其集成方法研究[D];東南大學;2016年
2 趙紅海;基于自適應(yīng)模糊加權(quán)的圖像去噪[D];首都師范大學;2008年
,本文編號:1065762
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1065762.html