不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)及其集成方法研究
本文關(guān)鍵詞:不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)及其集成方法研究
更多相關(guān)文章: 不平衡數(shù)據(jù) 分類 極限學(xué)習(xí)機(jī) 模糊加權(quán) 集成學(xué)習(xí)
【摘要】:隨著信息科學(xué)技術(shù)的迅猛發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)都變的極為簡單快捷,如何從如此海量的數(shù)據(jù)中提取出有用的信息和知識(shí),成為人們亟待解決的問題。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,它的目的就是從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的知識(shí)與信息,有效提高了閑置數(shù)據(jù)的利用率。分類任務(wù),即確定樣本屬于哪一預(yù)定義的目標(biāo)類,是數(shù)據(jù)挖掘的核心技術(shù)之一。目前,分類技術(shù)的發(fā)展已經(jīng)趨于成熟,各類算法都有各自的優(yōu)異表現(xiàn),但是傳統(tǒng)的分類算法多數(shù)是基于平衡數(shù)據(jù)集學(xué)習(xí)構(gòu)造模型的。而實(shí)際應(yīng)用中存在著大量不平衡數(shù)據(jù)集的情況,即數(shù)據(jù)類別分布嚴(yán)重失衡,有價(jià)值的樣本所占比例相對(duì)較小,如醫(yī)療診斷、識(shí)別信用卡欺詐、文本分類和醫(yī)藥檢測。傳統(tǒng)的分類算法在處理不平衡數(shù)據(jù)集時(shí),往往會(huì)將少數(shù)類樣本錯(cuò)分為多數(shù)類樣本類別,導(dǎo)致我們重視的少數(shù)類樣本分類精度很低。極限學(xué)習(xí)機(jī)是近幾年興起的一種快速學(xué)習(xí)算法,其體現(xiàn)出了訓(xùn)練速度快、泛化能力強(qiáng)等優(yōu)點(diǎn)。但是,當(dāng)其用于解決不平衡分類問題時(shí),同樣受到數(shù)據(jù)不平衡分布的影響,從而得出較差的分類結(jié)果。針對(duì)這一問題,本文的主要工作如下:(1)類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)研究:通過結(jié)合不平衡數(shù)據(jù)集的分布特點(diǎn)及極限學(xué)習(xí)機(jī)的構(gòu)造機(jī)理,從理論上論證類不平衡分布對(duì)極限學(xué)習(xí)機(jī)產(chǎn)生的負(fù)面影響,并探討了不平衡比率、類覆蓋、樣本規(guī)模及噪聲等因素對(duì)其性能的影響機(jī)制。進(jìn)一步,充分挖掘并耦合訓(xùn)練數(shù)據(jù)的先驗(yàn)分布信息,從代價(jià)敏感加權(quán)的角度提出了類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)算法。實(shí)驗(yàn)結(jié)果表明,與加權(quán)極限學(xué)習(xí)機(jī)及幾種傳統(tǒng)的類不平衡極限學(xué)習(xí)機(jī)算法相比,模糊加權(quán)極限學(xué)習(xí)機(jī)可明顯獲得更優(yōu)的分類性能。而與模糊加權(quán)支持向量機(jī)系列算法相比,其可獲得與之相當(dāng)?shù)姆诸愋阅?但時(shí)間開銷卻要更小。(2)基于Bagging集成的類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)研究:分析了類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)算法可能存在不穩(wěn)定和過適應(yīng)的問題,通過引入Bagging集成學(xué)習(xí)框架,以同構(gòu)集成的方式將FWELM分類器嵌入到Bagging集成學(xué)習(xí)模型中,構(gòu)造出了Bag-FWELM系列算法。通過實(shí)驗(yàn)證明,Bag-FWELM系列算法是更加精確、魯棒與高效的類不平衡極限學(xué)習(xí)算法。
【關(guān)鍵詞】:不平衡數(shù)據(jù) 分類 極限學(xué)習(xí)機(jī) 模糊加權(quán) 集成學(xué)習(xí)
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181;TP311.13
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-17
- 1.1 研究背景和意義9-10
- 1.2 不平衡數(shù)據(jù)分類面臨的困難10-11
- 1.3 國內(nèi)外研究現(xiàn)狀及分析11-15
- 1.3.1 類不平衡學(xué)習(xí)11-13
- 1.3.2 極限學(xué)習(xí)機(jī)13-14
- 1.3.3 類不平衡極限學(xué)習(xí)機(jī)14-15
- 1.4 本文的主要內(nèi)容15-16
- 1.5 本文的組織結(jié)構(gòu)16-17
- 第二章 不平衡數(shù)據(jù)分類研究基礎(chǔ)17-33
- 2.1 極限學(xué)習(xí)機(jī)17-23
- 2.1.1 極限學(xué)習(xí)機(jī)理論模型17-20
- 2.1.2 極限學(xué)習(xí)機(jī)的算法步驟20
- 2.1.3 極限學(xué)習(xí)機(jī)優(yōu)缺點(diǎn)20-21
- 2.1.4 極限學(xué)習(xí)機(jī)性能評(píng)估21-23
- 2.2 加權(quán)極限學(xué)習(xí)機(jī)23-25
- 2.2.1 不平衡數(shù)據(jù)集對(duì)極限學(xué)習(xí)機(jī)性能的影響23-25
- 2.2.2 加權(quán)極限學(xué)習(xí)機(jī)理論模型25
- 2.3 集成學(xué)習(xí)25-30
- 2.3.1 集成學(xué)習(xí)的產(chǎn)生和發(fā)展25-26
- 2.3.2 集成學(xué)習(xí)的框架26-27
- 2.3.3 AdaBoost算法27-29
- 2.3.4 Bagging算法29-30
- 2.4 不平衡數(shù)據(jù)分類的性能評(píng)價(jià)30-32
- 2.4.1 F-measure和G-means30-31
- 2.4.2 ROC曲線31-32
- 2.5 本章小結(jié)32-33
- 第三章 類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)33-45
- 3.0 引言33
- 3.1 類不平衡分布對(duì)ELM性能影響理論分析33-35
- 3.2 WELM的有效性理論分析35
- 3.3 類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)算法35-39
- 3.3.1 算法基本思想35-36
- 3.3.2 隸屬函數(shù)的設(shè)計(jì)36-37
- 3.3.3 算法描述37-39
- 3.4 實(shí)驗(yàn)結(jié)果與討論39-43
- 3.4.1 數(shù)據(jù)集與參數(shù)設(shè)置39
- 3.4.2 結(jié)果與討論39-43
- 3.5 本章小結(jié)43-45
- 第四章 基于Bagging集成的類不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)45-53
- 4.1 引言45
- 4.2 集成學(xué)習(xí)基礎(chǔ)理論概述45-47
- 4.2.1 集成學(xué)習(xí)有效性分析45-46
- 4.2.2 基分類器FWELM差異度構(gòu)造策略46
- 4.2.3 極限學(xué)習(xí)機(jī)集成學(xué)習(xí)算法回顧46-47
- 4.3 基于Bagging的FWELM集成算法47-48
- 4.3.1 算法基本思想47
- 4.3.2 算法描述及流程圖47-48
- 4.4 實(shí)驗(yàn)結(jié)果與討論48-52
- 4.4.1 數(shù)據(jù)集與參數(shù)設(shè)置48
- 4.4.2 結(jié)果與討論48-52
- 4.5 本章小結(jié)52-53
- 第五章 總結(jié)與展望53-55
- 5.1 本文研究內(nèi)容總結(jié)53
- 5.2 進(jìn)一步工作展望53-55
- 致謝55-57
- 參考文獻(xiàn)57-63
- 作者簡介63
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳東軍,黃平,劉景宇;基于單片機(jī)的皮革面積模糊加權(quán)測量法[J];北方交通大學(xué)學(xué)報(bào);1999年01期
2 周麗娟;王加陽;;基于子集測度的模糊加權(quán)指數(shù)進(jìn)化計(jì)算方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年05期
3 杜北;李偉華;史豪斌;;一種新的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)工程;2008年20期
4 李正,宋保維,毛昭勇;無失效指數(shù)分布參數(shù)的模糊加權(quán)最小二乘估計(jì)[J];系統(tǒng)仿真學(xué)報(bào);2005年06期
5 亢海力;王來生;蔡永旺;;基于概率的模糊加權(quán)關(guān)聯(lián)規(guī)則挖掘[J];計(jì)算機(jī)應(yīng)用;2006年S1期
6 方汝云,范植華,王勇;模糊加權(quán)知識(shí)及其在輔助決策決心案綜合評(píng)判中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2003年03期
7 張輝;朱玉冉;王培峰;;基于預(yù)測的多模型模糊加權(quán)控制[J];輕工機(jī)械;2008年04期
8 肖滿生;陽娣蘭;張居武;唐文評(píng);;基于模糊相關(guān)度的模糊C均值聚類加權(quán)指數(shù)研究[J];計(jì)算機(jī)應(yīng)用;2010年12期
9 朱華勇;張慶杰;沈林成;;基于模糊加權(quán)的多模態(tài)切換控制器設(shè)計(jì)與仿真[J];系統(tǒng)仿真學(xué)報(bào);2007年18期
10 周剛;賈振紅;覃錫忠;;一種新的圖像去噪混合濾波方法[J];激光雜志;2007年01期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 焦永;趙銳;陳躍躍;;基于模糊加權(quán)的動(dòng)態(tài)自適應(yīng)分支預(yù)測算法研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2006年
2 馬蓓蓓;梁德群;;一種改進(jìn)的模糊加權(quán)去噪濾波器[A];第十二屆全國圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 姚喬兵;不平衡模糊加權(quán)極限學(xué)習(xí)機(jī)及其集成方法研究[D];東南大學(xué);2016年
2 趙紅海;基于自適應(yīng)模糊加權(quán)的圖像去噪[D];首都師范大學(xué);2008年
,本文編號(hào):1065762
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1065762.html