一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類
本文關(guān)鍵詞:一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類
更多相關(guān)文章: 不均衡數(shù)據(jù) 特征提取 分類 石油儲(chǔ)層
【摘要】:針對(duì)多類別不均衡數(shù)據(jù)的分類問題,從數(shù)據(jù)集的特征選擇和集成學(xué)習(xí)兩個(gè)角度出發(fā),提出了一種新的針對(duì)不均衡數(shù)據(jù)的分類方法—BPSO-Adaboost-KNN算法,算法采用基于多分類問題的可視化的AUCarea作為分類評(píng)價(jià)指標(biāo).為了測(cè)試算法的性能,本文選取了10組UCI和KEEL選取的測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果表明本算法在有效提取關(guān)鍵特征后提高了Adaboost的穩(wěn)定性,在十組數(shù)據(jù)的分類精度上相比單純使用KNN分類器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分類算法對(duì)比中,BPSO-Adaboost-KNN能夠取得較優(yōu)或相當(dāng)?shù)慕Y(jié)果.最后,本文將該算法應(yīng)用到石油儲(chǔ)層含油性的識(shí)別中,成功提取了聲波、孔隙度和含油飽和度三個(gè)關(guān)鍵屬性,在分類精度上相比傳統(tǒng)分類算法有了大幅度提高,在江漢油田五口油井oilsk81~oilsk85上的分類精度均達(dá)到98%以上,比單純使用KNN的精度高出了20%,尤其在最易錯(cuò)分的油層和差油層中有良好的分類效果.
【作者單位】: 中國(guó)地質(zhì)大學(xué)經(jīng)濟(jì)管理學(xué)院;中國(guó)地質(zhì)大學(xué)數(shù)字化商務(wù)與智能管理研究中心;
【基金】:國(guó)家自然科學(xué)基金(71103163,71103164,71301153,71573237) 教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(NCET-13-1012) 中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(CUG120111,CUG110411,G2012002A,CUG140604) 構(gòu)造與油氣資源教育部重點(diǎn)實(shí)驗(yàn)室開放課題(TPR-2011-11)~~
【分類號(hào)】:TP391.4
【正文快照】: i引言分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的重點(diǎn)研究?jī)?nèi)容,目前相關(guān)的分類方法已經(jīng)非常成熟,如傳統(tǒng)的決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機(jī)等.但這些分類方法在處理不均衡數(shù)據(jù)分類時(shí)的表現(xiàn)往往比在類別均衡的數(shù)據(jù)差,不能達(dá)到理想的分類效果.所謂不均衡數(shù)據(jù)是指在數(shù)據(jù)集中某個(gè)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 袁漢寧;;雙層多示例集成學(xué)習(xí)[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2011年05期
2 俞揚(yáng);周志華;;集成學(xué)習(xí)中完全隨機(jī)學(xué)習(xí)策略研究[J];計(jì)算機(jī)工程;2006年17期
3 張滄生;崔麗娟;楊剛;倪志宏;;集成學(xué)習(xí)算法的比較研究[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
4 陳凱;;基于聚類技術(shù)的集成學(xué)習(xí)差異性研究[J];南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年04期
5 李凱;崔麗娟;;集成學(xué)習(xí)算法的差異性及性能比較[J];計(jì)算機(jī)工程;2008年06期
6 潘志松;燕繼坤;;少數(shù)類的集成學(xué)習(xí)[J];南京航空航天大學(xué)學(xué)報(bào);2009年04期
7 陳凱;馬景義;;一種選擇性SER-BagBoosting Trees集成學(xué)習(xí)研究[J];計(jì)算機(jī)科學(xué);2009年09期
8 陳全;趙文輝;李潔;江雨燕;;選擇性集成學(xué)習(xí)算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年02期
9 張燕平;曹振田;趙姝;鄭堯軍;杜玲;竇蓉蓉;;一種新的決策樹選擇性集成學(xué)習(xí)方法[J];計(jì)算機(jī)工程與應(yīng)用;2010年17期
10 饒峰;;核機(jī)器集成學(xué)習(xí)算法的誤差分析[J];重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 關(guān)菁華;劉大有;賈海洋;;自適應(yīng)多分類器集成學(xué)習(xí)算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
2 劉伍穎;王挺;;一種多過濾器集成學(xué)習(xí)垃圾郵件過濾方法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 葉紅云;倪志偉;陳恩紅;;一種混合型集成學(xué)習(xí)演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
4 李燁;蔡云澤;許曉鳴;;基于支持向量機(jī)集成的故障診斷[A];第16屆中國(guó)過程控制學(xué)術(shù)年會(huì)暨第4屆全國(guó)故障診斷與安全性學(xué)術(shù)會(huì)議論文集[C];2005年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 阿里木·賽買提(Alim.Samat);基于集成學(xué)習(xí)的全極化SAR圖像分類研究[D];南京大學(xué);2015年
2 張春霞;集成學(xué)習(xí)中有關(guān)算法的研究[D];西安交通大學(xué);2010年
3 劉天羽;基于特征選擇技術(shù)的集成學(xué)習(xí)方法及其應(yīng)用研究[D];上海大學(xué);2007年
4 尹華;面向高維和不平衡數(shù)據(jù)分類的集成學(xué)習(xí)研究[D];武漢大學(xué);2012年
5 王清;集成學(xué)習(xí)中若干關(guān)鍵問題的研究[D];復(fù)旦大學(xué);2011年
6 方育柯;集成學(xué)習(xí)理論研究及其在個(gè)性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年
7 侯勇;特征提取與集成學(xué)習(xí)算法的研究及應(yīng)用[D];北京科技大學(xué);2015年
8 李燁;基于支持向量機(jī)的集成學(xué)習(xí)研究[D];上海交通大學(xué);2007年
9 程麗麗;支持向量機(jī)集成學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2009年
10 林智勇;基于核方法的不平衡數(shù)據(jù)學(xué)習(xí)[D];華南理工大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高偉;基于半監(jiān)督集成學(xué)習(xí)的情感分類方法研究[D];蘇州大學(xué);2015年
2 宋文展;基于抽樣的集成進(jìn)化算法研究[D];廣西大學(xué);2015年
3 湯瑩;遷移與集成學(xué)習(xí)在文本分類中的應(yīng)用研究[D];江蘇科技大學(xué);2015年
4 劉政;基于知識(shí)元和集成學(xué)習(xí)的中文微博情感分析[D];大連理工大學(xué);2015年
5 張妤;支持向量機(jī)集成學(xué)習(xí)方法研究[D];山西大學(xué);2008年
6 李濤;基于條件互信息的集成學(xué)習(xí)的研究與應(yīng)用[D];中國(guó)海洋大學(xué);2009年
7 楊長(zhǎng)盛;基于成對(duì)差異性度量的選擇性集成學(xué)習(xí)方法研究[D];安徽大學(xué);2010年
8 曹振田;基于Q統(tǒng)計(jì)量的選擇性集成學(xué)習(xí)研究[D];安徽大學(xué);2010年
9 王麗麗;集成學(xué)習(xí)算法研究[D];廣西大學(xué);2006年
10 馬冉冉;集成學(xué)習(xí)算法研究[D];山東科技大學(xué);2010年
,本文編號(hào):1167691
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1167691.html