基于隨機森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用
本文關(guān)鍵詞:基于隨機森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用 出處:《鄭州大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 隨機森林算法 高維不平衡數(shù)據(jù) 決策樹 癌癥診斷
【摘要】:高維不平衡數(shù)據(jù)廣泛存在于現(xiàn)實生活中,如垃圾郵件識別、故障診斷、人臉識別和醫(yī)療診斷等領(lǐng)域。如何對高維不平衡數(shù)據(jù)分類,提升少數(shù)類的識別率是當(dāng)今機器學(xué)習(xí)領(lǐng)域重點研究課題之一。隨機森林算法是Breman提出的一種集成學(xué)習(xí)算法,該算法通過組合多棵決策樹對數(shù)據(jù)進行預(yù)測。隨機森林算法提出后憑借良好的性能在很多領(lǐng)域得到了廣泛應(yīng)用。但是隨機森林算法對高維不平衡數(shù)據(jù)分類時,會產(chǎn)生分類性能下降,決策樹規(guī)模大等問題。本文針對隨機森林算法在高維不平衡數(shù)據(jù)分類中存在的問題,從數(shù)據(jù)層面和算法層面分別對隨機森林算法進行研究與改進,本文的主要研究工作包括:(1)針對高維不平衡數(shù)據(jù)的類間不平衡問題提出DESMOTE算法。該算法是數(shù)據(jù)層面上的數(shù)據(jù)平衡方法,改善了傳統(tǒng)SMOTE算法易造成邊界模糊的問題。并在此基礎(chǔ)上提出了DESMOTE-RF算法,以AUC值作為隨機森林算法最后投票決策時的權(quán)值,使算法在分類預(yù)測時將原有的多數(shù)投票法改為加權(quán)投票法,以此來提高隨機森林算法在不平衡數(shù)據(jù)分類中的性能。(2)針對高維不平衡數(shù)據(jù)分類,在DESMOTE-RF算法的基礎(chǔ)上提出了DLPP-RF算法和D-SR-RF算法。在這兩個算法中決策樹的每個節(jié)點分裂之前,通過LPP或SR映射的方法將該節(jié)點數(shù)據(jù)映射到其它屬性空間中,在該屬性空間中能快速尋找到最優(yōu)分裂特征及最佳分裂點,得到原始屬性空間中近似最優(yōu)的決策樹分類器。這兩個算法大幅縮短了隨機森林算法中決策樹的構(gòu)建時間,減少決策樹的構(gòu)建規(guī)模,增加決策樹之間的差異性以及明顯提高了隨機森林算法的AUC值、G-means值和F-measure值。(3)最后將本文提出的D-LPP-RF和D-SR-RF算法用于癌癥診斷中;虮磉_數(shù)據(jù)的興起為癌癥診斷提供了新的診斷方式,基因表達數(shù)據(jù)具有高維、不平衡以及樣本數(shù)量少等特點。將本文提出的算法應(yīng)用在基因表達數(shù)據(jù)分類中,并與原始隨機森林算法和三個在基因表達數(shù)據(jù)分類上性能表現(xiàn)良好的算法進行對比,驗證D-LPP-RF和D-SR-RF算法在基因表達數(shù)據(jù)上的分類性能。
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP181
【相似文獻】
相關(guān)期刊論文 前10條
1 李建更;高志坤;;隨機森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報;2009年01期
2 劉足華;熊惠霖;;基于隨機森林的目標(biāo)檢測與定位[J];計算機工程;2012年13期
3 董師師;黃哲學(xué);;隨機森林理論淺析[J];集成技術(shù);2013年01期
4 王象剛;;基于K均值隨機森林快速算法及入侵檢測中的應(yīng)用[J];科技通報;2013年08期
5 陳姝;彭小寧;;基于粒子濾波和在線隨機森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(自然科學(xué)版);2014年02期
6 羅知林;陳挺;蔡皖東;;一個基于隨機森林的微博轉(zhuǎn)發(fā)預(yù)測算法[J];計算機科學(xué);2014年04期
7 王麗婷;丁曉青;方馳;;基于隨機森林的人臉關(guān)鍵點精確定位方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年04期
8 李建更;高志坤;;隨機森林針對小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計算機工程與應(yīng)用;2009年26期
9 張建;武東英;劉慧生;;基于隨機森林的流量分類方法[J];信息工程大學(xué)學(xué)報;2012年05期
10 吳華芹;;基于訓(xùn)練集劃分的隨機森林算法[J];科技通報;2013年10期
相關(guān)會議論文 前10條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學(xué)討論會論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計學(xué)年會會議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應(yīng)用[A];第八屆全國轉(zhuǎn)子動力學(xué)學(xué)術(shù)討論會論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
8 尹冀鋒;;一種新的圖象自適應(yīng)增強算法[A];四川省通信學(xué)會一九九二年學(xué)術(shù)年會論文集[C];1992年
9 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計算機輔助增強、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價值[A];中華醫(yī)學(xué)會第十次全國超聲醫(yī)學(xué)學(xué)術(shù)會議論文匯編[C];2009年
10 謝麗聰;;SVB查詢改寫算法的改進[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
相關(guān)重要報紙文章 前1條
1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報;2010年
相關(guān)博士學(xué)位論文 前10條
1 張乾;基于隨機森林的視覺數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年
2 薛小明;基于時頻分析與特征約簡的水電機組故障診斷方法研究[D];華中科技大學(xué);2016年
3 曹正鳳;隨機森林算法優(yōu)化研究[D];首都經(jīng)濟貿(mào)易大學(xué);2014年
4 雷震;隨機森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
5 岳明;基于隨機森林和規(guī)則集成法的酒類市場預(yù)測與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
6 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
7 許玉杰;云計算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年
8 李琰;基于貓群算法的高光譜遙感森林類型識別研究[D];東北林業(yè)大學(xué);2015年
9 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年
10 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 楊浩宇;基于隨機森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用[D];鄭州大學(xué);2017年
2 錢維;藥品不良反應(yīng)監(jiān)測中隨機森林方法的建立與實現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
3 韓燕龍;基于隨機森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
4 賀捷;隨機森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
5 張文婷;交通環(huán)境下基于改進霍夫森林的目標(biāo)檢測與跟蹤[D];華南理工大學(xué);2015年
6 李強;基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測[D];南京理工大學(xué);2015年
7 朱玟謙;一種收斂性隨機森林在人臉檢測中的應(yīng)用研究[D];武漢理工大學(xué);2015年
8 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學(xué);2014年
9 李慧;一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
10 趙亞紅;面向多類標(biāo)分類的隨機森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
,本文編號:1321993
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1321993.html