基于隨機(jī)森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用
本文關(guān)鍵詞:基于隨機(jī)森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用 出處:《鄭州大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 隨機(jī)森林算法 高維不平衡數(shù)據(jù) 決策樹(shù) 癌癥診斷
【摘要】:高維不平衡數(shù)據(jù)廣泛存在于現(xiàn)實(shí)生活中,如垃圾郵件識(shí)別、故障診斷、人臉識(shí)別和醫(yī)療診斷等領(lǐng)域。如何對(duì)高維不平衡數(shù)據(jù)分類,提升少數(shù)類的識(shí)別率是當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域重點(diǎn)研究課題之一。隨機(jī)森林算法是Breman提出的一種集成學(xué)習(xí)算法,該算法通過(guò)組合多棵決策樹(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。隨機(jī)森林算法提出后憑借良好的性能在很多領(lǐng)域得到了廣泛應(yīng)用。但是隨機(jī)森林算法對(duì)高維不平衡數(shù)據(jù)分類時(shí),會(huì)產(chǎn)生分類性能下降,決策樹(shù)規(guī)模大等問(wèn)題。本文針對(duì)隨機(jī)森林算法在高維不平衡數(shù)據(jù)分類中存在的問(wèn)題,從數(shù)據(jù)層面和算法層面分別對(duì)隨機(jī)森林算法進(jìn)行研究與改進(jìn),本文的主要研究工作包括:(1)針對(duì)高維不平衡數(shù)據(jù)的類間不平衡問(wèn)題提出DESMOTE算法。該算法是數(shù)據(jù)層面上的數(shù)據(jù)平衡方法,改善了傳統(tǒng)SMOTE算法易造成邊界模糊的問(wèn)題。并在此基礎(chǔ)上提出了DESMOTE-RF算法,以AUC值作為隨機(jī)森林算法最后投票決策時(shí)的權(quán)值,使算法在分類預(yù)測(cè)時(shí)將原有的多數(shù)投票法改為加權(quán)投票法,以此來(lái)提高隨機(jī)森林算法在不平衡數(shù)據(jù)分類中的性能。(2)針對(duì)高維不平衡數(shù)據(jù)分類,在DESMOTE-RF算法的基礎(chǔ)上提出了DLPP-RF算法和D-SR-RF算法。在這兩個(gè)算法中決策樹(shù)的每個(gè)節(jié)點(diǎn)分裂之前,通過(guò)LPP或SR映射的方法將該節(jié)點(diǎn)數(shù)據(jù)映射到其它屬性空間中,在該屬性空間中能快速尋找到最優(yōu)分裂特征及最佳分裂點(diǎn),得到原始屬性空間中近似最優(yōu)的決策樹(shù)分類器。這兩個(gè)算法大幅縮短了隨機(jī)森林算法中決策樹(shù)的構(gòu)建時(shí)間,減少?zèng)Q策樹(shù)的構(gòu)建規(guī)模,增加決策樹(shù)之間的差異性以及明顯提高了隨機(jī)森林算法的AUC值、G-means值和F-measure值。(3)最后將本文提出的D-LPP-RF和D-SR-RF算法用于癌癥診斷中;虮磉_(dá)數(shù)據(jù)的興起為癌癥診斷提供了新的診斷方式,基因表達(dá)數(shù)據(jù)具有高維、不平衡以及樣本數(shù)量少等特點(diǎn)。將本文提出的算法應(yīng)用在基因表達(dá)數(shù)據(jù)分類中,并與原始隨機(jī)森林算法和三個(gè)在基因表達(dá)數(shù)據(jù)分類上性能表現(xiàn)良好的算法進(jìn)行對(duì)比,驗(yàn)證D-LPP-RF和D-SR-RF算法在基因表達(dá)數(shù)據(jù)上的分類性能。
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李建更;高志坤;;隨機(jī)森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報(bào);2009年01期
2 劉足華;熊惠霖;;基于隨機(jī)森林的目標(biāo)檢測(cè)與定位[J];計(jì)算機(jī)工程;2012年13期
3 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期
4 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期
5 陳姝;彭小寧;;基于粒子濾波和在線隨機(jī)森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
6 羅知林;陳挺;蔡皖東;;一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J];計(jì)算機(jī)科學(xué);2014年04期
7 王麗婷;丁曉青;方馳;;基于隨機(jī)森林的人臉關(guān)鍵點(diǎn)精確定位方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
8 李建更;高志坤;;隨機(jī)森林針對(duì)小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期
9 張建;武東英;劉慧生;;基于隨機(jī)森林的流量分類方法[J];信息工程大學(xué)學(xué)報(bào);2012年05期
10 吳華芹;;基于訓(xùn)練集劃分的隨機(jī)森林算法[J];科技通報(bào);2013年10期
相關(guān)會(huì)議論文 前10條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹(shù)的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
8 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年
9 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年
10 謝麗聰;;SVB查詢改寫(xiě)算法的改進(jìn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
相關(guān)重要報(bào)紙文章 前1條
1 國(guó)泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 張乾;基于隨機(jī)森林的視覺(jué)數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年
2 薛小明;基于時(shí)頻分析與特征約簡(jiǎn)的水電機(jī)組故障診斷方法研究[D];華中科技大學(xué);2016年
3 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
4 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
5 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
6 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
7 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年
8 李琰;基于貓群算法的高光譜遙感森林類型識(shí)別研究[D];東北林業(yè)大學(xué);2015年
9 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年
10 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 楊浩宇;基于隨機(jī)森林算法的高維不平衡數(shù)據(jù)分類研究及應(yīng)用[D];鄭州大學(xué);2017年
2 錢(qián)維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
3 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
4 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
5 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年
6 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年
7 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年
8 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年
9 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
10 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
,本文編號(hào):1321993
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1321993.html