基于隨機(jī)森林兩階段逐步變量選擇算法的研究及應(yīng)用
本文關(guān)鍵詞:基于隨機(jī)森林兩階段逐步變量選擇算法的研究及應(yīng)用
更多相關(guān)文章: 隨機(jī)森林 變量選擇 變量重要性 回歸分析
【摘要】:隨著多種數(shù)據(jù)自動(dòng)采集技術(shù)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算的快速發(fā)展,在經(jīng)濟(jì)、生物等各領(lǐng)域在迅速積累著大量數(shù)據(jù),由此產(chǎn)生的數(shù)據(jù)維度越來越高。變量數(shù)大大超過樣本數(shù),即“大P小N”問題。隨機(jī)森林是一種常用的高維數(shù)據(jù)處理方法。它運(yùn)行速度快,能有效處理非線性、交互作用、具有相關(guān)性的數(shù)據(jù),一般不會(huì)產(chǎn)生過度擬合。隨機(jī)森林自帶的變量重要性得分評(píng)價(jià)更是隨機(jī)森林算法的一大特點(diǎn),可以應(yīng)用到多種回歸和分類問題,在經(jīng)濟(jì)、生物等各領(lǐng)域都有廣泛研究。因此,本文提出基于隨機(jī)森林兩階段逐步變量選擇的算法(TSRF),主要內(nèi)容如下:1.變量重要性排序改進(jìn)方法:針對(duì)文獻(xiàn)[53]所提出的變量中含有大量噪聲變量以及與所選變量相關(guān)的變量,會(huì)影響真正要被選擇的變量得分問題。本文提出第一階段基于分組的隨機(jī)森林變量重要性排序改進(jìn),目的是進(jìn)一步提高重要變量與噪聲變量的區(qū)分度。利用普通數(shù)據(jù)模擬實(shí)驗(yàn)與生物中的遺傳數(shù)據(jù)模擬實(shí)驗(yàn)來驗(yàn)證方法的有效性和可行性。2.逐步選擇變量改進(jìn)方法:將隨機(jī)森林與逐步選擇變量方法相結(jié)合,提出基于隨機(jī)森林的逐步變量選擇改進(jìn)。對(duì)自變量進(jìn)行篩選,選入與因變量高度相關(guān)的變量,剔除不相關(guān)變量,使得算法建模后的自變量選擇更加準(zhǔn)確。利用普通數(shù)據(jù)模擬實(shí)驗(yàn)與生物中的遺傳數(shù)據(jù)模擬實(shí)驗(yàn)來驗(yàn)證方法的有效性和可行性。其中普通數(shù)據(jù)模擬包含分類數(shù)據(jù)及回歸數(shù)據(jù)。研究不同情況下,樣本數(shù)量N、變量數(shù)目P、變量間的相關(guān)系數(shù)r以及分組數(shù)對(duì)基于兩階段隨機(jī)森林逐步變量選擇的影響。生物中的遺傳數(shù)據(jù)模擬包含單個(gè)數(shù)量性狀基因座模擬與多個(gè)數(shù)量性狀基因座模擬。通過設(shè)定染色體長(zhǎng)度、條數(shù)、數(shù)量性狀基因座位置、標(biāo)記數(shù)量等,來驗(yàn)證基于兩階段隨機(jī)森林逐步變量選擇對(duì)特定遺傳數(shù)據(jù)處理的有效性和可行性。3.對(duì)比分析:對(duì)水稻穗粒數(shù)的實(shí)例數(shù)據(jù)進(jìn)行標(biāo)記選擇實(shí)證研究。將處理后的結(jié)果與SCAD懲罰函數(shù)、彈性網(wǎng)回歸Elastic Net參數(shù)估計(jì)方法的結(jié)果、傳統(tǒng)數(shù)量性狀基因座定位WinQTLcart2.5軟件的運(yùn)行結(jié)果比較,發(fā)現(xiàn)基于隨機(jī)森林兩階段逐步變量選擇算法有較大改進(jìn),能準(zhǔn)確篩選變量;趦呻A段隨機(jī)森林逐步變量選擇的算法對(duì)經(jīng)濟(jì)、生物中高維數(shù)據(jù)的變量選擇具有重要的意義。
【關(guān)鍵詞】:隨機(jī)森林 變量選擇 變量重要性 回歸分析
【學(xué)位授予單位】:福建農(nóng)林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:Q-332;F224
【目錄】:
- 摘要7-8
- Abstract8-10
- 第一章 緒論10-17
- 1.1 研究背景和意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-14
- 1.2.1 應(yīng)用研究進(jìn)展11-12
- 1.2.2 算法改進(jìn)研究進(jìn)展12-14
- 1.3 研究方法與思路14-17
- 1.3.1 本文的研究?jī)?nèi)容14-15
- 1.3.2 本文擬解決的關(guān)鍵問題15-17
- 第二章 基礎(chǔ)理論方法17-22
- 2 基礎(chǔ)理論方法17-22
- 2.1 隨機(jī)森林理論方法17-21
- 2.1.1 隨機(jī)森林算法思想17-19
- 2.1.2 CART算法19-20
- 2.1.3 隨機(jī)森林變量重要性20-21
- 2.2 隨機(jī)森林的特點(diǎn)21-22
- 第三章 方法對(duì)比分析22-27
- 3.1 預(yù)備知識(shí)22-24
- 3.2 模擬實(shí)驗(yàn)24-27
- 第四章 變量重要性排序改進(jìn)27-48
- 4.1 算法介紹27-28
- 4.2 模擬實(shí)驗(yàn)28-45
- 4.2.1 回歸模擬實(shí)驗(yàn)及其結(jié)果分析29-38
- 4.2.2 分類模擬實(shí)驗(yàn)及其結(jié)果分析38-45
- 4.3 遺傳數(shù)據(jù)模擬實(shí)驗(yàn)45-48
- 4.3.1 單個(gè)QTL的模擬45-47
- 4.3.2 多個(gè)QTL的模擬47-48
- 第五章 逐步變量選擇改進(jìn)48-57
- 5.1 算法介紹48-50
- 5.2 模擬實(shí)驗(yàn)50-54
- 5.2.1 回歸模擬實(shí)驗(yàn)及其結(jié)果分析50-52
- 5.2.2 分類模擬實(shí)驗(yàn)及其結(jié)果分析52-54
- 5.3 遺傳數(shù)據(jù)模擬實(shí)驗(yàn)54-57
- 5.3.1 單個(gè)QTL的模擬54
- 5.3.2 多個(gè)QTL的模擬54-57
- 第六章 實(shí)例分析與對(duì)比評(píng)價(jià)57-61
- 6.1 水稻穗粒數(shù)雜種優(yōu)勢(shì)實(shí)例分析57-58
- 6.2 方法對(duì)比分析58-61
- 第七章 總結(jié)與展望61-65
- 7.1 本文的創(chuàng)新點(diǎn)61-62
- 7.2 討論62-64
- 7.3 今后的研究思路64-65
- 參考文獻(xiàn)65-70
- 致謝70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 張啟敏,聶贊坎;隨機(jī)森林發(fā)展系統(tǒng)解的存在性和唯一性(英文)[J];應(yīng)用數(shù)學(xué);2003年04期
2 李建更;高志坤;;隨機(jī)森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報(bào);2009年01期
3 袁敏;胡秀珍;;隨機(jī)森林方法預(yù)測(cè)膜蛋白類型[J];生物物理學(xué)報(bào);2009年05期
4 方匡南;吳見彬;朱建平;謝邦昌;;隨機(jī)森林方法研究綜述[J];統(tǒng)計(jì)與信息論壇;2011年03期
5 方正;李益洲;肖嘉敏;李功兵;文志寧;李夢(mèng)龍;;基于復(fù)雜網(wǎng)絡(luò)的隨機(jī)森林算法預(yù)測(cè)氨基酸突變對(duì)蛋白質(zhì)穩(wěn)定性的影響(英文)[J];化學(xué)研究與應(yīng)用;2011年05期
6 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期
7 曹正鳳;謝邦昌;紀(jì)宏;;一種隨機(jī)森林的混合算法[J];統(tǒng)計(jì)與決策;2014年04期
8 張光亞;方柏山;;基于氨基酸組成分布的嗜熱和嗜冷蛋白隨機(jī)森林分類模型[J];生物工程學(xué)報(bào);2008年02期
9 馬景義;吳喜之;謝邦昌;;擬自適應(yīng)分類隨機(jī)森林算法[J];數(shù)理統(tǒng)計(jì)與管理;2010年05期
10 李貞子;張濤;武曉巖;李康;;隨機(jī)森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2012年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
2 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
3 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
4 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年
5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D];西安電子科技大學(xué);2014年
,本文編號(hào):668855
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/668855.html