隨機(jī)森林算法優(yōu)化研究
發(fā)布時(shí)間:2017-08-28 06:04
本文關(guān)鍵詞:隨機(jī)森林算法優(yōu)化研究
更多相關(guān)文章: 隨機(jī)森林 非平衡數(shù)據(jù)集 連續(xù)變量離散化 節(jié)點(diǎn)分裂 優(yōu)化研究
【摘要】:隨機(jī)森林算法(Random Forests)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的組合分類器,它將bootstrap重抽樣方法和決策樹算法相結(jié)合,該算法的本質(zhì)是構(gòu)建一個(gè)樹型分類器h k (x), k1,的集合,然后使用該集合通過投票進(jìn)行分類和預(yù)測(cè)。由于該算法較好地解決了單分類器在性能上無法提升的瓶頸,因此具有較好的性能,能應(yīng)用于各種分類篩選和預(yù)測(cè)中。當(dāng)然,該算法也存在一些有待完善的地方,針對(duì)這些不足,理論界主要集中在三個(gè)方面進(jìn)行優(yōu)化研究,一是引進(jìn)新的算法,二是對(duì)將數(shù)據(jù)預(yù)處理融入到算法中,三是針對(duì)算法自身構(gòu)建過程進(jìn)行優(yōu)化。本文在充分查閱國內(nèi)外相關(guān)資料的基礎(chǔ)上,對(duì)后二個(gè)方面開展了優(yōu)化研究。 一、在數(shù)據(jù)預(yù)處理方面,提出了兩種改進(jìn)隨機(jī)森林的優(yōu)化算法。 首先,針對(duì)隨機(jī)森林不能很好地處理非平衡數(shù)據(jù)的問題,根據(jù)聚類算法思想和物理學(xué)的重心理論,本文提出了C_SMOTE算法,該算法能較好地降低數(shù)據(jù)集的非平衡性,從而提升了隨機(jī)森林算法的分類性能。該算法針對(duì)SMOTE算法在選取“人造”樣本時(shí),存在一定的盲目性現(xiàn)象和容易產(chǎn)生邊緣化的問題,提出了從負(fù)類樣本的重心出發(fā),有目的構(gòu)造“人造”樣本的新思路,使得在“人造”負(fù)類樣本的過程中,新產(chǎn)生的樣本有向重心匯聚的趨勢(shì),這樣就可以有效地解決了SMOTE算法的缺陷,從而實(shí)現(xiàn)了既保留原有數(shù)據(jù)集的信息,又較好地解決數(shù)據(jù)集的非平衡性問題,從而在很大的程度上提升了隨機(jī)森林算法在非平衡數(shù)據(jù)集上的分類性能。 其次,隨機(jī)森林算法在進(jìn)行節(jié)點(diǎn)分裂時(shí)常采用C4.5算法,但C4.5算法在處理連續(xù)變量時(shí),采用二分離散化的方法,該方法運(yùn)行效率依懶于連續(xù)變量取值的數(shù)量,該數(shù)量越大,隨機(jī)森林算法執(zhí)行時(shí)間越長(zhǎng)。針對(duì)此現(xiàn)象,本文提出了一種降低連續(xù)變量取值的數(shù)量的新算法,該算法可以很好地為C4.5算法提供簡(jiǎn)約的數(shù)據(jù)集,從而提升C4.5算法的執(zhí)行效率。新算法是在借鑒CHI2系列算法思想的基礎(chǔ)上,針對(duì)CHI2系列算法沒有考慮2統(tǒng)計(jì)量和真實(shí)值之間存在偏差的問題而提出的。該算法使用2矯正公式較好地處理了CHI2系列算法中的偏差問題。文中通過使用三種通用的UCI數(shù)據(jù)集,將新算法和沒有解決偏差問題CHI2系列算法,在改善隨機(jī)森林算法性能方面進(jìn)行了比較分析。實(shí)證數(shù)據(jù)表明,和CHI2系列算法相比,新算法能更有效地約簡(jiǎn)數(shù)據(jù)集中的冗余信息,使連續(xù)變理取值的數(shù)量很大程度地減少,從而提升隨機(jī)森林算法的執(zhí)行效率。 二、在隨機(jī)森林自身構(gòu)建過程優(yōu)化方面,本文通過分析隨機(jī)森林算法分類性能的影響因素,針對(duì)隨機(jī)森林在生成過程中,節(jié)點(diǎn)分裂算法不同引起的隨機(jī)森林分類性能不同的現(xiàn)象,提出了一種基于線性組合的節(jié)點(diǎn)分裂混合算法。該算法將C4.5算法和CART算法在節(jié)點(diǎn)分裂時(shí)的函數(shù)進(jìn)行線性組合,通過變換組合函數(shù)中的系數(shù),充分發(fā)揮了這兩種算法優(yōu)勢(shì),較好地實(shí)現(xiàn)了隨機(jī)森林算法分類性能的優(yōu)化。同時(shí),還詳細(xì)分析了混合算法的穩(wěn)定性、相關(guān)度和強(qiáng)度。首先,通過構(gòu)造F統(tǒng)計(jì)量進(jìn)行方差分析,對(duì)該混合算法的穩(wěn)定性進(jìn)行了檢驗(yàn)。統(tǒng)計(jì)結(jié)果表明,該隨機(jī)森林的混合算法隨著森林中樹木個(gè)數(shù)的變化雖然存在一定的不穩(wěn)定性,但當(dāng)森林中樹木達(dá)到800棵時(shí),算法可以達(dá)到穩(wěn)定的狀態(tài)。然后對(duì)混合算法的相關(guān)度和強(qiáng)度進(jìn)行了理論上的推導(dǎo)和論述,同時(shí)實(shí)現(xiàn)了隨機(jī)森林的平均相關(guān)度和強(qiáng)度的計(jì)算,并使用實(shí)證分析的辦法,,驗(yàn)證了平均相關(guān)度和算法分類精度存在負(fù)相關(guān),森林的平均強(qiáng)度和算法的分類精度存在正相關(guān)的關(guān)系,并得了出混合算法對(duì)提升森林的平均強(qiáng)度和降低平均相關(guān)度較有其他算法具有明顯的優(yōu)勢(shì),也從另一個(gè)方面驗(yàn)證了混合算法的優(yōu)越性。 在優(yōu)質(zhì)股票池選擇的實(shí)際應(yīng)用中,該應(yīng)用的數(shù)據(jù)集存在大量的連續(xù)變量,且該應(yīng)用對(duì)分類算法的精度要求嚴(yán)格。本研究提出的隨機(jī)森林優(yōu)化算法,可以很好地處理連續(xù)變量及提升隨機(jī)森林的分類精度。本文在價(jià)值成長(zhǎng)投資策略的選股指標(biāo)體系的基礎(chǔ)上,通過小波分析和COR_CHI2算法進(jìn)行數(shù)據(jù)預(yù)處理,使用節(jié)點(diǎn)分裂混合算法形成的隨機(jī)森林成功地實(shí)現(xiàn)了優(yōu)質(zhì)股票池的選擇,可為投資者進(jìn)行有針對(duì)性的投資組合提供統(tǒng)計(jì)支持。
【關(guān)鍵詞】:隨機(jī)森林 非平衡數(shù)據(jù)集 連續(xù)變量離散化 節(jié)點(diǎn)分裂 優(yōu)化研究
【學(xué)位授予單位】:首都經(jīng)濟(jì)貿(mào)易大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類號(hào)】:C829.2
【目錄】:
- 摘要4-6
- Abstract6-9
- 目錄9-13
- 1 引言13-18
- 1.1 研究背景和意義13-14
- 1.2 國內(nèi)外隨機(jī)森林優(yōu)化方法綜述14-16
- 1.2.1 引入新的算法進(jìn)行優(yōu)化的方法綜述14-15
- 1.2.2 將數(shù)據(jù)預(yù)處理融入隨機(jī)森林算法的優(yōu)化方法綜述15
- 1.2.3 針對(duì)隨機(jī)森林算法自身構(gòu)建過程進(jìn)行優(yōu)化的方法綜述15-16
- 1.3 本文的主要工作與結(jié)構(gòu)安排16-18
- 1.3.1 本文的主要工作16-17
- 1.3.2 本文的結(jié)構(gòu)17-18
- 2 隨機(jī)森林研究綜述18-41
- 2.1 隨機(jī)森林的基分類器 決策樹18-24
- 2.1.1 決策樹概述18
- 2.1.2 決策樹生成過程中的節(jié)點(diǎn)分裂算法18-24
- 2.1.3 決策樹分類中存在的問題24
- 2.2 隨機(jī)森林的構(gòu)建過程24-27
- 2.2.1 為每棵決策樹抽樣產(chǎn)生訓(xùn)練集24-26
- 2.2.2 構(gòu)建每棵決策樹26-27
- 2.2.3 森林的形成及算法的執(zhí)行27
- 2.3 隨機(jī)森林的隨機(jī)性分析27-29
- 2.3.1 訓(xùn)練集的隨機(jī)選取28
- 2.3.2 隨機(jī)特征變量的隨機(jī)性28
- 2.3.3 隨機(jī)森林的隨機(jī)性在實(shí)證分析中的表現(xiàn)及解決辦法28-29
- 2.4 隨機(jī)森林的理論概述29-31
- 2.4.1 隨機(jī)森林的數(shù)學(xué)定義29-31
- 2.4.2 隨機(jī)森林的性質(zhì)31
- 2.5 隨機(jī)森林的性能指標(biāo)31-35
- 2.5.1 分類效果系列指標(biāo)31-33
- 2.5.2 泛化誤差與 OOB 估計(jì)33-34
- 2.5.3 隨機(jī)森林算法運(yùn)行效率指標(biāo)34-35
- 2.6 幾種實(shí)現(xiàn)隨機(jī)森林算法的軟件介紹35-37
- 2.6.1 Weka 軟件35-36
- 2.6.2 R 軟件36-37
- 2.6.3 MATLAB 軟件37
- 2.7 隨機(jī)森林算法存在的問題37-39
- 2.7.1 不能很好地處理非平衡數(shù)據(jù)37-38
- 2.7.2 對(duì)連續(xù)性變量的處理還需要進(jìn)行離散化38
- 2.7.3 隨機(jī)森林算法的分類精度還需要進(jìn)一步的提升38-39
- 2.8 本章小結(jié)39-41
- 3 隨機(jī)森林處理非平衡數(shù)據(jù)集的優(yōu)化研究41-58
- 3.1 非平衡數(shù)據(jù)簡(jiǎn)介41
- 3.2 非平衡數(shù)據(jù)集分類困難的原因分析41-44
- 3.2.1 數(shù)據(jù)稀少問題42
- 3.2.2 數(shù)據(jù)碎片問題42-43
- 3.2.3 歸納偏差問題43
- 3.2.4 噪聲問題43
- 3.2.5 評(píng)價(jià)指標(biāo)選擇問題43-44
- 3.2.6 數(shù)據(jù)分布問題44
- 3.3 非平衡數(shù)據(jù)集分類問題的解決辦法44-47
- 3.3.1 通過改進(jìn)算法解決非平衡問題的方法簡(jiǎn)介44-45
- 3.3.2 通過改造數(shù)據(jù)解決非平衡問題的方法簡(jiǎn)介45-47
- 3.4 隨機(jī)森林處理非平衡數(shù)據(jù)分類問題的優(yōu)化--C_SMOTE 算法47-50
- 3.4.1 C_SOMTE 算法設(shè)計(jì)47-49
- 3.4.2 C_SMOTE 算法流程圖49-50
- 3.5 使用 C_SMOTE 算法提升隨機(jī)森林算法性能實(shí)證分析50-57
- 3.5.1 數(shù)據(jù)集介紹50
- 3.5.2 實(shí)驗(yàn)環(huán)境50-51
- 3.5.3 實(shí)驗(yàn)結(jié)果及分析51-57
- 3.6 本章小結(jié)57-58
- 4 隨機(jī)森林處理連續(xù)變量的優(yōu)化研究58-72
- 4.1 連續(xù)變量離散化概述58-60
- 4.1.1 連續(xù)變量離散化的概念58
- 4.1.2 連續(xù)變量離散化的衡量標(biāo)準(zhǔn)58-59
- 4.1.3 隨機(jī)森林算法中連續(xù)變量離散化方法59-60
- 4.2 連續(xù)變量離散化的方法簡(jiǎn)介60-64
- 4.2.1 簡(jiǎn)單的連續(xù)變量離散化算法60-62
- 4.2.2 基于信息熵的 CADD 系列算法62-63
- 4.2.3 基于統(tǒng)計(jì)學(xué)的 CHI2 系列算法簡(jiǎn)介63-64
- 4.3 隨機(jī)森林處理連續(xù)變量的優(yōu)化—COR_CHI2 算法64-66
- 4.3.1 COR_CHI2 算法設(shè)計(jì)65-66
- 4.3.2 COR_CHI2 算法程序流程圖66
- 4.4 COR_CHI2 算法對(duì)隨機(jī)森林算法性能優(yōu)化實(shí)證分析66-71
- 4.4.1 實(shí)證分析使用的數(shù)據(jù)集介紹66-67
- 4.4.3 COR_CHI2 算法對(duì)數(shù)據(jù)集的約簡(jiǎn)效果分析67-70
- 4.4.4 COR_CHI2 算法約簡(jiǎn)后的數(shù)據(jù)集對(duì)隨機(jī)森林算法運(yùn)行效率的影響分析70-71
- 4.5 本章小結(jié)71-72
- 5 隨機(jī)森林算法分類性能的優(yōu)化研究72-94
- 5.1 隨機(jī)森林算法分類性能的影響因素分析72-79
- 5.1.1 森林中決策樹的數(shù)量72-74
- 5.1.2 隨機(jī)特征變量 F 的值74-76
- 5.1.3 不同的節(jié)點(diǎn)分裂算法比較76-79
- 5.2 隨機(jī)森林的分類性能優(yōu)化--節(jié)點(diǎn)分裂混合算法79-85
- 5.2.1 節(jié)點(diǎn)分裂混合算法描述80
- 5.2.2 節(jié)點(diǎn)分裂算法的程序流程80-81
- 5.2.3 混合算法分類性能實(shí)證分析81-83
- 5.2.4 混合算法與 R 軟件中隨機(jī)森林算法的比較83-85
- 5.3 混合算法穩(wěn)定性分析85-90
- 5.3.1 混合算法穩(wěn)定性估計(jì)的模型分析85-86
- 5.3.2 混合算法穩(wěn)定性估計(jì)86-88
- 5.3.3 混合算法穩(wěn)定狀態(tài)分析88-90
- 5.4 混合算法形成的森林中相關(guān)度及強(qiáng)度分析90-92
- 5.4.1 隨機(jī)森林中相關(guān)度及強(qiáng)度估計(jì)90
- 5.4.2 混合算法形成的森林中強(qiáng)度分析90-91
- 5.4.3 混合算法形成的森林中相關(guān)度分析91-92
- 5.5 本章小結(jié)92-94
- 6 優(yōu)化后的隨機(jī)森林算法對(duì)優(yōu)質(zhì)股票池的選擇94-110
- 6.1 量化投資中選股研究綜述94-96
- 6.1.1 樸素貝葉斯分類方法在選股分析中的應(yīng)用94-95
- 6.1.2 決策樹分類方法在選股分析中的應(yīng)用95
- 6.1.3 神經(jīng)網(wǎng)絡(luò)分類方法在選股分析中的應(yīng)用95
- 6.1.4 支持向量機(jī)分類方法在選股分析中的應(yīng)用95-96
- 6.1.5 使用優(yōu)化后的隨機(jī)森林算法進(jìn)行選股分析的原因96
- 6.2 股票數(shù)據(jù)預(yù)處理方法簡(jiǎn)介96-100
- 6.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理96-97
- 6.2.2 數(shù)據(jù)噪聲處理97-100
- 6.3 選股模型指標(biāo)體系的簡(jiǎn)介100-106
- 6.3.1 傳統(tǒng)的價(jià)值型投資策略100-102
- 6.3.2 積極的成長(zhǎng)型投資策略102
- 6.3.3 價(jià)值成長(zhǎng)投資策略(GARP)102-103
- 6.3.4 以價(jià)值成長(zhǎng)投資策略為指導(dǎo)的選股模型指標(biāo)體系的構(gòu)建103-106
- 6.4 優(yōu)化后的隨機(jī)森林算法對(duì)優(yōu)質(zhì)股票池的選擇106-109
- 6.4.1 樣本的選擇106-107
- 6.4.2 指標(biāo)數(shù)據(jù)的財(cái)報(bào)匹配107
- 6.4.3 數(shù)據(jù)預(yù)處理107-108
- 6.4.4 當(dāng)月實(shí)際表現(xiàn)分析108-109
- 6.5 本章小結(jié)109-110
- 7 總結(jié)與展望110-112
- 7.1 本文的創(chuàng)新點(diǎn)110
- 7.2 今后的研究思路110-112
- 8 參考文獻(xiàn)和注釋112-119
- 9 附錄119-132
- 10 在學(xué)期間發(fā)表的學(xué)術(shù)論文和研究成果132-133
- 11 后記133-134
【引證文獻(xiàn)】
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李云飛;基于人工智能方法的股票價(jià)值投資研究[D];哈爾濱工業(yè)大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 馬永強(qiáng);基于回歸森林的車載INS/GPS組合導(dǎo)航系統(tǒng)設(shè)計(jì)[D];北京交通大學(xué);2015年
2 袁月;智能交通系統(tǒng)中監(jiān)測(cè)數(shù)據(jù)的分析與應(yīng)用的研究[D];北京郵電大學(xué);2015年
本文編號(hào):747364
本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/747364.html
最近更新
教材專著