天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 碩博論文 > 社科博士論文 >

隨機森林算法優(yōu)化研究

發(fā)布時間:2017-08-28 06:04

  本文關(guān)鍵詞:隨機森林算法優(yōu)化研究


  更多相關(guān)文章: 隨機森林 非平衡數(shù)據(jù)集 連續(xù)變量離散化 節(jié)點分裂 優(yōu)化研究


【摘要】:隨機森林算法(Random Forests)是一種基于統(tǒng)計學習理論的組合分類器,它將bootstrap重抽樣方法和決策樹算法相結(jié)合,該算法的本質(zhì)是構(gòu)建一個樹型分類器h k (x), k1,的集合,然后使用該集合通過投票進行分類和預測。由于該算法較好地解決了單分類器在性能上無法提升的瓶頸,因此具有較好的性能,能應用于各種分類篩選和預測中。當然,該算法也存在一些有待完善的地方,針對這些不足,理論界主要集中在三個方面進行優(yōu)化研究,一是引進新的算法,二是對將數(shù)據(jù)預處理融入到算法中,三是針對算法自身構(gòu)建過程進行優(yōu)化。本文在充分查閱國內(nèi)外相關(guān)資料的基礎(chǔ)上,對后二個方面開展了優(yōu)化研究。 一、在數(shù)據(jù)預處理方面,提出了兩種改進隨機森林的優(yōu)化算法。 首先,針對隨機森林不能很好地處理非平衡數(shù)據(jù)的問題,根據(jù)聚類算法思想和物理學的重心理論,本文提出了C_SMOTE算法,該算法能較好地降低數(shù)據(jù)集的非平衡性,從而提升了隨機森林算法的分類性能。該算法針對SMOTE算法在選取“人造”樣本時,存在一定的盲目性現(xiàn)象和容易產(chǎn)生邊緣化的問題,提出了從負類樣本的重心出發(fā),有目的構(gòu)造“人造”樣本的新思路,使得在“人造”負類樣本的過程中,新產(chǎn)生的樣本有向重心匯聚的趨勢,這樣就可以有效地解決了SMOTE算法的缺陷,從而實現(xiàn)了既保留原有數(shù)據(jù)集的信息,又較好地解決數(shù)據(jù)集的非平衡性問題,從而在很大的程度上提升了隨機森林算法在非平衡數(shù)據(jù)集上的分類性能。 其次,隨機森林算法在進行節(jié)點分裂時常采用C4.5算法,但C4.5算法在處理連續(xù)變量時,采用二分離散化的方法,該方法運行效率依懶于連續(xù)變量取值的數(shù)量,該數(shù)量越大,隨機森林算法執(zhí)行時間越長。針對此現(xiàn)象,本文提出了一種降低連續(xù)變量取值的數(shù)量的新算法,該算法可以很好地為C4.5算法提供簡約的數(shù)據(jù)集,從而提升C4.5算法的執(zhí)行效率。新算法是在借鑒CHI2系列算法思想的基礎(chǔ)上,針對CHI2系列算法沒有考慮2統(tǒng)計量和真實值之間存在偏差的問題而提出的。該算法使用2矯正公式較好地處理了CHI2系列算法中的偏差問題。文中通過使用三種通用的UCI數(shù)據(jù)集,將新算法和沒有解決偏差問題CHI2系列算法,在改善隨機森林算法性能方面進行了比較分析。實證數(shù)據(jù)表明,和CHI2系列算法相比,新算法能更有效地約簡數(shù)據(jù)集中的冗余信息,使連續(xù)變理取值的數(shù)量很大程度地減少,從而提升隨機森林算法的執(zhí)行效率。 二、在隨機森林自身構(gòu)建過程優(yōu)化方面,本文通過分析隨機森林算法分類性能的影響因素,針對隨機森林在生成過程中,節(jié)點分裂算法不同引起的隨機森林分類性能不同的現(xiàn)象,提出了一種基于線性組合的節(jié)點分裂混合算法。該算法將C4.5算法和CART算法在節(jié)點分裂時的函數(shù)進行線性組合,通過變換組合函數(shù)中的系數(shù),充分發(fā)揮了這兩種算法優(yōu)勢,較好地實現(xiàn)了隨機森林算法分類性能的優(yōu)化。同時,還詳細分析了混合算法的穩(wěn)定性、相關(guān)度和強度。首先,通過構(gòu)造F統(tǒng)計量進行方差分析,對該混合算法的穩(wěn)定性進行了檢驗。統(tǒng)計結(jié)果表明,該隨機森林的混合算法隨著森林中樹木個數(shù)的變化雖然存在一定的不穩(wěn)定性,但當森林中樹木達到800棵時,算法可以達到穩(wěn)定的狀態(tài)。然后對混合算法的相關(guān)度和強度進行了理論上的推導和論述,同時實現(xiàn)了隨機森林的平均相關(guān)度和強度的計算,并使用實證分析的辦法,,驗證了平均相關(guān)度和算法分類精度存在負相關(guān),森林的平均強度和算法的分類精度存在正相關(guān)的關(guān)系,并得了出混合算法對提升森林的平均強度和降低平均相關(guān)度較有其他算法具有明顯的優(yōu)勢,也從另一個方面驗證了混合算法的優(yōu)越性。 在優(yōu)質(zhì)股票池選擇的實際應用中,該應用的數(shù)據(jù)集存在大量的連續(xù)變量,且該應用對分類算法的精度要求嚴格。本研究提出的隨機森林優(yōu)化算法,可以很好地處理連續(xù)變量及提升隨機森林的分類精度。本文在價值成長投資策略的選股指標體系的基礎(chǔ)上,通過小波分析和COR_CHI2算法進行數(shù)據(jù)預處理,使用節(jié)點分裂混合算法形成的隨機森林成功地實現(xiàn)了優(yōu)質(zhì)股票池的選擇,可為投資者進行有針對性的投資組合提供統(tǒng)計支持。
【關(guān)鍵詞】:隨機森林 非平衡數(shù)據(jù)集 連續(xù)變量離散化 節(jié)點分裂 優(yōu)化研究
【學位授予單位】:首都經(jīng)濟貿(mào)易大學
【學位級別】:博士
【學位授予年份】:2014
【分類號】:C829.2
【目錄】:
  • 摘要4-6
  • Abstract6-9
  • 目錄9-13
  • 1 引言13-18
  • 1.1 研究背景和意義13-14
  • 1.2 國內(nèi)外隨機森林優(yōu)化方法綜述14-16
  • 1.2.1 引入新的算法進行優(yōu)化的方法綜述14-15
  • 1.2.2 將數(shù)據(jù)預處理融入隨機森林算法的優(yōu)化方法綜述15
  • 1.2.3 針對隨機森林算法自身構(gòu)建過程進行優(yōu)化的方法綜述15-16
  • 1.3 本文的主要工作與結(jié)構(gòu)安排16-18
  • 1.3.1 本文的主要工作16-17
  • 1.3.2 本文的結(jié)構(gòu)17-18
  • 2 隨機森林研究綜述18-41
  • 2.1 隨機森林的基分類器  決策樹18-24
  • 2.1.1 決策樹概述18
  • 2.1.2 決策樹生成過程中的節(jié)點分裂算法18-24
  • 2.1.3 決策樹分類中存在的問題24
  • 2.2 隨機森林的構(gòu)建過程24-27
  • 2.2.1 為每棵決策樹抽樣產(chǎn)生訓練集24-26
  • 2.2.2 構(gòu)建每棵決策樹26-27
  • 2.2.3 森林的形成及算法的執(zhí)行27
  • 2.3 隨機森林的隨機性分析27-29
  • 2.3.1 訓練集的隨機選取28
  • 2.3.2 隨機特征變量的隨機性28
  • 2.3.3 隨機森林的隨機性在實證分析中的表現(xiàn)及解決辦法28-29
  • 2.4 隨機森林的理論概述29-31
  • 2.4.1 隨機森林的數(shù)學定義29-31
  • 2.4.2 隨機森林的性質(zhì)31
  • 2.5 隨機森林的性能指標31-35
  • 2.5.1 分類效果系列指標31-33
  • 2.5.2 泛化誤差與 OOB 估計33-34
  • 2.5.3 隨機森林算法運行效率指標34-35
  • 2.6 幾種實現(xiàn)隨機森林算法的軟件介紹35-37
  • 2.6.1 Weka 軟件35-36
  • 2.6.2 R 軟件36-37
  • 2.6.3 MATLAB 軟件37
  • 2.7 隨機森林算法存在的問題37-39
  • 2.7.1 不能很好地處理非平衡數(shù)據(jù)37-38
  • 2.7.2 對連續(xù)性變量的處理還需要進行離散化38
  • 2.7.3 隨機森林算法的分類精度還需要進一步的提升38-39
  • 2.8 本章小結(jié)39-41
  • 3 隨機森林處理非平衡數(shù)據(jù)集的優(yōu)化研究41-58
  • 3.1 非平衡數(shù)據(jù)簡介41
  • 3.2 非平衡數(shù)據(jù)集分類困難的原因分析41-44
  • 3.2.1 數(shù)據(jù)稀少問題42
  • 3.2.2 數(shù)據(jù)碎片問題42-43
  • 3.2.3 歸納偏差問題43
  • 3.2.4 噪聲問題43
  • 3.2.5 評價指標選擇問題43-44
  • 3.2.6 數(shù)據(jù)分布問題44
  • 3.3 非平衡數(shù)據(jù)集分類問題的解決辦法44-47
  • 3.3.1 通過改進算法解決非平衡問題的方法簡介44-45
  • 3.3.2 通過改造數(shù)據(jù)解決非平衡問題的方法簡介45-47
  • 3.4 隨機森林處理非平衡數(shù)據(jù)分類問題的優(yōu)化--C_SMOTE 算法47-50
  • 3.4.1 C_SOMTE 算法設(shè)計47-49
  • 3.4.2 C_SMOTE 算法流程圖49-50
  • 3.5 使用 C_SMOTE 算法提升隨機森林算法性能實證分析50-57
  • 3.5.1 數(shù)據(jù)集介紹50
  • 3.5.2 實驗環(huán)境50-51
  • 3.5.3 實驗結(jié)果及分析51-57
  • 3.6 本章小結(jié)57-58
  • 4 隨機森林處理連續(xù)變量的優(yōu)化研究58-72
  • 4.1 連續(xù)變量離散化概述58-60
  • 4.1.1 連續(xù)變量離散化的概念58
  • 4.1.2 連續(xù)變量離散化的衡量標準58-59
  • 4.1.3 隨機森林算法中連續(xù)變量離散化方法59-60
  • 4.2 連續(xù)變量離散化的方法簡介60-64
  • 4.2.1 簡單的連續(xù)變量離散化算法60-62
  • 4.2.2 基于信息熵的 CADD 系列算法62-63
  • 4.2.3 基于統(tǒng)計學的 CHI2 系列算法簡介63-64
  • 4.3 隨機森林處理連續(xù)變量的優(yōu)化—COR_CHI2 算法64-66
  • 4.3.1 COR_CHI2 算法設(shè)計65-66
  • 4.3.2 COR_CHI2 算法程序流程圖66
  • 4.4 COR_CHI2 算法對隨機森林算法性能優(yōu)化實證分析66-71
  • 4.4.1 實證分析使用的數(shù)據(jù)集介紹66-67
  • 4.4.3 COR_CHI2 算法對數(shù)據(jù)集的約簡效果分析67-70
  • 4.4.4 COR_CHI2 算法約簡后的數(shù)據(jù)集對隨機森林算法運行效率的影響分析70-71
  • 4.5 本章小結(jié)71-72
  • 5 隨機森林算法分類性能的優(yōu)化研究72-94
  • 5.1 隨機森林算法分類性能的影響因素分析72-79
  • 5.1.1 森林中決策樹的數(shù)量72-74
  • 5.1.2 隨機特征變量 F 的值74-76
  • 5.1.3 不同的節(jié)點分裂算法比較76-79
  • 5.2 隨機森林的分類性能優(yōu)化--節(jié)點分裂混合算法79-85
  • 5.2.1 節(jié)點分裂混合算法描述80
  • 5.2.2 節(jié)點分裂算法的程序流程80-81
  • 5.2.3 混合算法分類性能實證分析81-83
  • 5.2.4 混合算法與 R 軟件中隨機森林算法的比較83-85
  • 5.3 混合算法穩(wěn)定性分析85-90
  • 5.3.1 混合算法穩(wěn)定性估計的模型分析85-86
  • 5.3.2 混合算法穩(wěn)定性估計86-88
  • 5.3.3 混合算法穩(wěn)定狀態(tài)分析88-90
  • 5.4 混合算法形成的森林中相關(guān)度及強度分析90-92
  • 5.4.1 隨機森林中相關(guān)度及強度估計90
  • 5.4.2 混合算法形成的森林中強度分析90-91
  • 5.4.3 混合算法形成的森林中相關(guān)度分析91-92
  • 5.5 本章小結(jié)92-94
  • 6 優(yōu)化后的隨機森林算法對優(yōu)質(zhì)股票池的選擇94-110
  • 6.1 量化投資中選股研究綜述94-96
  • 6.1.1 樸素貝葉斯分類方法在選股分析中的應用94-95
  • 6.1.2 決策樹分類方法在選股分析中的應用95
  • 6.1.3 神經(jīng)網(wǎng)絡(luò)分類方法在選股分析中的應用95
  • 6.1.4 支持向量機分類方法在選股分析中的應用95-96
  • 6.1.5 使用優(yōu)化后的隨機森林算法進行選股分析的原因96
  • 6.2 股票數(shù)據(jù)預處理方法簡介96-100
  • 6.2.1 數(shù)據(jù)標準化處理96-97
  • 6.2.2 數(shù)據(jù)噪聲處理97-100
  • 6.3 選股模型指標體系的簡介100-106
  • 6.3.1 傳統(tǒng)的價值型投資策略100-102
  • 6.3.2 積極的成長型投資策略102
  • 6.3.3 價值成長投資策略(GARP)102-103
  • 6.3.4 以價值成長投資策略為指導的選股模型指標體系的構(gòu)建103-106
  • 6.4 優(yōu)化后的隨機森林算法對優(yōu)質(zhì)股票池的選擇106-109
  • 6.4.1 樣本的選擇106-107
  • 6.4.2 指標數(shù)據(jù)的財報匹配107
  • 6.4.3 數(shù)據(jù)預處理107-108
  • 6.4.4 當月實際表現(xiàn)分析108-109
  • 6.5 本章小結(jié)109-110
  • 7 總結(jié)與展望110-112
  • 7.1 本文的創(chuàng)新點110
  • 7.2 今后的研究思路110-112
  • 8 參考文獻和注釋112-119
  • 9 附錄119-132
  • 10 在學期間發(fā)表的學術(shù)論文和研究成果132-133
  • 11 后記133-134

【引證文獻】

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 李云飛;基于人工智能方法的股票價值投資研究[D];哈爾濱工業(yè)大學;2008年

中國碩士學位論文全文數(shù)據(jù)庫 前2條

1 馬永強;基于回歸森林的車載INS/GPS組合導航系統(tǒng)設(shè)計[D];北京交通大學;2015年

2 袁月;智能交通系統(tǒng)中監(jiān)測數(shù)據(jù)的分析與應用的研究[D];北京郵電大學;2015年



本文編號:747364

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/747364.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f4aa3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com