基于最大平衡度與最大共識的改進隨機森林算法研究
發(fā)布時間:2017-04-24 13:23
本文關(guān)鍵詞:基于最大平衡度與最大共識的改進隨機森林算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在過去的幾十年中,隨著計算機性能的提高、軟硬件成本的下降,使得計算機功能日益強大。數(shù)據(jù)收集和存儲設(shè)備的大量供應(yīng),推動了數(shù)據(jù)庫和信息產(chǎn)業(yè)的高速發(fā)展,社會各部分信息化程度獲得了大步提高。然而,數(shù)據(jù)量急劇增加的同時,數(shù)據(jù)背后隱藏的重要知識反而沒有得到很好的應(yīng)用,數(shù)據(jù)挖掘正是挖掘這些信息的方法。特別是當學(xué)習(xí)過程中數(shù)據(jù)所屬類別的判斷是在用戶參與指導(dǎo)下完成的,這就是監(jiān)督式學(xué)習(xí)過程。隨機森林算法正是監(jiān)督式學(xué)習(xí)的一種方法。隨機森林算法是一個分類器模型組合算法,思想是機器學(xué)習(xí)中集成學(xué)習(xí)算法思想的擴展與應(yīng)用,其根據(jù)訓(xùn)練集學(xué)習(xí)出多個基分類器,然后綜合這些分類結(jié)果作為最終的分類結(jié)果,提高了集成分類器的分類精度。因為隨機森林算法性能優(yōu)良,在模式識別、文本分類、商品推薦等領(lǐng)域獲得了廣泛應(yīng)用。然而,國內(nèi)研究人員關(guān)注的方向主要是隨機森林算法在某個具體領(lǐng)域的應(yīng)用,而關(guān)于算法本身性能等的研究則比較少。特別是在大數(shù)據(jù)背景下,對于隨機森林算法的性能和分類精度能否取得進一步提升都研究的不夠深入。本文就如何利用隨機森林算法處理大數(shù)據(jù)分類問題展開研究,針對隨機森林算法的優(yōu)化與性能提升,可以從兩個方面展開研究,一是從數(shù)據(jù)預(yù)處理方面解決隨機森林算法處理非平衡數(shù)據(jù)集的問題,二是從模型組合這一算法本身的改進方面。一方面,首先分析了非平衡數(shù)據(jù)集對分類算法帶來的問題,總結(jié)了常見的數(shù)據(jù)平衡化方法,并分析各自的缺陷,然后提出一種全新的基于最大平衡度的自適應(yīng)隨機抽樣算法,并通過實驗證明了該方法的有效性,可以在合理的整體精度范圍內(nèi)能夠較好地處理非平衡數(shù)據(jù)。另一方面,對原有的隨機森林算法進行了進一步改造,使用最大共識策略代替原來的多數(shù)表決機制,提出了一種新的基于最大共識的模型組合算法,綜合考慮模型組合算法的經(jīng)驗誤差和泛化誤差,用于更好地發(fā)揮各個單分類器的個性與優(yōu)勢,強化分類效果好的單分類器的優(yōu)勢,弱化分類效果較差的單分類器的劣勢,并通過實驗證明其能進一步提升組合分類器的分類性能,在提高分類精度的同時,也具有較強的泛化能力。
【關(guān)鍵詞】:隨機森林 模型組合 最大平衡度 最大共識 多數(shù)表決 泛化誤差
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP18
【目錄】:
- 摘要4-6
- Abstract6-11
- 第1章 緒論11-16
- 1.1 研究背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 隨機森林算法應(yīng)用研究12-13
- 1.2.2 隨機森林算法優(yōu)化和改進研究13-14
- 1.3 本文的工作14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第2章 隨機森林算法的相關(guān)理論16-30
- 2.1 隨機森林算法的發(fā)展16-18
- 2.1.1 單分類器16-17
- 2.1.2 Tree Bagging算法17
- 2.1.3 隨機森林算法17-18
- 2.2 隨機森林算法的理論基礎(chǔ)18-24
- 2.2.1 隨機森林算法的數(shù)學(xué)定義18-20
- 2.2.2 隨機森林算法的性能指標與評價方法20-24
- 2.3 隨機森林算法的訓(xùn)練過程24-29
- 2.3.1 抽樣過程25-26
- 2.3.2 單分類器訓(xùn)練26-27
- 2.3.3 森林形成與模型組合27-28
- 2.3.4 隨機森林算法分析28-29
- 2.4 本章小結(jié)29-30
- 第3章 基于最大平衡度的自適應(yīng)隨機抽樣方法30-43
- 3.1 數(shù)據(jù)平衡化優(yōu)化背景30-32
- 3.1.1 非平衡數(shù)據(jù)集30-31
- 3.1.2 非平衡數(shù)據(jù)的分類問題31-32
- 3.2 數(shù)據(jù)平衡化方法32-33
- 3.3 基于最大平衡度的自適應(yīng)隨機抽樣方法33-36
- 3.3.1 平衡度定義33-34
- 3.3.2 ARSA-BM算法介紹34-35
- 3.3.3 ARSA-BM算法描述35-36
- 3.4 ARSA-BM算法的實驗分析36-42
- 3.4.1 實驗環(huán)境36-37
- 3.4.2 實驗數(shù)據(jù)集37-38
- 3.4.3 性能指標與評估方法38
- 3.4.4 實驗結(jié)果與分析38-42
- 3.5 本章小結(jié)42-43
- 第4章 基于最大共識的模型組合算法43-54
- 4.1 模型組合的相關(guān)概念43-44
- 4.2 加權(quán)的多數(shù)表決機制44-45
- 4.3 基于最大共識的模型組合算法45-50
- 4.3.1 最大共識定義45-47
- 4.3.2 MCA-CM算法介紹47-49
- 4.3.3 MCA-CM算法描述49-50
- 4.4 MCA-CM算法的實驗分析50-53
- 4.4.1 實驗環(huán)境50
- 4.4.2 實驗數(shù)據(jù)集50-51
- 4.4.3 實驗結(jié)果與分析51-53
- 4.5 本章小結(jié)53-54
- 第5章 總結(jié)與展望54-56
- 5.1 研究總結(jié)54
- 5.2 展望54-56
- 參考文獻56-60
- 作者簡介及在學(xué)期間所取得的科研成果60-61
- 致謝61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 吳瓊;李運田;鄭獻衛(wèi);;面向非平衡訓(xùn)練集分類的隨機森林算法優(yōu)化[J];工業(yè)控制計算機;2013年07期
2 董隴軍;李夕兵;彭康;;巖爆等級預(yù)測的隨機森林模型及應(yīng)用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期
3 ;A genome-wide association study of Alzheimer's disease using random forests and enrichment analysis[J];Science China(Life Sciences);2012年07期
4 馬景義;吳喜之;謝邦昌;;擬自適應(yīng)分類隨機森林算法[J];數(shù)理統(tǒng)計與管理;2010年05期
本文關(guān)鍵詞:基于最大平衡度與最大共識的改進隨機森林算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:324303
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/324303.html
最近更新
教材專著