基于特征選擇與多樣性的隨機(jī)森林算法研究
發(fā)布時(shí)間:2022-08-08 12:18
隨著萬(wàn)物互聯(lián)時(shí)代的到來(lái),各行各業(yè)的發(fā)展都離不開(kāi)互聯(lián)網(wǎng),與互聯(lián)網(wǎng)相關(guān)的各領(lǐng)域中充斥著大量復(fù)雜的數(shù)據(jù)信息,隨之產(chǎn)生“信息過(guò)載”的問(wèn)題,使得用戶或一些企業(yè)平臺(tái)很難從海量信息數(shù)據(jù)中挖掘所需要的關(guān)鍵信息。針對(duì)龐大的數(shù)據(jù)處理任務(wù),基于機(jī)器學(xué)習(xí)訓(xùn)練方式的集成分類模型能有效解決這類問(wèn)題,但該模型因其自身的數(shù)據(jù)特征擬合困難和集成模型泛化誤差等問(wèn)題存在一定的局限性。因此,本文以隨機(jī)森林集成算法為基礎(chǔ),通過(guò)改進(jìn)基分類器和集成的方式對(duì)集成模型進(jìn)行研究,本文的主要工作和改進(jìn)如下:1.在分類模型數(shù)據(jù)預(yù)處理階段,針對(duì)數(shù)據(jù)處理與特征選擇過(guò)程中存在的特征屬性劃分困難、難以擬合數(shù)據(jù)集的情況,本次設(shè)計(jì)以特征作為重要依據(jù),綜合分析數(shù)據(jù)、特征、類別三者之間的關(guān)聯(lián)性,通過(guò)特征重要性度量和P值效驗(yàn)的方式篩選出高效特征子集,最后利用隨機(jī)森林模型進(jìn)行分類精度的研究。通過(guò)實(shí)驗(yàn)數(shù)據(jù)仿真分析得出高效特征子集能有效解決特征屬性劃分問(wèn)題,從而提升隨機(jī)森林集成模型的精確率和召回率。2.在大規(guī)模數(shù)據(jù)分類階段,針對(duì)隨機(jī)森林集成算法內(nèi)部因基分類器冗余、多樣性不顯著所造成的泛化誤差問(wèn)題,本文設(shè)計(jì)了一種結(jié)合特征信息和多樣性的極限隨機(jī)森林集成算法。該算法首先...
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀及分析
1.2.1 集成學(xué)習(xí)的研究現(xiàn)狀
1.2.2 當(dāng)前存在的問(wèn)題
1.3 論文主要工作及組織結(jié)構(gòu)
1.3.1 論文主要研究?jī)?nèi)容
1.3.2 論文主要結(jié)構(gòu)安排
第2章 相關(guān)技術(shù)簡(jiǎn)介
2.1 集成分類系統(tǒng)概述
2.2 常用集成算法和技術(shù)
2.2.1 基于Bagging的集成方法
2.2.2 基于Boosting的集成方法
2.2.3 基于Stacking的集成方法
2.3 數(shù)據(jù)預(yù)處理和特征選擇
2.3.1 數(shù)據(jù)預(yù)處理
2.3.2 特征選擇技術(shù)
2.4 集成分類算法
2.4.1 基分類器結(jié)構(gòu)分析
2.4.2 集成分類泛化誤差分析
2.5 算法評(píng)價(jià)指標(biāo)
2.6 本章小結(jié)
第3章 基于特征信息和P值效驗(yàn)的集成策略
3.1 引言
3.2 基于特征選擇的方法設(shè)計(jì)
3.3 基于特征信息和P值效驗(yàn)的處理策略
3.3.1 根據(jù)關(guān)聯(lián)性進(jìn)行子集篩選
3.3.2 特征重要性度量
3.3.3 基于P值效驗(yàn)的方法設(shè)計(jì)
3.3.4 特征子集評(píng)估
3.4 構(gòu)建集成分類模型
3.4.1 決策樹(shù)模型構(gòu)建
3.4.2 隨機(jī)森林模型構(gòu)建
3.5 實(shí)驗(yàn)結(jié)果分析
3.5.1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置
3.5.2 實(shí)驗(yàn)過(guò)程分析
3.5.3 實(shí)驗(yàn)參數(shù)影響
3.5.4 對(duì)比實(shí)驗(yàn)分析
3.6 本章小結(jié)
第4章 結(jié)合多樣性的極限隨機(jī)森林算法設(shè)計(jì)
4.1 引言
4.2 基于特征選擇的P-ERF算法設(shè)計(jì)
4.3 結(jié)合多樣性的分類器內(nèi)部設(shè)計(jì)
4.3.1 隨機(jī)樹(shù)結(jié)構(gòu)設(shè)計(jì)
4.3.2 結(jié)合多樣性的算法設(shè)計(jì)
4.4 基于加權(quán)的P-ERF算法設(shè)計(jì)
4.4.1 改進(jìn)的集成策略
4.4.2 構(gòu)建極限隨機(jī)森林模型
4.5 實(shí)驗(yàn)結(jié)果分析
4.5.1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置
4.5.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.5.3 仿真結(jié)果分析
4.5.4 對(duì)比實(shí)驗(yàn)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林的Android惡意軟件檢測(cè)方法研究[J]. 宋鑫,趙楷,張琳琳,方文波. 信息網(wǎng)絡(luò)安全. 2019(09)
[2]基于Spark和隨機(jī)森林的乳腺癌風(fēng)險(xiǎn)預(yù)測(cè)分析[J]. 苗立志,刁繼堯,婁沖,崔進(jìn)東. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(08)
[3]基于機(jī)器學(xué)習(xí)的新生兒壞死性小腸結(jié)腸炎的鑒別診斷[J]. 高文靜,梁會(huì)營(yíng),鐘微,呂俊健. 中國(guó)數(shù)字醫(yī)學(xué). 2019(03)
[4]一種基于快速k-近鄰的最小生成樹(shù)離群檢測(cè)方法[J]. 朱利,邱媛媛,于帥,原盛. 計(jì)算機(jī)學(xué)報(bào). 2017(12)
[5]基于隨機(jī)森林算法的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 沈晶磊,虞慧群,范貴生,郭健美. 計(jì)算機(jī)科學(xué). 2017(11)
[6]一種結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇方法[J]. 吳辰文,王偉,李長(zhǎng)生,梁靖涵,閆光輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(06)
[7]基于對(duì)稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長(zhǎng)榮,萬(wàn)春圓. 模式識(shí)別與人工智能. 2017(05)
[8]基于隨機(jī)森林的K最近鄰算法[J]. 江昆,白旭英,車金星. 南昌工程學(xué)院學(xué)報(bào). 2016(06)
[9]基于類別特征選擇與反饋學(xué)習(xí)隨機(jī)森林算法的郵件過(guò)濾系統(tǒng)研究[J]. 孫雪,韓蕾,李昆侖. 計(jì)算機(jī)應(yīng)用與軟件. 2015(04)
[10]阿里云實(shí)現(xiàn)Spark的分布式計(jì)算[J]. 張丹陽(yáng),曹維焯,薛志云,何軍. 福建電腦. 2015(02)
本文編號(hào):3671494
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀及分析
1.2.1 集成學(xué)習(xí)的研究現(xiàn)狀
1.2.2 當(dāng)前存在的問(wèn)題
1.3 論文主要工作及組織結(jié)構(gòu)
1.3.1 論文主要研究?jī)?nèi)容
1.3.2 論文主要結(jié)構(gòu)安排
第2章 相關(guān)技術(shù)簡(jiǎn)介
2.1 集成分類系統(tǒng)概述
2.2 常用集成算法和技術(shù)
2.2.1 基于Bagging的集成方法
2.2.2 基于Boosting的集成方法
2.2.3 基于Stacking的集成方法
2.3 數(shù)據(jù)預(yù)處理和特征選擇
2.3.1 數(shù)據(jù)預(yù)處理
2.3.2 特征選擇技術(shù)
2.4 集成分類算法
2.4.1 基分類器結(jié)構(gòu)分析
2.4.2 集成分類泛化誤差分析
2.5 算法評(píng)價(jià)指標(biāo)
2.6 本章小結(jié)
第3章 基于特征信息和P值效驗(yàn)的集成策略
3.1 引言
3.2 基于特征選擇的方法設(shè)計(jì)
3.3 基于特征信息和P值效驗(yàn)的處理策略
3.3.1 根據(jù)關(guān)聯(lián)性進(jìn)行子集篩選
3.3.2 特征重要性度量
3.3.3 基于P值效驗(yàn)的方法設(shè)計(jì)
3.3.4 特征子集評(píng)估
3.4 構(gòu)建集成分類模型
3.4.1 決策樹(shù)模型構(gòu)建
3.4.2 隨機(jī)森林模型構(gòu)建
3.5 實(shí)驗(yàn)結(jié)果分析
3.5.1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置
3.5.2 實(shí)驗(yàn)過(guò)程分析
3.5.3 實(shí)驗(yàn)參數(shù)影響
3.5.4 對(duì)比實(shí)驗(yàn)分析
3.6 本章小結(jié)
第4章 結(jié)合多樣性的極限隨機(jī)森林算法設(shè)計(jì)
4.1 引言
4.2 基于特征選擇的P-ERF算法設(shè)計(jì)
4.3 結(jié)合多樣性的分類器內(nèi)部設(shè)計(jì)
4.3.1 隨機(jī)樹(shù)結(jié)構(gòu)設(shè)計(jì)
4.3.2 結(jié)合多樣性的算法設(shè)計(jì)
4.4 基于加權(quán)的P-ERF算法設(shè)計(jì)
4.4.1 改進(jìn)的集成策略
4.4.2 構(gòu)建極限隨機(jī)森林模型
4.5 實(shí)驗(yàn)結(jié)果分析
4.5.1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置
4.5.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.5.3 仿真結(jié)果分析
4.5.4 對(duì)比實(shí)驗(yàn)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來(lái)工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]基于隨機(jī)森林的Android惡意軟件檢測(cè)方法研究[J]. 宋鑫,趙楷,張琳琳,方文波. 信息網(wǎng)絡(luò)安全. 2019(09)
[2]基于Spark和隨機(jī)森林的乳腺癌風(fēng)險(xiǎn)預(yù)測(cè)分析[J]. 苗立志,刁繼堯,婁沖,崔進(jìn)東. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(08)
[3]基于機(jī)器學(xué)習(xí)的新生兒壞死性小腸結(jié)腸炎的鑒別診斷[J]. 高文靜,梁會(huì)營(yíng),鐘微,呂俊健. 中國(guó)數(shù)字醫(yī)學(xué). 2019(03)
[4]一種基于快速k-近鄰的最小生成樹(shù)離群檢測(cè)方法[J]. 朱利,邱媛媛,于帥,原盛. 計(jì)算機(jī)學(xué)報(bào). 2017(12)
[5]基于隨機(jī)森林算法的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 沈晶磊,虞慧群,范貴生,郭健美. 計(jì)算機(jī)科學(xué). 2017(11)
[6]一種結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇方法[J]. 吳辰文,王偉,李長(zhǎng)生,梁靖涵,閆光輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(06)
[7]基于對(duì)稱不確定性和SVM遞歸特征消除的信息基因選擇方法[J]. 葉明全,高凌云,伍長(zhǎng)榮,萬(wàn)春圓. 模式識(shí)別與人工智能. 2017(05)
[8]基于隨機(jī)森林的K最近鄰算法[J]. 江昆,白旭英,車金星. 南昌工程學(xué)院學(xué)報(bào). 2016(06)
[9]基于類別特征選擇與反饋學(xué)習(xí)隨機(jī)森林算法的郵件過(guò)濾系統(tǒng)研究[J]. 孫雪,韓蕾,李昆侖. 計(jì)算機(jī)應(yīng)用與軟件. 2015(04)
[10]阿里云實(shí)現(xiàn)Spark的分布式計(jì)算[J]. 張丹陽(yáng),曹維焯,薛志云,何軍. 福建電腦. 2015(02)
本文編號(hào):3671494
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3671494.html
最近更新
教材專著