基于RF與LSSVM模型對非均衡高維小樣本數(shù)據(jù)的分類研究
發(fā)布時(shí)間:2022-09-28 21:06
在信息爆炸的新時(shí)代,由于全球科技與經(jīng)濟(jì)迅猛發(fā)展,數(shù)據(jù)充斥在各行各業(yè),數(shù)據(jù)的結(jié)構(gòu)也變得多樣化。其中對于數(shù)據(jù)的分類最常見,伴隨著數(shù)據(jù)分類的同時(shí)出現(xiàn)兩大處理難點(diǎn),一個(gè)是非均衡問題,另一個(gè)就是高維問題。但是傳統(tǒng)的數(shù)據(jù)方法在進(jìn)行數(shù)據(jù)挖掘時(shí),低維平衡數(shù)據(jù)被重點(diǎn)關(guān)注,傳統(tǒng)分類方法有線性判別分析、Logistic判別模型、支持向量機(jī)算法、K近鄰算法、決策樹算法、隨機(jī)森林算法、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、等。但是目前各個(gè)領(lǐng)域充斥著大量高維非均衡數(shù)據(jù),而傳統(tǒng)方法對非均衡數(shù)據(jù)分類問題的關(guān)注比較缺失。目前對于非均衡數(shù)據(jù)分類時(shí),由于數(shù)量本身的嚴(yán)重偏斜,分類器整體的分類準(zhǔn)確度良好恰恰歸功于多數(shù)類樣本的正確分類,然而我們分類的目的往往是更重視少數(shù)樣本的精度,所以運(yùn)用常見的分類算法直接對非平衡數(shù)據(jù)集進(jìn)行分類是不理想的;另一個(gè)高維數(shù)據(jù)的處理也是模型識別領(lǐng)域研究中的難點(diǎn),從數(shù)據(jù)的特征集中甄別出必要的、具有代表性的、足以識別目標(biāo)的最小特征子集,從而達(dá)到降低特征空間維度的目的。因此探究高維非均衡數(shù)據(jù)的分類處理涉及各個(gè)領(lǐng)域的發(fā)展。高維非均衡數(shù)據(jù)的處理與分類問題在數(shù)據(jù)挖掘方面尤為重要,本文針對處理高維非均衡數(shù)據(jù)的基礎(chǔ)算法隨機(jī)森林(Random...
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題的背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容與技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線圖
1.4 創(chuàng)新之處和論文結(jié)構(gòu)
1.4.1 創(chuàng)新之處
1.4.2 論文結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)
2.1 數(shù)據(jù)集介紹
2.2 隨機(jī)森林算法
2.2.1 隨機(jī)森林的基分類器--決策樹
2.2.2 隨機(jī)森林的構(gòu)建
2.2.3 隨機(jī)森林的特征重要性選取
2.2.4 隨機(jī)森林的缺點(diǎn)以及本文提出的解決辦法
2.3 標(biāo)準(zhǔn)粒子優(yōu)化群算法
2.4 SMOTE算法
2.4.1 SMOTE算法的原理
2.4.2 SMOTE算法的缺點(diǎn)以及本文提出的解決辦法
2.5 動(dòng)態(tài)離差平方和準(zhǔn)則
2.6 最小二乘支持向量機(jī)算法
3 高維非均衡邊界混合數(shù)據(jù)的優(yōu)化處理
3.1 高維數(shù)據(jù)降維處理優(yōu)化算法
3.1.1 特征選取--MOG算法
3.1.2 MOG算法步驟
3.2 非均衡邊界混合數(shù)據(jù)處理優(yōu)化算法
3.2.1 均衡算法--PDSSD-TSMOTE算法
3.2.2 PDSSD-TSMOTE算法步驟
4 優(yōu)化算法驗(yàn)證實(shí)驗(yàn)
4.1 基于MOG算法降維處理
4.1.1 隨機(jī)森林算法參數(shù)設(shè)置
4.1.2 隨機(jī)森林算法下的兩種特征評價(jià)標(biāo)準(zhǔn)
4.1.3 MOG算法參數(shù)設(shè)置
4.1.4 MOG算法與“分段式剃須法”下的特征提取
4.2 基于PDSSD-TSMOTE算法對數(shù)據(jù)均衡實(shí)驗(yàn)
4.2.1 PDSSD-TSMOTE算法下的均衡實(shí)驗(yàn)
4.2.2 PDSSD-TSMOTE算法下的均衡實(shí)驗(yàn)參數(shù)設(shè)置
4.2.3 PDSSD-TSMOTE算法下均衡數(shù)據(jù)的分類結(jié)果
5 基于最小二乘支持向量機(jī)模型對高維非均衡數(shù)據(jù)的分類
5.1 MOG算法與PDSSD-TSMOTE算法與傳統(tǒng)方法對數(shù)據(jù)整合的效果比較
5.2 不同算法的時(shí)間復(fù)雜度與計(jì)算效率比較分析
5.2.1 均衡與降維算法的時(shí)間復(fù)雜度比較分析
5.2.2 均衡與降維以及分類算法的時(shí)間效率比較分析
6 結(jié)論與展望
6.1 全文總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]特征選擇方法綜述[J]. 李郅琴,杜建強(qiáng),聶斌,熊旺平,黃燦奕,李歡. 計(jì)算機(jī)工程與應(yīng)用. 2019(24)
[2]基于Wavelet leader和優(yōu)化的等距映射算法的回轉(zhuǎn)支承自適應(yīng)特征提取[J]. 趙祥龍,陳捷,洪榮晶,王華,李媛媛. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(11)
[3]金融危機(jī)預(yù)警模型與先導(dǎo)指標(biāo)選擇[J]. 王克達(dá). 金融監(jiān)管研究. 2019(08)
[4]基于變分模態(tài)分解-BA-LSSVM算法的配電網(wǎng)短期負(fù)荷預(yù)測[J]. 趙鳳展,郝帥,張宇,杜松懷,單葆國,蘇娟,井天軍,趙婷婷. 農(nóng)業(yè)工程學(xué)報(bào). 2019(14)
[5]小波核局部Fisher判別分析的高光譜遙感影像特征提取[J]. 張輝,劉萬軍,呂歡歡. 模式識別與人工智能. 2019(07)
[6]改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計(jì)算機(jī)應(yīng)用. 2019(09)
[7]基于動(dòng)態(tài)離差平方和準(zhǔn)則的無監(jiān)督機(jī)器學(xué)習(xí)[J]. 肖枝洪,于浩,王一超. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2018(11)
[8]基于信息增益的SFT中故障影響因素降維方法研究[J]. 崔鐵軍,李莎莎,韓光,姜福川. 安全與環(huán)境學(xué)報(bào). 2018(05)
[9]基于非均衡模糊近似支持向量機(jī)的P2P網(wǎng)貸借款人信用風(fēng)險(xiǎn)評估及應(yīng)用[J]. 張衛(wèi)國,盧媛媛,劉勇軍. 系統(tǒng)工程理論與實(shí)踐. 2018(10)
[10]改進(jìn)SMOTE的非平衡數(shù)據(jù)集分類算法研究[J]. 趙清華,張藝豪,馬建芬,段倩倩. 計(jì)算機(jī)工程與應(yīng)用. 2018(18)
博士論文
[1]面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D]. 姚登舉.哈爾濱工程大學(xué) 2016
本文編號:3682386
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題的背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容與技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線圖
1.4 創(chuàng)新之處和論文結(jié)構(gòu)
1.4.1 創(chuàng)新之處
1.4.2 論文結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)
2.1 數(shù)據(jù)集介紹
2.2 隨機(jī)森林算法
2.2.1 隨機(jī)森林的基分類器--決策樹
2.2.2 隨機(jī)森林的構(gòu)建
2.2.3 隨機(jī)森林的特征重要性選取
2.2.4 隨機(jī)森林的缺點(diǎn)以及本文提出的解決辦法
2.3 標(biāo)準(zhǔn)粒子優(yōu)化群算法
2.4 SMOTE算法
2.4.1 SMOTE算法的原理
2.4.2 SMOTE算法的缺點(diǎn)以及本文提出的解決辦法
2.5 動(dòng)態(tài)離差平方和準(zhǔn)則
2.6 最小二乘支持向量機(jī)算法
3 高維非均衡邊界混合數(shù)據(jù)的優(yōu)化處理
3.1 高維數(shù)據(jù)降維處理優(yōu)化算法
3.1.1 特征選取--MOG算法
3.1.2 MOG算法步驟
3.2 非均衡邊界混合數(shù)據(jù)處理優(yōu)化算法
3.2.1 均衡算法--PDSSD-TSMOTE算法
3.2.2 PDSSD-TSMOTE算法步驟
4 優(yōu)化算法驗(yàn)證實(shí)驗(yàn)
4.1 基于MOG算法降維處理
4.1.1 隨機(jī)森林算法參數(shù)設(shè)置
4.1.2 隨機(jī)森林算法下的兩種特征評價(jià)標(biāo)準(zhǔn)
4.1.3 MOG算法參數(shù)設(shè)置
4.1.4 MOG算法與“分段式剃須法”下的特征提取
4.2 基于PDSSD-TSMOTE算法對數(shù)據(jù)均衡實(shí)驗(yàn)
4.2.1 PDSSD-TSMOTE算法下的均衡實(shí)驗(yàn)
4.2.2 PDSSD-TSMOTE算法下的均衡實(shí)驗(yàn)參數(shù)設(shè)置
4.2.3 PDSSD-TSMOTE算法下均衡數(shù)據(jù)的分類結(jié)果
5 基于最小二乘支持向量機(jī)模型對高維非均衡數(shù)據(jù)的分類
5.1 MOG算法與PDSSD-TSMOTE算法與傳統(tǒng)方法對數(shù)據(jù)整合的效果比較
5.2 不同算法的時(shí)間復(fù)雜度與計(jì)算效率比較分析
5.2.1 均衡與降維算法的時(shí)間復(fù)雜度比較分析
5.2.2 均衡與降維以及分類算法的時(shí)間效率比較分析
6 結(jié)論與展望
6.1 全文總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及取得的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]特征選擇方法綜述[J]. 李郅琴,杜建強(qiáng),聶斌,熊旺平,黃燦奕,李歡. 計(jì)算機(jī)工程與應(yīng)用. 2019(24)
[2]基于Wavelet leader和優(yōu)化的等距映射算法的回轉(zhuǎn)支承自適應(yīng)特征提取[J]. 趙祥龍,陳捷,洪榮晶,王華,李媛媛. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(11)
[3]金融危機(jī)預(yù)警模型與先導(dǎo)指標(biāo)選擇[J]. 王克達(dá). 金融監(jiān)管研究. 2019(08)
[4]基于變分模態(tài)分解-BA-LSSVM算法的配電網(wǎng)短期負(fù)荷預(yù)測[J]. 趙鳳展,郝帥,張宇,杜松懷,單葆國,蘇娟,井天軍,趙婷婷. 農(nóng)業(yè)工程學(xué)報(bào). 2019(14)
[5]小波核局部Fisher判別分析的高光譜遙感影像特征提取[J]. 張輝,劉萬軍,呂歡歡. 模式識別與人工智能. 2019(07)
[6]改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計(jì)算機(jī)應(yīng)用. 2019(09)
[7]基于動(dòng)態(tài)離差平方和準(zhǔn)則的無監(jiān)督機(jī)器學(xué)習(xí)[J]. 肖枝洪,于浩,王一超. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2018(11)
[8]基于信息增益的SFT中故障影響因素降維方法研究[J]. 崔鐵軍,李莎莎,韓光,姜福川. 安全與環(huán)境學(xué)報(bào). 2018(05)
[9]基于非均衡模糊近似支持向量機(jī)的P2P網(wǎng)貸借款人信用風(fēng)險(xiǎn)評估及應(yīng)用[J]. 張衛(wèi)國,盧媛媛,劉勇軍. 系統(tǒng)工程理論與實(shí)踐. 2018(10)
[10]改進(jìn)SMOTE的非平衡數(shù)據(jù)集分類算法研究[J]. 趙清華,張藝豪,馬建芬,段倩倩. 計(jì)算機(jī)工程與應(yīng)用. 2018(18)
博士論文
[1]面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D]. 姚登舉.哈爾濱工程大學(xué) 2016
本文編號:3682386
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3682386.html
最近更新
教材專著