BPSO-SVM特征選擇及其在分類中的應(yīng)用
發(fā)布時間:2020-09-24 14:12
使用數(shù)據(jù)分類技術(shù)處理大規(guī)模數(shù)據(jù)已經(jīng)逐漸成為機器學(xué)習和數(shù)據(jù)挖掘領(lǐng)域中的一個重要研究方向,同時隨著人們對數(shù)據(jù)信息的掌握和分析的需求不斷增加,對分類方法的性能提出了更高的要求。因此,針對提高分類方法效率,特征選擇方法成為重要研究手段之一。特征選擇方法可以從數(shù)據(jù)樣本中篩選出重要的特征子集,根據(jù)特征子集分類,不但可以滿足初始數(shù)據(jù)樣本的分類需求,還可以提高數(shù)據(jù)分類的準確度,使得數(shù)據(jù)的決策分析結(jié)果更具精準性、更具指導(dǎo)意義。本文主要在特征選擇算法及其在分類算法中不同類型數(shù)據(jù)的應(yīng)用方面展開了研究,主要工作包括以下方面:(1)根據(jù)對特征選擇算法的研究,以二進制粒子群優(yōu)化算法(BPSO)為基礎(chǔ),分析了BPSO算法在特征選擇過程中產(chǎn)生影響的各個因素,通過對算法改進,一方面盡可能減少所選屬性個數(shù),另一方面同時提高分類算法的性能,提出了基于記憶更新和變異增強的ME-BPSO-SVM的特征選擇方法。該算法能在一定程度上能夠克服粒子過早收斂問題,并通過判斷粒子陷入局部最優(yōu)的時機,使粒子及時跳出局部最優(yōu)。實驗結(jié)果表明,ME-BPSO-SVM在找到更加有效的屬性特征子集的同時,可以保持良好的分類性能,阻止粒子過早收斂效果明顯。(2)基于算法ME-BPSO-SVM設(shè)計了新的解決不均衡數(shù)據(jù)分類問題的算法思路:先對SMOTE采樣方法進行修改,在特征選擇的尋優(yōu)過程中重新定義了ME-BPSO-SVM算法評價函數(shù),然后提出了混合改進的SMOTE和ME-BPSOSVM的MSM(Modified SMOTE with ME-BPSO-SVM)算法。MSM算法只針對少數(shù)類中有效的樣本進行采樣,從而減少生成無關(guān)樣本的時間,以消除生成無關(guān)樣本對算法復(fù)雜度的影響,使其適用于不平衡數(shù)據(jù)的分類模型,提升分類算法性能。實驗結(jié)果表明,混合算法MSM能夠選擇更加有效的特征子集,同時驗證了算法MSM在分類性能上有顯著提高。(3)高維小樣本數(shù)據(jù)給傳統(tǒng)的機器學(xué)習和數(shù)據(jù)挖掘方法帶來了挑戰(zhàn),特別是數(shù)據(jù)中不斷增長的維度會使得數(shù)據(jù)包含大量的冗余和不相關(guān)信息,這類信息會導(dǎo)致機器學(xué)習算法的性能大幅降低,引起“維度災(zāi)難”。而在現(xiàn)實中,又不得不面對大量的高維小樣本數(shù)據(jù),尤其是生物信息學(xué)中的DNA微陣列數(shù)據(jù)近年來研究較為廣泛。針對解決高維小樣本數(shù)據(jù)的特征選擇和數(shù)據(jù)分類問題,考慮結(jié)合算法ME-BPSO-SVM和MSM,提出一種新的混合特征選擇方法。該方法采用改進的過濾型方法RT(SVM-RFE with Information Gain),分別混合兩種包裝型算法MEBPSO和MSM。并且將混合算法應(yīng)用于公共數(shù)據(jù)集中有關(guān)DNA的數(shù)據(jù)進行研究,通過大量實驗驗證了提出算法的有效性和可靠性。同時,在實際的孤獨癥病理診斷的DNA微陣列數(shù)據(jù)上應(yīng)用該算法進行分析,并和對文中提出的三種演進方法的實驗結(jié)果進行比較分析。實驗結(jié)果表明,混合算法RT-MEB和RT-MSM能有效解決此類高維小樣本的數(shù)據(jù)分類問題。
【學(xué)位單位】:蘭州大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP18
本文編號:2825827
【學(xué)位單位】:蘭州大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP18
本文編號:2825827
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2825827.html
最近更新
教材專著