基于SAL框架的特征選擇算法
發(fā)布時(shí)間:2021-06-13 03:42
特征選擇作為組合優(yōu)化問題在數(shù)據(jù)挖掘方面是一個(gè)很重要的數(shù)據(jù)預(yù)處理步驟,即通過移除不相關(guān)和冗余的特征來提高學(xué)習(xí)算法的性能。在現(xiàn)實(shí)機(jī)器學(xué)習(xí)過程中,用戶獲得原始數(shù)據(jù)之后先進(jìn)行特征選擇預(yù)處理,用選擇后的特征子集再訓(xùn)練學(xué)習(xí)器。特征選擇之所以重要一是因?yàn)樵诂F(xiàn)實(shí)任務(wù)中獲得到的數(shù)據(jù)都是高維特征,經(jīng)常遇到維數(shù)災(zāi)難,若能從中選擇出有價(jià)值的特征,使得后續(xù)的學(xué)習(xí)階段僅需在一部分特征上建立模型即可,那么維數(shù)災(zāi)難問題就可以得到一部分緩解;另一個(gè)原因是移除不相關(guān)和冗余的特征會降低后續(xù)的學(xué)習(xí)難度。演化算法是許多目前比較流行的解決特征選擇問題的首要選擇(比如森林優(yōu)化算法,粒子群優(yōu)化算法等),通過將演化算法離散化求解最優(yōu)特征子集,FSFOA和POS(4-2)都是基于演化算法的特征選擇算法。近年來一些研究表明,基于演化算法的特征選擇算法比傳統(tǒng)的機(jī)器學(xué)習(xí)特征選擇算法要具有更好的泛化性能,目前的演化算法都遵循sampling-and-learning(SAL)這樣的機(jī)制。Sampling-and-classification(SAC)是SAL的一個(gè)特定版本,在學(xué)習(xí)階段將二元分類器作為一個(gè)模型,指導(dǎo)采樣階段的采樣質(zhì)量,計(jì)算開銷大幅...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
熵隨概率變化曲線
本文編號:3226920
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
熵隨概率變化曲線
本文編號:3226920
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3226920.html
最近更新
教材專著