基于子類問題特征曲線的特征選擇算法的研究
發(fā)布時間:2021-03-26 12:51
特征選擇是數(shù)據(jù)預(yù)處理的關(guān)鍵一步,是一種有效的降維方法。目前特征選擇已經(jīng)應(yīng)用于許多方面,如文本挖掘、圖像處理、入侵檢測、基因組分析等等。特征選擇方法可以根據(jù)一定的準(zhǔn)則對不相關(guān)和冗余的特征進行區(qū)分和剔除,最終找到特征的子集,減少數(shù)據(jù)的維數(shù),從而使學(xué)習(xí)算法更高效,結(jié)果更準(zhǔn)確。常見的特征的選擇方法分為三種,分別為Filter、Wrapper、Embedded。Filter方法利用某種類別的可分性度量從一個特征集當(dāng)中挑出最有利于分類的特征,通常Filter方法的效率較高,但是精度一般。而Wrapper方法是特征選擇結(jié)合在學(xué)習(xí)算法過程中,特征子集的評價標(biāo)準(zhǔn)和學(xué)習(xí)算法的性能相關(guān),Wrapper方法往往精度較高而效率低下。Embedded方法使用某些機器學(xué)習(xí)的算法和模型進行訓(xùn)練,得到各個特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法,但是是通過訓(xùn)練來確定特征的優(yōu)劣。一般來說,Filter方法只用一個分?jǐn)?shù)來評判特征對所有類別的綜合分類能力,分值越高分類能力越強,然而很多文獻已表明只選擇分?jǐn)?shù)高的特征往往不能取得很好的效果。針對這一問題,本文引入了子類問題特征曲線的新方法(Feature ...
【文章來源】:天津師范大學(xué)天津市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1特征選擇方法在DNA微陣列中的分析??
習(xí)任務(wù)的難度。??基本的特征選擇主要分2步:生成候選的特征子集,通過度量函數(shù)對候選子??集進行評價并生成最終子集。生成過程如下圖2-1所示:??初始特征f集|?|候選子集???????生成集???評價子集??-—??行?足?|?..一?1??圖2-1特征子集選擇過程??2.1.1過濾式(Filter)特征選擇方法??過濾式方法先對數(shù)據(jù)集進行特征選擇,然后再訓(xùn)練分類器,特征選擇過程與??后續(xù)的分類器無關(guān),這相當(dāng)于先用特征選擇過程對初始特征進行過濾,再用過濾??后的特征進行訓(xùn)練。??9??
的應(yīng)用當(dāng)中已經(jīng)不多見了。??3_2.2拐點??以信息增益作為本次特征選擇的評價指標(biāo)為例,如圖3-1所示,FCFS對每??個子類問題計算所有特征的IG值,并按特征的IG值進行降序排序,然后將排序??好的IG值和對應(yīng)的特征索引進行特征曲線的擬合,橫坐標(biāo)代表特征標(biāo)簽,縱坐??標(biāo)則代表了對應(yīng)特征的IG值。在特征選擇中,擬合出的特征曲線代表了在該子??類問題中每個特征的分類能力曲線。在研宄中,發(fā)現(xiàn)子類問題的特征分類能力曲??線通常呈近似“L”型,如圖3-1所示,給出了?SCADI數(shù)據(jù)集上(5,?1)子類問題的??特征曲線。這表明只有少數(shù)特征對該子類問題的分類能力較強,大多數(shù)特征對于??該子類問題分類能力比較弱,在選擇的過程中應(yīng)該被舍。本篇文章通過定義一個??閾值來對特征對于子類問題分類能力的強弱來進行判定
本文編號:3101616
【文章來源】:天津師范大學(xué)天津市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1特征選擇方法在DNA微陣列中的分析??
習(xí)任務(wù)的難度。??基本的特征選擇主要分2步:生成候選的特征子集,通過度量函數(shù)對候選子??集進行評價并生成最終子集。生成過程如下圖2-1所示:??初始特征f集|?|候選子集???????生成集???評價子集??-—??行?足?|?..一?1??圖2-1特征子集選擇過程??2.1.1過濾式(Filter)特征選擇方法??過濾式方法先對數(shù)據(jù)集進行特征選擇,然后再訓(xùn)練分類器,特征選擇過程與??后續(xù)的分類器無關(guān),這相當(dāng)于先用特征選擇過程對初始特征進行過濾,再用過濾??后的特征進行訓(xùn)練。??9??
的應(yīng)用當(dāng)中已經(jīng)不多見了。??3_2.2拐點??以信息增益作為本次特征選擇的評價指標(biāo)為例,如圖3-1所示,FCFS對每??個子類問題計算所有特征的IG值,并按特征的IG值進行降序排序,然后將排序??好的IG值和對應(yīng)的特征索引進行特征曲線的擬合,橫坐標(biāo)代表特征標(biāo)簽,縱坐??標(biāo)則代表了對應(yīng)特征的IG值。在特征選擇中,擬合出的特征曲線代表了在該子??類問題中每個特征的分類能力曲線。在研宄中,發(fā)現(xiàn)子類問題的特征分類能力曲??線通常呈近似“L”型,如圖3-1所示,給出了?SCADI數(shù)據(jù)集上(5,?1)子類問題的??特征曲線。這表明只有少數(shù)特征對該子類問題的分類能力較強,大多數(shù)特征對于??該子類問題分類能力比較弱,在選擇的過程中應(yīng)該被舍。本篇文章通過定義一個??閾值來對特征對于子類問題分類能力的強弱來進行判定
本文編號:3101616
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3101616.html
最近更新
教材專著