基于信息差異性分析的特征選擇算法研究
發(fā)布時間:2021-01-08 02:26
隨著獲取信息技術(shù)的飛速發(fā)展,信息數(shù)據(jù)以前所未有的速度增長和積累,信息社會進入“大數(shù)據(jù)”時代。這些數(shù)據(jù)往往呈現(xiàn)出樣本多、維度高的特點,對機器學(xué)習(xí)和數(shù)據(jù)挖掘帶來了巨大的挑戰(zhàn)。高維數(shù)據(jù)集中往往存在大量冗余的、無關(guān)的甚至是噪聲的信息,這些信息可能對機器學(xué)習(xí)算法的建模造成困擾,如增加計算成本、降低學(xué)習(xí)模型的泛化性能和準(zhǔn)確率等。特征選擇技術(shù)通過剔除原始高維數(shù)據(jù)集中的噪聲、無關(guān)和冗余特征,實現(xiàn)對數(shù)據(jù)集的預(yù)處理,良好的特征選擇結(jié)果可以高效地生成精度更高的機器學(xué)習(xí)模型,因此,針對高維數(shù)據(jù)特征選擇方法的研究具有重要的研究價值和應(yīng)用意義。本文從信息差異性分析的角度出發(fā),在聚類特征選擇、啟發(fā)式特征選擇、深度特征選擇和集成特征選擇方面開展了一系列研究工作。信息差異性可以很好地度量變量之間的分布差異,研究工作采用信息距離度量及其變換和信息交叉熵等信息差異性分析指標(biāo)作為評價判據(jù),研究和設(shè)計新的特征選擇準(zhǔn)則和方法,實驗證明在分類建模中應(yīng)用所提出的特征選擇算法,獲得了良好的分類預(yù)測準(zhǔn)確率。本文研究工作的主要內(nèi)容和貢獻包括以下幾個方面:(1)針對聚類特征選擇算法中特征差異表達不足的問題,利用信息距離作為差異性分析指標(biāo),提...
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:122 頁
【學(xué)位級別】:博士
【部分圖文】:
特征選擇方法
基于信息差異性分析的特征選擇算法研究ClustercenterfifjfkfpInformationdistancespaceoffeaturesCfj"fi"fk"圖3.1基于密度峰值的特征聚類示例設(shè)fi’、fj’和fk’分別為三個簇類中互信息最大的特征,如圖3.1中黃色的點。分類標(biāo)簽C,fi’與C的有如下關(guān)系:"""2(;)()()(,)iiiIfC=HC+HfdfC(3.8)公式(3.8)中H(C)是分類標(biāo)簽熵值,是個固定常量,因而fi’的在信息距離空間的位置受(")(",)iiHfdfC控制,fi’可解釋為與C信息距離較近而熵值較大的特征點?疾靎i’、fj’和fk’,由于信息距離空間中類標(biāo)簽C與聚類中心位置無關(guān),使得fi’、fj’和fk’與所在簇類的聚類中心的位置關(guān)系是隨機的,因而它們的兩兩信息距離和可以由聚類中心的兩兩信息距離和近似表示,即""",{,,},{,,}(,)(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑≈∑(3.9)由于在密度峰值聚類中,聚類中心的距離被最大化,因而選取的fi’、fj’和fk’之間的距離也被近似最大化,即""",{,,},{,,}max(,)max(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑∑(3.10)同時它們是各自簇類中與類標(biāo)簽互信息最大的特征,因此,特征子集{fi’,fj’,fk’}可看作是公式(3.4)的一個近似解。設(shè)S為每個簇類中與類標(biāo)簽互信息最大特征組成的特征子集,CS為每個簇類中聚類中心組成的特征子集,將公式(3.10)一般化,有,,max(,)max(,)rsuvrsuvffSffCSdffdff∈∈∑∑(3.11)27
基于信息差異性分析的特征選擇算法研究(g)(h)圖5.4噪聲比率對分類準(zhǔn)確率的影響整體而言,對于所有的數(shù)據(jù)集,四個分類器的大部分準(zhǔn)確率峰值都大于0.9。其中,NervousSystem、BreastCancer、ALLLeukemia、Prostate和Gliomas數(shù)據(jù)集在KNN1和NBC分類器上取得了接近或等于1的最優(yōu)準(zhǔn)確率;BreastCancer、ALLLeukemia和Prostate數(shù)據(jù)集在SVM和C4.5分類器上取得了接近或等于1的最優(yōu)準(zhǔn)確率。參考前面章節(jié)的這些數(shù)據(jù)集在SVM、KNN1、NBC和C4.5上分類準(zhǔn)確率的表現(xiàn),可以看到HDAECE算法的表現(xiàn)更為優(yōu)異,這主要是由于降噪自動編碼獲取了分類能力強的高層特征,即使在噪聲比率為0,即在普通自動編碼的情況下,HDAECE算法也有不錯的表現(xiàn)。同時,注意到對于所有數(shù)據(jù)集,SVM和KNN1分類器的最優(yōu)準(zhǔn)確率值都不在噪聲比率為0的位置上,大部分數(shù)據(jù)集的最優(yōu)準(zhǔn)確率值處于0.02或0.03位置。但隨著噪聲比率的增大,大于0.1后,絕大部分準(zhǔn)確率曲線急劇下降,甚至在噪聲比率為0.2時準(zhǔn)確率下降10個百分點以上。這主要是由于表達譜數(shù)據(jù)都是小樣本集造成的,過多的噪聲添加改變了隱藏的分類模式。綜合起來看,對于數(shù)據(jù)表數(shù)據(jù)采用降噪自動編碼器(噪聲比率小于0.05)能夠得到分類能力強和魯棒性好的高層特征,進而可以構(gòu)建更準(zhǔn)確的分類器。5.5.3不同高層特征選擇數(shù)對算法的影響本節(jié)考查高層特征選擇數(shù)||gF對分類器分類性能的影響,在此考查高層特征選擇率(||/||ggFF)為0.2、0.4、0.6、0.8和1的情況下HDAECE算法的準(zhǔn)確率。注意當(dāng)||/||ggFF為1時,表示高層特征沒有進行特征選擇。另外一個重要參數(shù)噪聲比率(CorruptionLevel)取固定值,考慮到圖5.4中SVM和KNN1分類器的最優(yōu)準(zhǔn)確率值大都位于0.02或0.03,故噪聲比率取為(0.02+0.03)/2=0.025。實驗結(jié)果用圖的形式給出
本文編號:2963723
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:122 頁
【學(xué)位級別】:博士
【部分圖文】:
特征選擇方法
基于信息差異性分析的特征選擇算法研究ClustercenterfifjfkfpInformationdistancespaceoffeaturesCfj"fi"fk"圖3.1基于密度峰值的特征聚類示例設(shè)fi’、fj’和fk’分別為三個簇類中互信息最大的特征,如圖3.1中黃色的點。分類標(biāo)簽C,fi’與C的有如下關(guān)系:"""2(;)()()(,)iiiIfC=HC+HfdfC(3.8)公式(3.8)中H(C)是分類標(biāo)簽熵值,是個固定常量,因而fi’的在信息距離空間的位置受(")(",)iiHfdfC控制,fi’可解釋為與C信息距離較近而熵值較大的特征點?疾靎i’、fj’和fk’,由于信息距離空間中類標(biāo)簽C與聚類中心位置無關(guān),使得fi’、fj’和fk’與所在簇類的聚類中心的位置關(guān)系是隨機的,因而它們的兩兩信息距離和可以由聚類中心的兩兩信息距離和近似表示,即""",{,,},{,,}(,)(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑≈∑(3.9)由于在密度峰值聚類中,聚類中心的距離被最大化,因而選取的fi’、fj’和fk’之間的距離也被近似最大化,即""",{,,},{,,}max(,)max(,)rsijkuvijkrsuvffffffffffdffdff∈∈∑∑(3.10)同時它們是各自簇類中與類標(biāo)簽互信息最大的特征,因此,特征子集{fi’,fj’,fk’}可看作是公式(3.4)的一個近似解。設(shè)S為每個簇類中與類標(biāo)簽互信息最大特征組成的特征子集,CS為每個簇類中聚類中心組成的特征子集,將公式(3.10)一般化,有,,max(,)max(,)rsuvrsuvffSffCSdffdff∈∈∑∑(3.11)27
基于信息差異性分析的特征選擇算法研究(g)(h)圖5.4噪聲比率對分類準(zhǔn)確率的影響整體而言,對于所有的數(shù)據(jù)集,四個分類器的大部分準(zhǔn)確率峰值都大于0.9。其中,NervousSystem、BreastCancer、ALLLeukemia、Prostate和Gliomas數(shù)據(jù)集在KNN1和NBC分類器上取得了接近或等于1的最優(yōu)準(zhǔn)確率;BreastCancer、ALLLeukemia和Prostate數(shù)據(jù)集在SVM和C4.5分類器上取得了接近或等于1的最優(yōu)準(zhǔn)確率。參考前面章節(jié)的這些數(shù)據(jù)集在SVM、KNN1、NBC和C4.5上分類準(zhǔn)確率的表現(xiàn),可以看到HDAECE算法的表現(xiàn)更為優(yōu)異,這主要是由于降噪自動編碼獲取了分類能力強的高層特征,即使在噪聲比率為0,即在普通自動編碼的情況下,HDAECE算法也有不錯的表現(xiàn)。同時,注意到對于所有數(shù)據(jù)集,SVM和KNN1分類器的最優(yōu)準(zhǔn)確率值都不在噪聲比率為0的位置上,大部分數(shù)據(jù)集的最優(yōu)準(zhǔn)確率值處于0.02或0.03位置。但隨著噪聲比率的增大,大于0.1后,絕大部分準(zhǔn)確率曲線急劇下降,甚至在噪聲比率為0.2時準(zhǔn)確率下降10個百分點以上。這主要是由于表達譜數(shù)據(jù)都是小樣本集造成的,過多的噪聲添加改變了隱藏的分類模式。綜合起來看,對于數(shù)據(jù)表數(shù)據(jù)采用降噪自動編碼器(噪聲比率小于0.05)能夠得到分類能力強和魯棒性好的高層特征,進而可以構(gòu)建更準(zhǔn)確的分類器。5.5.3不同高層特征選擇數(shù)對算法的影響本節(jié)考查高層特征選擇數(shù)||gF對分類器分類性能的影響,在此考查高層特征選擇率(||/||ggFF)為0.2、0.4、0.6、0.8和1的情況下HDAECE算法的準(zhǔn)確率。注意當(dāng)||/||ggFF為1時,表示高層特征沒有進行特征選擇。另外一個重要參數(shù)噪聲比率(CorruptionLevel)取固定值,考慮到圖5.4中SVM和KNN1分類器的最優(yōu)準(zhǔn)確率值大都位于0.02或0.03,故噪聲比率取為(0.02+0.03)/2=0.025。實驗結(jié)果用圖的形式給出
本文編號:2963723
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2963723.html
最近更新
教材專著