基于譜特征分析和卡方檢驗的特征選擇方法研究
發(fā)布時間:2022-01-05 15:43
維度降低是處理大型高維度數(shù)據(jù)必須面臨的一個重要問題。特征選擇就是在大型數(shù)據(jù)集上選擇原始特征的一個子集,預處理數(shù)據(jù)以獲得一組較小的有代表性的特征集合。從有無類標簽參與特征選擇的角度,將特征選擇方法分為監(jiān)督型特征選擇、無監(jiān)督特征選擇和半監(jiān)督特征選擇。由于無監(jiān)督特征選擇方法只考慮了特征之間的相關性,而忽略了特征與類別之間的相關性,導致了無監(jiān)督特征選擇獲得的特征子集的分類能力較弱,比如基于譜圖理論的譜特征選擇。而一些監(jiān)督特征選擇方法只考慮了特征與分類類別之間的相關性,不能很好的考慮到特征之間的冗余,造成了特征子集中有很多特征是相互關聯(lián)的,影響了特征的獨立性以及分類的準確性。因此本文提出了一種基于譜特征分析和卡方檢驗的特征選擇方法。使用譜分析評價特征之間的相關性,使用卡方檢驗評價特征與類別標簽之間的相關性。監(jiān)督學習部分的卡方檢驗通過觀察值和理論值之間的偏差來判斷理論值的正確率,特征選擇時應該更優(yōu)先選擇卡方值更高的特征。無監(jiān)督學習部分的譜聚類方法首先需要計算給定的樣本數(shù)據(jù)集中每對樣本點之間的相似性,來得到一個相似性矩陣,進而構建出一個鄰接圖,最后通過圖的歸一化切分(Normalized Cut)得...
【文章來源】:天津師范大學天津市
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【部分圖文】:
圖1.1特征選擇分類??
首先來描述譜特征分析部分,譜特征分析主要應用譜聚類算法,使用譜圖理??論將聚類問題轉化為圖的最優(yōu)切分問題來找到最佳特征子集。為了方便描述譜分??析,我們用如下圖3.1的樣本分布來描述。圖中每個圖形(三角形和圓形)表示??一個樣本,不同的形狀表示這些樣本在同一特征上的不同取值,補圓J和橢圓J5??表示類J和類別5,?F1和F2表示兩個特征。左圖中,相同類別的樣本在特征F1??上取值相同,而具有不同類別的樣本在特征F1上取值不同,此時稱特征F1的取值??分布與類別結構一致,具有更好的判別能力。而右圖中,特征F2判別能力要明顯??弱于F1。??圖3.1譜特征分析??19??
?30??num?of?features??圖3.3?Ionosphere數(shù)據(jù)集實驗結果??1.在三個工程領域的數(shù)據(jù)集上的實驗結果??圖3.3顯示了在Ionosphere數(shù)據(jù)集上使用不同特征選擇方法的實驗結果比??較,可以看出,當取前5個特征時,SpeChi方法的分類準確率首先達到了最高,??并且在取前10個特征進行實驗時,SpeChi方法基本占據(jù)壓倒性優(yōu)勢,對于這個??數(shù)據(jù)集特征選擇優(yōu)勢特別明顯,可以有效地降低數(shù)據(jù)維度,并保證了分類器的正??確率達到90%以上。??average?ACC?of?sonar??^一^!?7?上??*Tj?IG??j?;?|MCFS??so-?/?——一一??'--—--——?SSi??A?-X-?SPEC??0?10?20?30?40?50?60??num?of?features??圖3.4?sonar數(shù)據(jù)集實驗結果??圖3.4顯示了在sonar數(shù)據(jù)集上使用不同特征選擇方法的實驗結果比較,可??以看出,在前期取前20個特征過程中,SpeChi方法基本可以和SPEC方法抗衡,??并且要優(yōu)于ReliefF,在取20個到40個特征時,己經優(yōu)于SPEC方法,并且可??以和ReliefF對抗
【參考文獻】:
期刊論文
[1]基于最大相關信息系數(shù)的FCBF特征選擇算法[J]. 張俐,袁玉宇,王樅. 北京郵電大學學報. 2018(04)
[2]譜聚類算法綜述[J]. 蔡曉妍,戴冠中,楊黎斌. 計算機科學. 2008(07)
[3]基于互信息的文本特征選擇方法研究與改進[J]. 劉健,張維明. 計算機工程與應用. 2008(10)
[4]基于條件信息熵的自主式樸素貝葉斯分類算法[J]. 鄧維斌,黃蜀江,周玉敏. 計算機應用. 2007(04)
本文編號:3570620
【文章來源】:天津師范大學天津市
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【部分圖文】:
圖1.1特征選擇分類??
首先來描述譜特征分析部分,譜特征分析主要應用譜聚類算法,使用譜圖理??論將聚類問題轉化為圖的最優(yōu)切分問題來找到最佳特征子集。為了方便描述譜分??析,我們用如下圖3.1的樣本分布來描述。圖中每個圖形(三角形和圓形)表示??一個樣本,不同的形狀表示這些樣本在同一特征上的不同取值,補圓J和橢圓J5??表示類J和類別5,?F1和F2表示兩個特征。左圖中,相同類別的樣本在特征F1??上取值相同,而具有不同類別的樣本在特征F1上取值不同,此時稱特征F1的取值??分布與類別結構一致,具有更好的判別能力。而右圖中,特征F2判別能力要明顯??弱于F1。??圖3.1譜特征分析??19??
?30??num?of?features??圖3.3?Ionosphere數(shù)據(jù)集實驗結果??1.在三個工程領域的數(shù)據(jù)集上的實驗結果??圖3.3顯示了在Ionosphere數(shù)據(jù)集上使用不同特征選擇方法的實驗結果比??較,可以看出,當取前5個特征時,SpeChi方法的分類準確率首先達到了最高,??并且在取前10個特征進行實驗時,SpeChi方法基本占據(jù)壓倒性優(yōu)勢,對于這個??數(shù)據(jù)集特征選擇優(yōu)勢特別明顯,可以有效地降低數(shù)據(jù)維度,并保證了分類器的正??確率達到90%以上。??average?ACC?of?sonar??^一^!?7?上??*Tj?IG??j?;?|MCFS??so-?/?——一一??'--—--——?SSi??A?-X-?SPEC??0?10?20?30?40?50?60??num?of?features??圖3.4?sonar數(shù)據(jù)集實驗結果??圖3.4顯示了在sonar數(shù)據(jù)集上使用不同特征選擇方法的實驗結果比較,可??以看出,在前期取前20個特征過程中,SpeChi方法基本可以和SPEC方法抗衡,??并且要優(yōu)于ReliefF,在取20個到40個特征時,己經優(yōu)于SPEC方法,并且可??以和ReliefF對抗
【參考文獻】:
期刊論文
[1]基于最大相關信息系數(shù)的FCBF特征選擇算法[J]. 張俐,袁玉宇,王樅. 北京郵電大學學報. 2018(04)
[2]譜聚類算法綜述[J]. 蔡曉妍,戴冠中,楊黎斌. 計算機科學. 2008(07)
[3]基于互信息的文本特征選擇方法研究與改進[J]. 劉健,張維明. 計算機工程與應用. 2008(10)
[4]基于條件信息熵的自主式樸素貝葉斯分類算法[J]. 鄧維斌,黃蜀江,周玉敏. 計算機應用. 2007(04)
本文編號:3570620
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3570620.html
最近更新
教材專著