基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
本文關(guān)鍵詞: 特征選擇 最大信息系數(shù) 近似馬爾科夫毯 特征相關(guān)性 特征冗余性 出處:《自動(dòng)化學(xué)報(bào)》2017年05期 論文類型:期刊論文
【摘要】:最大信息系數(shù)(Maximum information coefficient,MIC)可以對(duì)變量間的線性和非線性關(guān)系,以及非函數(shù)依賴關(guān)系進(jìn)行有效度量.本文首先根據(jù)最大信息系數(shù)理論,提出了一種評(píng)價(jià)各維特征間以及每維特征與類別間相關(guān)性的度量標(biāo)準(zhǔn),然后提出了基于新度量標(biāo)準(zhǔn)的近似馬爾科夫毯特征選擇方法,刪除冗余特征.在此基礎(chǔ)上提出了基于特征排序和近似馬爾科夫毯的兩階段特征選擇方法,分別對(duì)特征的相關(guān)性和冗余性進(jìn)行分析,選擇有效的特征子集.在UCI和ASU上的多個(gè)公開數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文提出的方法總體優(yōu)于快速相關(guān)濾波(Fast correlation-based filter,FCBF)方法,與Relief F,FAST,Lasso和RFS方法相比也具有優(yōu)勢(shì).
[Abstract]:The maximum information coefficient can be used to measure the linear and nonlinear relationships among variables, as well as non-functional dependencies. In this paper, a metric is proposed to evaluate the correlation between the features of each dimension, and the correlation between the features of each dimension and the categories. Then, an approximate Markov carpet feature selection method based on the new metric is proposed. Based on the deletion of redundant features, a two-stage feature selection method based on feature ranking and approximate Markov blanket is proposed, and the correlation and redundancy of features are analyzed respectively. The comparison experiments on several open datasets on UCI and ASU show that the proposed method is superior to the fast correlation filter fast correlation-based filter method and also has advantages over the Relief FAST Lasso and RFS methods.
【作者單位】: 哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;哈爾濱理工大學(xué)信息安全與智能技術(shù)研究中心;
【基金】:國(guó)家自然科學(xué)基金(60903083,61502123) 黑龍江省新世紀(jì)人才項(xiàng)目(1155-ncet-008)資助~~
【分類號(hào)】:TP301.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計(jì)算機(jī)系統(tǒng);2008年12期
2 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學(xué)報(bào);2008年S1期
3 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識(shí)集的特征選擇方法[J];微型機(jī)與應(yīng)用;2009年23期
4 朱顥東;周姝;鐘勇;;結(jié)合差別對(duì)象對(duì)集的綜合性特征選擇方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年03期
5 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
6 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
7 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學(xué)報(bào);2013年04期
8 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年12期
9 申清明;閆利軍;高建民;趙靜;;基于混沌搜索的特征選擇方法[J];兵工學(xué)報(bào);2013年12期
10 蔣宗禮;李涵昱;;面向排序?qū)W習(xí)的錦標(biāo)賽排序特征選擇方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年02期
相關(guān)會(huì)議論文 前4條
1 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
2 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年
4 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)博士學(xué)位論文 前2條
1 毛勇;基于支持向量機(jī)的特征選擇方法的研究與應(yīng)用[D];浙江大學(xué);2006年
2 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學(xué)中的應(yīng)用[D];吉林大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張強(qiáng);靜態(tài)圖像上的行人檢測(cè)方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
2 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學(xué);2014年
3 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學(xué);2015年
4 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學(xué);2015年
5 趙世琛;文本分類中特征選擇方法研究[D];山西大學(xué);2014年
6 林艷峰;中文文本分類特征選擇方法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
7 盧志浩;基于GEP的kNN算法改進(jìn)研究[D];廣西師范學(xué)院;2015年
8 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學(xué);2015年
9 張琛馨;文本分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2015年
10 崔明明;視頻底層特征選取及其與觀眾評(píng)價(jià)的相關(guān)分析[D];東北電力大學(xué);2016年
,本文編號(hào):1512450
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1512450.html