基于最近最遠(yuǎn)鄰和互信息的特征選擇方法
本文選題:特征選擇 切入點(diǎn):最近最遠(yuǎn)鄰 出處:《計算機(jī)應(yīng)用研究》2017年12期
【摘要】:隨著數(shù)據(jù)量的增加,特征選擇已經(jīng)成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),提出一種基于最近最遠(yuǎn)鄰的特征選擇算法。一個數(shù)據(jù)點(diǎn)與其最近的鄰點(diǎn)屬于同一集群,與最遠(yuǎn)的鄰點(diǎn)屬于不同的集群,通過計算最近最遠(yuǎn)鄰的特征距離可以得到一種判斷特征重要性的指標(biāo);在此基礎(chǔ)上運(yùn)用互信息方法去除了特征之間的冗余;同時引入了Gradient boosting方法進(jìn)行模型參數(shù)調(diào)優(yōu),提高了分類準(zhǔn)確性。在UCI數(shù)據(jù)集上進(jìn)行分類預(yù)測,結(jié)果表明該算法能夠找到較優(yōu)的特征子集,分類準(zhǔn)確性得到一定提升。
[Abstract]:With the increase of data volume, feature selection has become a hot topic in the field of machine learning and data mining. A feature selection algorithm based on nearest farthest neighbor is proposed. A data point belongs to the same cluster as its nearest neighbor. It is different from the farthest neighbor point. By calculating the distance of the nearest farthest neighbor, we can get an index to judge the importance of the feature, and based on this, we remove the redundancy between the features by using the mutual information method. At the same time, the Gradient boosting method is introduced to optimize the model parameters to improve the classification accuracy. The classification prediction on the UCI dataset shows that the algorithm can find a better feature subset, and the classification accuracy is improved to a certain extent.
【作者單位】: 上海理工大學(xué)管理學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(11505114)
【分類號】:TP181;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 何勁松,施澤生;特征選擇方法中的信號分析方法研究[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2001年01期
2 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機(jī)系統(tǒng);2008年12期
3 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學(xué)報;2008年S1期
4 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識集的特征選擇方法[J];微型機(jī)與應(yīng)用;2009年23期
5 朱顥東;周姝;鐘勇;;結(jié)合差別對象對集的綜合性特征選擇方法[J];計算機(jī)工程與設(shè)計;2010年03期
6 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
7 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
8 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學(xué)報;2013年04期
9 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機(jī)技術(shù)與發(fā)展;2013年12期
10 申清明;閆利軍;高建民;趙靜;;基于混沌搜索的特征選擇方法[J];兵工學(xué)報;2013年12期
相關(guān)會議論文 前4條
1 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計算機(jī)應(yīng)用技術(shù)交流會論文集[C];2008年
2 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機(jī)學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年
4 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年
相關(guān)博士學(xué)位論文 前2條
1 張逸石;基于冗余—互補(bǔ)散度及特征包絡(luò)前沿的數(shù)據(jù)驅(qū)動特征選擇方法研究[D];華中科技大學(xué);2016年
2 毛勇;基于支持向量機(jī)的特征選擇方法的研究與應(yīng)用[D];浙江大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 張強(qiáng);靜態(tài)圖像上的行人檢測方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
2 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學(xué);2014年
3 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學(xué);2015年
4 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學(xué);2015年
5 趙世琛;文本分類中特征選擇方法研究[D];山西大學(xué);2014年
6 林艷峰;中文文本分類特征選擇方法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
7 盧志浩;基于GEP的kNN算法改進(jìn)研究[D];廣西師范學(xué)院;2015年
8 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學(xué);2015年
9 張琛馨;文本分類系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];中山大學(xué);2015年
10 崔明明;視頻底層特征選取及其與觀眾評價的相關(guān)分析[D];東北電力大學(xué);2016年
,本文編號:1697695
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1697695.html