基于二進制煙花算法的特征選擇方法
本文關鍵詞: 詞文本分類 特征選擇 二進制煙花算法 信息增益 卡方統(tǒng)計量 出處:《情報學報》2017年03期 論文類型:期刊論文
【摘要】:文本分類中的特征選擇方法對分類性能有重要的影響。煙花算法是一種解決優(yōu)化問題的群體智能優(yōu)化方法,而特征選擇的本質是離散空間的優(yōu)化組合問題。本文采用二進制編碼方式,將煙花算法應用到特征選擇上,通過改進二進制煙花算法及其參數(shù)設置,從而達到提高分類性能的目的。實驗數(shù)據(jù)使用中英文兩種語料庫,其中英文數(shù)據(jù)使用路透社的21578經(jīng)典文本分類語料庫(Reuters21578)的R8單標簽語料集;中文數(shù)據(jù)使用復旦語料庫,每種語料庫隨機抽取訓練文本和測試文本各為1800篇。分別使用KNN、SVM分類器在預選維數(shù)為300維、600維、900維、1200維、2000維、3000維、4000維、5000維、10000維中進行實驗。結果表明:采用二進制煙花算法對特征詞選擇進行優(yōu)化后,其效果優(yōu)于傳統(tǒng)的特征選擇方法,且具有良好的穩(wěn)定性。
[Abstract]:The feature selection method in text classification has an important effect on the classification performance. Fireworks algorithm is a swarm intelligence optimization method to solve the optimization problem. The essence of feature selection is the optimal combination problem in discrete space. In this paper, the binary coding method is used to apply the fireworks algorithm to feature selection, and the binary fireworks algorithm and its parameter setting are improved. In order to improve the classification performance, the experimental data used two kinds of corpus in Chinese and English, the R8 single label corpus of Reuters21578 (21578 classic text classification corpus of Reuters), and the Fudan corpus of Chinese data. Each corpus randomly extracted 1 800 training texts and 1 800 test texts. Experiments were carried out with KNN SVM classifier in the pre-selected dimension of 300 D, 600 D, 900 D, 1200 D, 2000 D, 3000 D, 3000 D, 3000 D, 5000 D, 5000 D and 10000 D, respectively. The results show that the binary dimension is adopted. After the fireworks algorithm optimizes the selection of feature words, Its effect is superior to the traditional feature selection method and has good stability.
【作者單位】: 中山大學資訊管理學院;
【基金】:國家自然科學基金項目“面向文本分類的多學科協(xié)同建模理論與實驗研究”(71373291) 廣東省科技計劃項目“面向主題的中文語料庫構建方法與技術”(2015A030401037)
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 何勁松,施澤生;特征選擇方法中的信號分析方法研究[J];中國科學技術大學學報;2001年01期
2 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機系統(tǒng);2008年12期
3 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學報;2008年S1期
4 王加龍;朱顥東;;結合類別相關性和辨識集的特征選擇方法[J];微型機與應用;2009年23期
5 朱顥東;周姝;鐘勇;;結合差別對象對集的綜合性特征選擇方法[J];計算機工程與設計;2010年03期
6 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
7 姚旭;王曉丹;張玉璽;權文;;特征選擇方法綜述[J];控制與決策;2012年02期
8 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學報;2013年04期
9 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機技術與發(fā)展;2013年12期
10 申清明;閆利軍;高建民;趙靜;;基于混沌搜索的特征選擇方法[J];兵工學報;2013年12期
相關會議論文 前4條
1 肖婷;唐雁;;文本分類中特征選擇方法及應用[A];2008年計算機應用技術交流會論文集[C];2008年
2 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
3 陳慶軒;鄭德權;鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學會2009年學術交流年會論文集[C];2010年
4 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術新進展——第十一屆全國青年通信學術會議論文集[C];2006年
相關博士學位論文 前3條
1 張逸石;基于冗余—互補散度及特征包絡前沿的數(shù)據(jù)驅動特征選擇方法研究[D];華中科技大學;2016年
2 毛勇;基于支持向量機的特征選擇方法的研究與應用[D];浙江大學;2006年
3 裴志利;數(shù)據(jù)挖掘技術在文本分類和生物信息學中的應用[D];吉林大學;2008年
相關碩士學位論文 前10條
1 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學技術大學;2015年
2 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學;2014年
3 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學;2015年
4 于海珠;面向文本聚類的特征選擇方法及應用研究[D];大連理工大學;2015年
5 趙世琛;文本分類中特征選擇方法研究[D];山西大學;2014年
6 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學;2014年
7 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學院;2015年
8 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應用研究[D];南京航空航天大學;2015年
9 張琛馨;文本分類系統(tǒng)設計與實現(xiàn)[D];中山大學;2015年
10 崔明明;視頻底層特征選取及其與觀眾評價的相關分析[D];東北電力大學;2016年
,本文編號:1504560
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1504560.html