基于詞頻分布信息的優(yōu)化IG特征選擇方法
發(fā)布時間:2019-07-10 09:02
【摘要】:文本特征選擇是文本分類的核心技術(shù)。針對信息增益模型的不足之處,以特征項的頻數(shù)在文本中不同層面的分布為依據(jù),分別從特征項基于文本的類內(nèi)分布、基于詞頻的類內(nèi)分布以及詞頻的類間分布等角度對IG模型逐步進行改進,提出了一種基于詞頻分布信息的優(yōu)化IG特征選擇方法。隨后的文本分類實驗驗證了提出的優(yōu)化IG模型的有效性。
[Abstract]:Text feature selection is the core technology of text classification. In view of the shortcomings of the information gain model, based on the distribution of the frequency of feature items in different levels of the text, the IG model is improved step by step from the point of view of the intra-class distribution of feature items based on text, the intra-class distribution of word frequency and the inter-class distribution of word frequency, and an optimized IG feature selection method based on word frequency distribution information is proposed. Subsequent text classification experiments verify the effectiveness of the proposed optimized IG model.
【作者單位】: 解放軍理工大學理學院;
【基金】:國家自然科學基金(No.61273209) 江蘇省自然科學基金(No.BK2012511)
【分類號】:TP391.1
[Abstract]:Text feature selection is the core technology of text classification. In view of the shortcomings of the information gain model, based on the distribution of the frequency of feature items in different levels of the text, the IG model is improved step by step from the point of view of the intra-class distribution of feature items based on text, the intra-class distribution of word frequency and the inter-class distribution of word frequency, and an optimized IG feature selection method based on word frequency distribution information is proposed. Subsequent text classification experiments verify the effectiveness of the proposed optimized IG model.
【作者單位】: 解放軍理工大學理學院;
【基金】:國家自然科學基金(No.61273209) 江蘇省自然科學基金(No.BK2012511)
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 石慧;賈代平;苗培;;基于詞頻信息的改進信息增益文本特征選擇算法[J];計算機應用;2014年11期
2 郭頌;馬飛;;文本分類中信息增益特征選擇算法的改進[J];計算機應用與軟件;2013年08期
3 黃志艷;;一種基于信息增益的特征選擇方法[J];山東農(nóng)業(yè)大學學報(自然科學版);2013年02期
4 任永功;楊榮杰;尹明飛;馬名威;;基于信息增益的文本特征選擇方法[J];計算機科學;2012年11期
5 王光;邱云飛;史慶偉;;集合CHI與IG的特征選擇方法[J];計算機應用研究;2012年07期
6 劉慶和;梁正友;;一種基于信息增益的特征優(yōu)化選擇方法[J];計算機工程與應用;2011年12期
7 閆鵬;鄭雪峰;李明祥;陳松華;;二值文本分類中基于Bayes推理的特征選擇方法[J];計算機科學;2008年07期
8 王衛(wèi)玲;劉培玉;初建崇;;一種改進的基于條件互信息的特征選擇算法[J];計算機應用;2007年02期
9 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術(shù)研究進展[J];軟件學報;2006年09期
10 周茜,趙明生,扈e,
本文編號:2512496
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2512496.html
最近更新
教材專著