改進(jìn)信息增益的維吾爾文特征選擇方法
發(fā)布時間:2021-08-17 03:58
特征選擇是維吾爾語文本分類的關(guān)鍵技術(shù),對分類結(jié)果將產(chǎn)生直接的影響。為了提高傳統(tǒng)信息增益在維吾爾文特征選擇中的效果,在深度分析維吾爾文語種特點(diǎn)的基礎(chǔ)上,提出了一種新的信息增益特征選擇方法。該方法結(jié)合類詞頻和特征分布系數(shù)以及倒逆文檔頻率,對傳統(tǒng)信息增益進(jìn)行修正;引入一個備選特征分布系數(shù)來平衡類間選取的特征個數(shù);在維吾爾文數(shù)據(jù)集上實驗驗證。實驗結(jié)果表明,改進(jìn)的算法對維吾爾文分類效果有明顯的提高。
【文章來源】:計算機(jī)工程與應(yīng)用. 2017,53(23)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
1 引言
2 維吾爾文語種特點(diǎn)和預(yù)處理
3 信息增益特征選擇方法
4 傳統(tǒng)信息增益的不足及改進(jìn)
4.1 針對特征項區(qū)分度的改進(jìn)
4.2 針對類詞頻的改進(jìn)
4.3 針對數(shù)據(jù)集不均勻的改進(jìn)
4.4 針對備選特征項類別分布的改進(jìn)
5 實驗與分析
5.1 數(shù)據(jù)集
5.2 分類器
5.3 分類性能評估
5.4 實驗數(shù)據(jù)與分析
6 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]基于詞頻分布信息的優(yōu)化IG特征選擇方法[J]. 劉海峰,劉守生,宋阿羚. 計算機(jī)工程與應(yīng)用. 2017(04)
[2]基于詞頻信息的改進(jìn)信息增益文本特征選擇算法[J]. 石慧,賈代平,苗培. 計算機(jī)應(yīng)用. 2014(11)
[3]基于詞頻的優(yōu)化互信息文本特征選擇方法[J]. 劉海峰,姚澤清,蘇展. 計算機(jī)工程. 2014(07)
[4]基于加權(quán)改進(jìn)貝葉斯算法的維吾爾文文本分類[J]. 陳洋,哈力旦·阿布都熱依木,伊力亞爾·達(dá)吾提,亞力青·阿里瑪斯. 計算機(jī)工程與設(shè)計. 2014(06)
[5]面向維吾爾文不平衡數(shù)據(jù)分類的特征選擇方法[J]. 董瑞,周喜. 計算機(jī)工程與設(shè)計. 2013(01)
[6]基于短語的維吾爾文文本分類[J]. 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力,李哲. 計算機(jī)應(yīng)用. 2012(10)
[7]文本分類中的特征降維方法研究[J]. 張玉芳,萬斌候,熊忠陽. 計算機(jī)應(yīng)用研究. 2012(07)
[8]基于改進(jìn)的ID3信息增益的特征選擇方法[J]. 朱顥東,鐘勇. 計算機(jī)工程. 2010(08)
本文編號:3347012
【文章來源】:計算機(jī)工程與應(yīng)用. 2017,53(23)北大核心CSCD
【文章頁數(shù)】:5 頁
【文章目錄】:
1 引言
2 維吾爾文語種特點(diǎn)和預(yù)處理
3 信息增益特征選擇方法
4 傳統(tǒng)信息增益的不足及改進(jìn)
4.1 針對特征項區(qū)分度的改進(jìn)
4.2 針對類詞頻的改進(jìn)
4.3 針對數(shù)據(jù)集不均勻的改進(jìn)
4.4 針對備選特征項類別分布的改進(jìn)
5 實驗與分析
5.1 數(shù)據(jù)集
5.2 分類器
5.3 分類性能評估
5.4 實驗數(shù)據(jù)與分析
6 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]基于詞頻分布信息的優(yōu)化IG特征選擇方法[J]. 劉海峰,劉守生,宋阿羚. 計算機(jī)工程與應(yīng)用. 2017(04)
[2]基于詞頻信息的改進(jìn)信息增益文本特征選擇算法[J]. 石慧,賈代平,苗培. 計算機(jī)應(yīng)用. 2014(11)
[3]基于詞頻的優(yōu)化互信息文本特征選擇方法[J]. 劉海峰,姚澤清,蘇展. 計算機(jī)工程. 2014(07)
[4]基于加權(quán)改進(jìn)貝葉斯算法的維吾爾文文本分類[J]. 陳洋,哈力旦·阿布都熱依木,伊力亞爾·達(dá)吾提,亞力青·阿里瑪斯. 計算機(jī)工程與設(shè)計. 2014(06)
[5]面向維吾爾文不平衡數(shù)據(jù)分類的特征選擇方法[J]. 董瑞,周喜. 計算機(jī)工程與設(shè)計. 2013(01)
[6]基于短語的維吾爾文文本分類[J]. 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力,李哲. 計算機(jī)應(yīng)用. 2012(10)
[7]文本分類中的特征降維方法研究[J]. 張玉芳,萬斌候,熊忠陽. 計算機(jī)應(yīng)用研究. 2012(07)
[8]基于改進(jìn)的ID3信息增益的特征選擇方法[J]. 朱顥東,鐘勇. 計算機(jī)工程. 2010(08)
本文編號:3347012
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3347012.html
最近更新
教材專著