一種基于信息增益的新垃圾郵件特征選擇算法
本文選題:信息增益 + 類(lèi)內(nèi)分散度。 參考:《吉林大學(xué)學(xué)報(bào)(理學(xué)版)》2017年02期
【摘要】:基于傳統(tǒng)信息增益特征選擇算法,通過(guò)提出類(lèi)內(nèi)分散度與類(lèi)間集中度的概念,結(jié)合傳統(tǒng)信息增益算法,解決了信息增益算法因忽略特征項(xiàng)的分布而導(dǎo)致的性能下降問(wèn)題,提高了信息增益算法的效率.使用改進(jìn)的特征選擇算法進(jìn)行垃圾郵件過(guò)濾實(shí)驗(yàn),在不同的分類(lèi)器下,與傳統(tǒng)的特征選擇算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征選擇算法性能較優(yōu).
[Abstract]:Based on the traditional information gain feature selection algorithm, by proposing the concepts of intra-class dispersion and inter-class concentration, and combining the traditional information gain algorithm, the information gain algorithm solves the performance degradation problem caused by ignoring the distribution of the feature term in the information gain algorithm. The efficiency of the information gain algorithm is improved. The improved feature selection algorithm is used in spam filtering experiment, and compared with the traditional feature selection algorithm under different classifiers. The experimental results show that the improved feature selection algorithm has better performance.
【作者單位】: 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):61471181) 吉林省自然科學(xué)基金(批準(zhǔn)號(hào):20140101194JC;20150101056JC)
【分類(lèi)號(hào)】:TP393.098
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 董立巖;李真;周靈艷;;特定信息增益決策森林分類(lèi)器研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年26期
2 孫挺;耿國(guó)華;周明全;;基于詞出現(xiàn)和信息增益的連續(xù)屬性離散化方法[J];計(jì)算機(jī)應(yīng)用研究;2009年02期
3 熊平;朱天清;顧霄;;基于信息增益比例約束的數(shù)據(jù)匿名方法及其評(píng)估機(jī)制[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
4 王衛(wèi)平;王旭哠;陳赫然;陳家耀;;基于信息增益的防火墻過(guò)濾域排序優(yōu)化[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
5 張小康;帥建梅;史林;;基于加權(quán)信息增益的惡意代碼檢測(cè)方法[J];計(jì)算機(jī)工程;2010年06期
6 苑春燕;李?lèi)?ài)華;;基于信息增益和相關(guān)性的貝葉斯分類(lèi)算法研究[J];網(wǎng)絡(luò)與信息;2010年02期
7 劉慶和;梁正友;;一種基于信息增益的特征優(yōu)化選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年12期
8 楊敬妹;王學(xué)軍;;文本分類(lèi)中信息增益算法的改進(jìn)[J];計(jì)算機(jī)時(shí)代;2013年09期
9 潘若愚,韓曉峰;一種基于信息增益的產(chǎn)品評(píng)價(jià)系統(tǒng)模型[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年S1期
10 陶劍文;趙杰煜;姚奇富;;信息增益區(qū)分頻繁模式分類(lèi)方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年07期
相關(guān)會(huì)議論文 前3條
1 劉惠;邱天爽;;基于模糊集理論和信息增益分析技術(shù)的分類(lèi)算法[A];第十一屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2003)論文集[C];2003年
2 劉鵬;雷蕾;張雪鳳;;缺失數(shù)據(jù)處理方法的比較研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 王孟;白清源;謝麗聰;謝伙生;張瑩;;基于信息增益規(guī)則排序的關(guān)聯(lián)文本分類(lèi)[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
相關(guān)碩士學(xué)位論文 前6條
1 孫思瑩;網(wǎng)絡(luò)視頻環(huán)境中面向用戶(hù)QoE的分析與應(yīng)用[D];南京郵電大學(xué);2016年
2 毛臨川;信息增益在數(shù)據(jù)挖掘分類(lèi)方法中的應(yīng)用研究[D];江西師范大學(xué);2016年
3 黃冬麗;基于信息增益的基因互作挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2014年
4 劉一正;基于信息增益的互聯(lián)網(wǎng)二元關(guān)系抽取[D];華東師范大學(xué);2014年
5 周志凱;免疫入侵檢測(cè)中基于信息增益的檢測(cè)器生成研究[D];哈爾濱理工大學(xué);2014年
6 黃楊潮;miRNA前體與成熟體預(yù)測(cè)方法的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
,本文編號(hào):1854588
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1854588.html