關(guān)于垃圾郵件過(guò)濾中特征選擇算法的研究
發(fā)布時(shí)間:2017-10-14 10:32
本文關(guān)鍵詞:關(guān)于垃圾郵件過(guò)濾中特征選擇算法的研究
更多相關(guān)文章: 文本分類 垃圾郵件 特征選擇 信息增益 互信息
【摘要】:近些年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件已經(jīng)成為了人們?nèi)粘I钪械闹匾ㄐ攀侄。但是伴隨著電子郵件的發(fā)展,卻出現(xiàn)了垃圾郵件。垃圾郵件的出現(xiàn)不僅給大量用戶帶來(lái)了煩惱,而且不法分子也開始利用它來(lái)宣傳違法信息。本文正是在這種背景下,研究了基于內(nèi)容的反垃圾郵件技術(shù),分析了垃圾郵件過(guò)濾過(guò)程中傳統(tǒng)特征選擇算法的不足,提出了兩種新的特征選擇算法,并且進(jìn)行了實(shí)驗(yàn)驗(yàn)證,再對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,說(shuō)明了本文提出算法的有效性。本文通過(guò)分析了傳統(tǒng)的信息增益算法和互信息算法的缺點(diǎn)與不足,對(duì)二者均提出了改進(jìn)方案,具體如下:1.傳統(tǒng)的信息增益特征選擇算法度量了一個(gè)特征項(xiàng)與類別間的關(guān)聯(lián)程度,但是卻沒(méi)有分析一個(gè)特征項(xiàng)在類內(nèi)的分散程度與類間的集中程度;于是本文在傳統(tǒng)的信息增益的基礎(chǔ)之上,提出了類內(nèi)分類度與類間集中度的概念,對(duì)傳統(tǒng)的特征選擇算法進(jìn)行改進(jìn)。在實(shí)驗(yàn)過(guò)程中,在五個(gè)數(shù)據(jù)集合下采用貝葉斯和支持向量機(jī)兩種分類器,通過(guò)對(duì)比召回率、精確率、AUC值以及F1性能等四種評(píng)價(jià)標(biāo)準(zhǔn),得出了結(jié)論,本文提出的改進(jìn)方案優(yōu)于信息增益、卡方統(tǒng)計(jì)和互信息等三種傳統(tǒng)的特征選擇算法。2.傳統(tǒng)的互信息算法度量一個(gè)特征項(xiàng)和類別間的相關(guān)性,但是僅考慮了二者的正相關(guān)性,并未考慮到二者負(fù)相關(guān)的情況;且未對(duì)其選中稀有特征進(jìn)行屏蔽。綜合以上因素,本文提出了改進(jìn)的算法,一方面對(duì)稀有特征進(jìn)行屏蔽,另一方面綜合考慮了特征項(xiàng)與類別間的正相關(guān)和負(fù)相關(guān)的情況。同第一種改進(jìn)方案類似,在不同的數(shù)據(jù)集合上采用不同的分類器,對(duì)比各分類器的四種評(píng)價(jià)標(biāo)準(zhǔn),得出實(shí)驗(yàn)結(jié)論,本文提出的改進(jìn)方案優(yōu)于信息增益、卡方統(tǒng)計(jì)和互信息等三種傳統(tǒng)的特征選擇算法。雖然通過(guò)實(shí)驗(yàn)驗(yàn)證了本文提出的兩種算法在性能上要優(yōu)于傳統(tǒng)的特征選擇算法,但是本文提出的算法在某些數(shù)據(jù)集合上表現(xiàn)出了不穩(wěn)定性,將是本文接下來(lái)研究工作的重點(diǎn);另外本文研究的垃圾郵件測(cè)試樣本均為純文本數(shù)據(jù),而現(xiàn)在不法分子為躲避垃圾郵件過(guò)濾機(jī)制,已經(jīng)開始大量的發(fā)送圖片垃圾郵件,如何能夠有效的識(shí)別并攔截圖片垃圾郵件,將是本文接下來(lái)研究的另外一個(gè)重點(diǎn)。
【關(guān)鍵詞】:文本分類 垃圾郵件 特征選擇 信息增益 互信息
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.098
【目錄】:
- 摘要4-6
- Abstract6-11
- 第1章 緒論11-18
- 1.1 研究背景11-13
- 1.1.1 垃圾郵件的定義11
- 1.1.2 垃圾郵件的危害11-12
- 1.1.3 反垃圾郵件的發(fā)展歷史12-13
- 1.2 研究現(xiàn)狀13-15
- 1.2.1 反垃圾郵件技術(shù)13-14
- 1.2.2 基于內(nèi)容的垃圾郵件過(guò)濾14-15
- 1.3 本文研究?jī)?nèi)容及組織結(jié)構(gòu)15-18
- 1.3.1 本文研究?jī)?nèi)容15-16
- 1.3.2 本文組織結(jié)構(gòu)16-18
- 第2章 垃圾郵件過(guò)濾技術(shù)18-30
- 2.1 概述18-19
- 2.1.1 文本分類的定義18-19
- 2.1.2 垃圾郵件過(guò)濾與文本分類的關(guān)系19
- 2.2 垃圾郵件分類的處理流程19-20
- 2.3 文本預(yù)處理20-21
- 2.3.1 去停用詞20
- 2.3.2 取詞根20-21
- 2.4 文檔表示21-22
- 2.4.1 特征識(shí)別21
- 2.4.2 文檔表示21-22
- 2.5 特征降維22-23
- 2.5.1 特征選擇22-23
- 2.5.2 特征提取23
- 2.6 文本分類算法23-26
- 2.6.1 樸素貝葉斯算法23-25
- 2.6.2 KNN算法25
- 2.6.3 支持向量機(jī)25-26
- 2.7 分類性能評(píng)估26-29
- 2.8 總結(jié)29-30
- 第3章 一種基于信息增益的新特征選擇算法30-42
- 3.1 引言30
- 3.2 相關(guān)的特征選擇算法30-32
- 3.2.1 信息增益30-31
- 3.2.2 互信息31
- 3.2.3 卡方統(tǒng)計(jì)31-32
- 3.2.4 類內(nèi)與類間度量的特征選擇算法32
- 3.3 信息增益算法的不足32-33
- 3.4 信息增益算法的改進(jìn)33
- 3.5 實(shí)驗(yàn)設(shè)計(jì)33-34
- 3.6 實(shí)驗(yàn)結(jié)果及分析34-40
- 3.7 結(jié)論40-42
- 第4章 一種基于互信息的新特征選擇算法42-50
- 4.1 引言42
- 4.2 互信息算法的不足42-43
- 4.3 互信息算法的改進(jìn)43-44
- 4.4 實(shí)驗(yàn)設(shè)計(jì)44
- 4.5 實(shí)驗(yàn)結(jié)果及分析44-49
- 4.6 結(jié)論49-50
- 第5章 總結(jié)和展望50-53
- 5.1 總結(jié)50-51
- 5.1.1 一種基于信息增益的新特征選擇算法50
- 5.1.2 一種基于互信息的新特征選擇算法50-51
- 5.2 展望51-53
- 5.2.1 提高算法穩(wěn)定性51
- 5.2.2 圖片垃圾郵件的研究51-53
- 參考文獻(xiàn)53-57
- 致謝57
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 譚光興;劉臻暉;;基于SVM的局部潛在語(yǔ)義分析算法研究[J];計(jì)算機(jī)工程與科學(xué);2016年01期
2 李國(guó)和;岳翔;吳衛(wèi)江;洪云峰;劉智淵;程遠(yuǎn);;面向文本分類的特征詞選取方法研究與改進(jìn)[J];中文信息學(xué)報(bào);2015年04期
3 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期
4 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
5 張學(xué)工;關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J];自動(dòng)化學(xué)報(bào);2000年01期
,本文編號(hào):1030594
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1030594.html
最近更新
教材專著