基于內(nèi)容的垃圾郵件檢測特征降維算法研究
發(fā)布時間:2021-11-20 05:38
當(dāng)今社會,電子郵件已經(jīng)成為人們?nèi)粘I钪型ㄐ藕徒涣鞯闹匾绞街坏抢]件也伴隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展而嚴(yán)重泛濫,帶來諸多危害;趦(nèi)容的垃圾郵件檢測是目前最主流的反垃圾郵件技術(shù)之一,在反垃圾郵件領(lǐng)域得到了廣泛應(yīng)用。特征降維是基于內(nèi)容的垃圾郵件檢測中的一項關(guān)鍵技術(shù)。由于通常使用向量空間模型來表示郵件文本,特征向量空間通常呈現(xiàn)高維特性,引發(fā)“維數(shù)災(zāi)難”。因此,必須對原始高維特征空間進行降維處理。文本特征降維方法一般分為兩類:特征提取和特征選擇。特征選擇算法因其實現(xiàn)簡單,計算復(fù)雜度小,性能比較好等優(yōu)點,被廣泛應(yīng)用在基于內(nèi)容的垃圾郵件檢測中。常用的特征選擇算法如信息增益(IG),卡方統(tǒng)計(CHI)等,均基于特征項之間相互獨立的假設(shè),只考慮了特征項與目標(biāo)類別之間的關(guān)聯(lián)度來構(gòu)造評價函數(shù),而忽略了實際情況下,不同特征項之間存在不同程度的關(guān)聯(lián),使得特征子集中存在了大量的冗余,因而分類性能不夠理想。文本采用互信息量(MI)來衡量特征項之間的冗余程度,提出了一種新型的特征選擇算法OMFS (OCFS-mRMR Feature Selection)。實驗證明,OMFS算法能夠保持很高的計算效率,有效去除...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
第1章 緒論
1.1 課題研究背景和意義
1.1.1 垃圾郵件的定義
1.1.2 垃圾郵件的危害
1.1.3 垃圾郵件的現(xiàn)狀
1.1.4 課題的研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 常見特征降維算法
1.2.2 新的特征降維算法
1.2.3 特征空間冗余
1.3 論文的研究工作和體系結(jié)構(gòu)
1.3.1 論文主要研究工作
1.3.2 論文體系結(jié)構(gòu)
1.4 本章小結(jié)
第2章 基于內(nèi)容的垃圾郵件檢測
2.1 垃圾郵件過濾技術(shù)
2.1.1 基于郵件系統(tǒng)結(jié)構(gòu)中不同角色的劃分
2.1.2 基于過濾方法的劃分
2.2 基于內(nèi)容的垃圾郵件檢測
2.2.1 垃圾郵件過濾的數(shù)學(xué)模型描述
2.2.2 基于內(nèi)容的垃圾郵件過濾系統(tǒng)
2.2.3 垃圾郵件過濾和文本分類
2.3 郵件文本預(yù)處理
2.3.1 分詞
2.3.2 去除停用詞
2.3.3 詞干還原
2.3.4 向量空間模型
2.4 特征降維
2.5 文本分類
2.5.1 樸素貝葉斯
2.5.2 K最近鄰
2.5.3 支持向量機
2.6 性能評估
2.7 本章小結(jié)
第3章 OMFS特征選擇算法
3.1 文本特征降維算法
3.1.1 特征抽取
3.1.2 特征選擇
3.2 常見特征選擇算法
3.2.1 文檔頻率(Document Frequency)
3.2.2 互信息(Mutual Information)
3.2.3 信息增益(Information Gain)
3.2.4 卡方統(tǒng)計(χ~2-Statistics)
3.3 一種新型特征選擇算法OMFS
3.3.1 基本算法
3.3.2 計算復(fù)雜度分析
3.3.3 兩種算法的特點分析
3.3.4 OMFS算法的提出
3.4 本章小結(jié)
第4章 實驗與結(jié)果分析
4.1 實驗準(zhǔn)備
4.1.1 實驗環(huán)境
4.1.2 垃圾郵件語料庫
4.1.3 WEKA數(shù)據(jù)挖掘平臺
4.1.4 交叉驗證
4.1.5 評價指標(biāo)
4.2 仿真實驗系統(tǒng)設(shè)計
4.2.1 郵件樣本預(yù)處理
4.2.2 特征降維處理
4.2.3 分類器建模
4.3 實驗設(shè)計
4.4 計算效率對比實驗
4.5 OCFS,MRMR特征選擇算法性能研究
4.6 OMFS算法性能對比實驗
4.6.1 OMFS算法與CHI、IG算法性能比較
4.6.2 OMFS與OCFS、mRMR算法性能比較
4.6.3 OMFS第一階段提取特征維數(shù)影響研究
4.7 OMFS算法的優(yōu)勢
4.8 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
攻讀碩士學(xué)位期間科研成果
【參考文獻】:
期刊論文
[1]文本分類中的特征降維方法研究[J]. 張玉芳,萬斌候,熊忠陽. 計算機應(yīng)用研究. 2012(07)
[2]中文垃圾郵件過濾系統(tǒng)中的特征提取算法[J]. 白飛云,王新房. 計算機系統(tǒng)應(yīng)用. 2012(03)
[3]基于信息增益的混合垃圾郵件特征選擇方法[J]. 閆巧,冷成朝. 計算機工程與應(yīng)用. 2012(27)
[4]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計算機工程與應(yīng)用. 2011(13)
[5]基于二次TF* IDF的互信息文本特征選擇算法研究[J]. 王園,龔尚福. 計算機應(yīng)用與軟件. 2011(04)
[6]一種改進的文本特征選擇方法的研究與設(shè)計[J]. 符會濤,卡米力·木衣丁. 計算機應(yīng)用與軟件. 2011(04)
[7]SVM網(wǎng)頁分類中一種新的特征提取方法[J]. 孫明柱,魏海平,頓紹坤,王居柱. 科學(xué)技術(shù)與工程. 2011(06)
[8]文本分類中改進型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計算機工程與應(yīng)用. 2011(04)
[9]一種基于基尼指數(shù)和類內(nèi)頻率的特征選擇方法[J]. 鄭偉,奉國和. 制造業(yè)自動化. 2010(13)
[10]優(yōu)化的互信息特征選擇方法[J]. 胡強. 湖南師范大學(xué)自然科學(xué)學(xué)報. 2010(03)
碩士論文
[1]基于內(nèi)容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學(xué)院研究生院(計算技術(shù)研究所) 2004
本文編號:3506680
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
第1章 緒論
1.1 課題研究背景和意義
1.1.1 垃圾郵件的定義
1.1.2 垃圾郵件的危害
1.1.3 垃圾郵件的現(xiàn)狀
1.1.4 課題的研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 常見特征降維算法
1.2.2 新的特征降維算法
1.2.3 特征空間冗余
1.3 論文的研究工作和體系結(jié)構(gòu)
1.3.1 論文主要研究工作
1.3.2 論文體系結(jié)構(gòu)
1.4 本章小結(jié)
第2章 基于內(nèi)容的垃圾郵件檢測
2.1 垃圾郵件過濾技術(shù)
2.1.1 基于郵件系統(tǒng)結(jié)構(gòu)中不同角色的劃分
2.1.2 基于過濾方法的劃分
2.2 基于內(nèi)容的垃圾郵件檢測
2.2.1 垃圾郵件過濾的數(shù)學(xué)模型描述
2.2.2 基于內(nèi)容的垃圾郵件過濾系統(tǒng)
2.2.3 垃圾郵件過濾和文本分類
2.3 郵件文本預(yù)處理
2.3.1 分詞
2.3.2 去除停用詞
2.3.3 詞干還原
2.3.4 向量空間模型
2.4 特征降維
2.5 文本分類
2.5.1 樸素貝葉斯
2.5.2 K最近鄰
2.5.3 支持向量機
2.6 性能評估
2.7 本章小結(jié)
第3章 OMFS特征選擇算法
3.1 文本特征降維算法
3.1.1 特征抽取
3.1.2 特征選擇
3.2 常見特征選擇算法
3.2.1 文檔頻率(Document Frequency)
3.2.2 互信息(Mutual Information)
3.2.3 信息增益(Information Gain)
3.2.4 卡方統(tǒng)計(χ~2-Statistics)
3.3 一種新型特征選擇算法OMFS
3.3.1 基本算法
3.3.2 計算復(fù)雜度分析
3.3.3 兩種算法的特點分析
3.3.4 OMFS算法的提出
3.4 本章小結(jié)
第4章 實驗與結(jié)果分析
4.1 實驗準(zhǔn)備
4.1.1 實驗環(huán)境
4.1.2 垃圾郵件語料庫
4.1.3 WEKA數(shù)據(jù)挖掘平臺
4.1.4 交叉驗證
4.1.5 評價指標(biāo)
4.2 仿真實驗系統(tǒng)設(shè)計
4.2.1 郵件樣本預(yù)處理
4.2.2 特征降維處理
4.2.3 分類器建模
4.3 實驗設(shè)計
4.4 計算效率對比實驗
4.5 OCFS,MRMR特征選擇算法性能研究
4.6 OMFS算法性能對比實驗
4.6.1 OMFS算法與CHI、IG算法性能比較
4.6.2 OMFS與OCFS、mRMR算法性能比較
4.6.3 OMFS第一階段提取特征維數(shù)影響研究
4.7 OMFS算法的優(yōu)勢
4.8 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
攻讀碩士學(xué)位期間科研成果
【參考文獻】:
期刊論文
[1]文本分類中的特征降維方法研究[J]. 張玉芳,萬斌候,熊忠陽. 計算機應(yīng)用研究. 2012(07)
[2]中文垃圾郵件過濾系統(tǒng)中的特征提取算法[J]. 白飛云,王新房. 計算機系統(tǒng)應(yīng)用. 2012(03)
[3]基于信息增益的混合垃圾郵件特征選擇方法[J]. 閆巧,冷成朝. 計算機工程與應(yīng)用. 2012(27)
[4]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計算機工程與應(yīng)用. 2011(13)
[5]基于二次TF* IDF的互信息文本特征選擇算法研究[J]. 王園,龔尚福. 計算機應(yīng)用與軟件. 2011(04)
[6]一種改進的文本特征選擇方法的研究與設(shè)計[J]. 符會濤,卡米力·木衣丁. 計算機應(yīng)用與軟件. 2011(04)
[7]SVM網(wǎng)頁分類中一種新的特征提取方法[J]. 孫明柱,魏海平,頓紹坤,王居柱. 科學(xué)技術(shù)與工程. 2011(06)
[8]文本分類中改進型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計算機工程與應(yīng)用. 2011(04)
[9]一種基于基尼指數(shù)和類內(nèi)頻率的特征選擇方法[J]. 鄭偉,奉國和. 制造業(yè)自動化. 2010(13)
[10]優(yōu)化的互信息特征選擇方法[J]. 胡強. 湖南師范大學(xué)自然科學(xué)學(xué)報. 2010(03)
碩士論文
[1]基于內(nèi)容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學(xué)院研究生院(計算技術(shù)研究所) 2004
本文編號:3506680
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3506680.html
最近更新
教材專著