基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究

發(fā)布時間：2017-04-03 21:21

本文關(guān)鍵詞：基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究，由筆耕文化傳播整理發(fā)布。

【摘要】：垃圾郵件識別是網(wǎng)絡(luò)安全領(lǐng)域的一個重要研究課題。其中，特征選擇和垃圾郵件在線識別是垃圾郵件識別過程中的關(guān)鍵技術(shù)，本文從這兩個方面出發(fā)進行了具體、深入的研究，具體內(nèi)容包括： 1.針對傳統(tǒng)單純基于文檔頻率或單純基于詞頻信息的特征選擇方法存在的問題，提出了一種基于改進粒子群尋優(yōu)的混合特征選擇方法。通過與多種傳統(tǒng)方法比較發(fā)現(xiàn)，本文方法較其他特征選擇方法優(yōu)勢明顯。 2.針對基于改進粒子群的混合特征選擇方法存在的問題，提出了一種基于雙閾值及改進調(diào)和尋優(yōu)的特征選擇方法。對傳統(tǒng)調(diào)和尋優(yōu)方法進行改進，解決了尋優(yōu)過程中當全局最優(yōu)值接近實際最優(yōu)值時算法收斂速度較慢的問題。與傳統(tǒng)方法相比，本文方法在選擇最優(yōu)特征集合方面表現(xiàn)較為突出。 3.為避免垃圾郵件在線學習過程中用戶興趣對郵件識別效果的影響，，提出了一種基于用戶興趣度的垃圾郵件在線識別方法。實驗表明，算法在多個用戶、單個用戶兩種情況下均獲得較高的準確率，適用于垃圾郵件在線識別領(lǐng)域。 4.為提高垃圾郵件的在線識別速度，提出了一種基于用戶興趣集的垃圾郵件在線快速識別方法。實驗證明，使用該算法進行郵件識別及訓練速度較快，且能以較小的用戶標注負擔獲得較高的郵件識別精度。
【關(guān)鍵詞】：垃圾郵件識別 特征選擇 文檔頻率 詞頻 在線識別 增量學習 主動學習
【學位授予單位】：吉林大學
【學位級別】：博士
【學位授予年份】：2015
【分類號】：TP393.08
【目錄】：

提要4-5
摘要5-7
Abstract7-14
第1章緒論14-28
1.1 研究背景及意義14-18
1.1.1 垃圾郵件的起源15-16
1.1.2 垃圾郵件的危害16-18
1.2 國內(nèi)外研究現(xiàn)狀18-25
1.2.1 系統(tǒng)處理方法18-19
1.2.2 基于內(nèi)容的垃圾郵件識別方法19-24
1.2.3 現(xiàn)存的主要問題24-25
1.3 本文研究內(nèi)容25-26
1.4 本文組織結(jié)構(gòu)26-28
第2章基于統(tǒng)計的垃圾郵件識別方法28-47
2.1 框架描述28-43
2.1.1 預處理29-30
2.1.2 郵件表示30-35
2.1.3 郵件分類35-43
2.2 常用數(shù)據(jù)集43-44
2.3 性能評價指標44-46
2.4 本章小結(jié)46-47
第3章一種基于改進粒子群尋優(yōu)的混合特征選擇方法47-59
3.1 引言47-48
3.2 傳統(tǒng)特征選擇方法存在的問題48-49
3.3 本文方法49-53
3.3.1 方法描述49-51
3.3.2 最優(yōu)閾值的選擇51-53
3.4 實驗結(jié)果與分析53-58
3.4.1 實驗準備53-54
3.4.2 不同尋優(yōu)方法比較54-56
3.4.3 不同特征選擇方法比較56-57
3.4.4 統(tǒng)計實驗57-58
3.5 本章小結(jié)58-59
第4章一種基于雙閾值及改進調(diào)和尋優(yōu)的特征選擇方法59-76
4.1 研究動機59-60
4.2 本文方法60-66
4.2.1 方法描述60-63
4.2.2 改進的調(diào)和尋優(yōu)方法63-66
4.3 實驗結(jié)果與分析66-74
4.3.1 實驗準備66
4.3.2 不同尋優(yōu)方法比較66-69
4.3.3 不同特征選擇方法比較69-72
4.3.4 統(tǒng)計實驗72-73
4.3.5 ODFFS、OTFFS 與 THFS 方法比較73-74
4.4 本章小結(jié)74-76
第5章一種基于用戶興趣度的垃圾郵件在線識別方法76-87
5.1 引言76
5.2 相關(guān)技術(shù)76-78
5.2.1 增量學習76-78
5.2.2 主動學習78
5.3 本文方法78-82
5.3.1 預處理79
5.3.2 特征選擇、樣本訓練及分類79-80
5.3.3 不確定樣本類別標注80-81
5.3.4 訓練樣本集更新81-82
5.4 實驗結(jié)果與分析82-86
5.4.1 實驗條件82-83
5.4.2 耗時分析83
5.4.3 實驗結(jié)果83-86
5.5 本章小結(jié)86-87
第6章一種基于用戶興趣集的垃圾郵件在線快速識別方法87-100
6.1 引言87-88
6.2 本文方法88-93
6.2.1 預處理88
6.2.2 特征選擇及樣本訓練88-89
6.2.3 樣本分類89-90
6.2.4 不確定樣本類別標注90-91
6.2.5 更新用戶興趣集91-92
6.2.6 更新訓練樣本集92-93
6.3 實驗結(jié)果與分析93-99
6.3.1 實驗條件93
6.3.2 耗時分析93-95
6.3.3 實驗結(jié)果95-99
6.4 本章小結(jié)99-100
第7章總結(jié)和展望100-103
7.1 本文工作總結(jié)100-102
7.2 未來研究展望102-103
參考文獻103-112
作者簡介及在學期間所取得的科研成果112-115
致謝115

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 張永;周振龍;侯莉莉;張世宏;;使用增量SVM進行文本分類[J];蘭州理工大學學報;2007年01期

2 吳偉寧;劉揚;郭茂祖;劉曉燕;;基于采樣策略的主動學習算法研究進展[J];計算機研究與發(fā)展;2012年06期

3 陳小全;張繼紅;;基于改進粒子群算法的聚類算法[J];計算機研究與發(fā)展;2012年S1期

4 王熙照,孫娟,楊宏偉,趙明華;模糊決策樹算法與清晰決策樹算法的比較研究[J];計算機工程與應(yīng)用;2003年21期

5 蔡虹;葉水生;張永;;一種基于粗糙-模糊集理論的分類規(guī)則挖掘方法[J];計算機工程與應(yīng)用;2006年02期

6 石霞軍;林亞平;陳治平;;基于最小風險的貝葉斯郵件過濾算法[J];計算機科學;2002年08期

7 夏桂梅;曾建潮;;一種基于輪盤賭選擇遺傳算法的隨機微粒群算法[J];計算機工程與科學;2007年06期

8 劉伍穎;王挺;;集成學習和主動學習相結(jié)合的個性化垃圾郵件過濾[J];計算機工程與科學;2011年09期

9 丁文軍;薛安榮;;基于SVM的Web文本快速增量分類算法[J];計算機應(yīng)用研究;2012年04期

10 王斌,潘文鋒;基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J];中文信息學報;2005年05期

中國博士學位論文全文數(shù)據(jù)庫前2條

1 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習文本分類方法研究[D];國防科學技術(shù)大學;2011年

2 陳彬;垃圾郵件的特征選擇及檢測方法研究[D];華南理工大學;2010年

本文關(guān)鍵詞：基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究，由筆耕文化傳播整理發(fā)布。

本文編號：285003

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/285003.html

上一篇：金屬表面等離子體激元與分子相互作用及其時間分辨光譜研究
下一篇：多接口多信道無線Mesh網(wǎng)絡(luò)關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究