基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:垃圾郵件識別是網(wǎng)絡(luò)安全領(lǐng)域的一個重要研究課題。其中,特征選擇和垃圾郵件在線識別是垃圾郵件識別過程中的關(guān)鍵技術(shù),本文從這兩個方面出發(fā)進行了具體、深入的研究,具體內(nèi)容包括: 1.針對傳統(tǒng)單純基于文檔頻率或單純基于詞頻信息的特征選擇方法存在的問題,提出了一種基于改進粒子群尋優(yōu)的混合特征選擇方法。通過與多種傳統(tǒng)方法比較發(fā)現(xiàn),本文方法較其他特征選擇方法優(yōu)勢明顯。 2.針對基于改進粒子群的混合特征選擇方法存在的問題,提出了一種基于雙閾值及改進調(diào)和尋優(yōu)的特征選擇方法。對傳統(tǒng)調(diào)和尋優(yōu)方法進行改進,解決了尋優(yōu)過程中當全局最優(yōu)值接近實際最優(yōu)值時算法收斂速度較慢的問題。與傳統(tǒng)方法相比,本文方法在選擇最優(yōu)特征集合方面表現(xiàn)較為突出。 3.為避免垃圾郵件在線學習過程中用戶興趣對郵件識別效果的影響,,提出了一種基于用戶興趣度的垃圾郵件在線識別方法。實驗表明,算法在多個用戶、單個用戶兩種情況下均獲得較高的準確率,適用于垃圾郵件在線識別領(lǐng)域。 4.為提高垃圾郵件的在線識別速度,提出了一種基于用戶興趣集的垃圾郵件在線快速識別方法。實驗證明,使用該算法進行郵件識別及訓練速度較快,且能以較小的用戶標注負擔獲得較高的郵件識別精度。
【關(guān)鍵詞】:垃圾郵件識別 特征選擇 文檔頻率 詞頻 在線識別 增量學習 主動學習
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP393.08
【目錄】:
- 提要4-5
- 摘要5-7
- Abstract7-14
- 第1章 緒論14-28
- 1.1 研究背景及意義14-18
- 1.1.1 垃圾郵件的起源15-16
- 1.1.2 垃圾郵件的危害16-18
- 1.2 國內(nèi)外研究現(xiàn)狀18-25
- 1.2.1 系統(tǒng)處理方法18-19
- 1.2.2 基于內(nèi)容的垃圾郵件識別方法19-24
- 1.2.3 現(xiàn)存的主要問題24-25
- 1.3 本文研究內(nèi)容25-26
- 1.4 本文組織結(jié)構(gòu)26-28
- 第2章 基于統(tǒng)計的垃圾郵件識別方法28-47
- 2.1 框架描述28-43
- 2.1.1 預處理29-30
- 2.1.2 郵件表示30-35
- 2.1.3 郵件分類35-43
- 2.2 常用數(shù)據(jù)集43-44
- 2.3 性能評價指標44-46
- 2.4 本章小結(jié)46-47
- 第3章 一種基于改進粒子群尋優(yōu)的混合特征選擇方法47-59
- 3.1 引言47-48
- 3.2 傳統(tǒng)特征選擇方法存在的問題48-49
- 3.3 本文方法49-53
- 3.3.1 方法描述49-51
- 3.3.2 最優(yōu)閾值的選擇51-53
- 3.4 實驗結(jié)果與分析53-58
- 3.4.1 實驗準備53-54
- 3.4.2 不同尋優(yōu)方法比較54-56
- 3.4.3 不同特征選擇方法比較56-57
- 3.4.4 統(tǒng)計實驗57-58
- 3.5 本章小結(jié)58-59
- 第4章 一種基于雙閾值及改進調(diào)和尋優(yōu)的特征選擇方法59-76
- 4.1 研究動機59-60
- 4.2 本文方法60-66
- 4.2.1 方法描述60-63
- 4.2.2 改進的調(diào)和尋優(yōu)方法63-66
- 4.3 實驗結(jié)果與分析66-74
- 4.3.1 實驗準備66
- 4.3.2 不同尋優(yōu)方法比較66-69
- 4.3.3 不同特征選擇方法比較69-72
- 4.3.4 統(tǒng)計實驗72-73
- 4.3.5 ODFFS、OTFFS 與 THFS 方法比較73-74
- 4.4 本章小結(jié)74-76
- 第5章 一種基于用戶興趣度的垃圾郵件在線識別方法76-87
- 5.1 引言76
- 5.2 相關(guān)技術(shù)76-78
- 5.2.1 增量學習76-78
- 5.2.2 主動學習78
- 5.3 本文方法78-82
- 5.3.1 預處理79
- 5.3.2 特征選擇、樣本訓練及分類79-80
- 5.3.3 不確定樣本類別標注80-81
- 5.3.4 訓練樣本集更新81-82
- 5.4 實驗結(jié)果與分析82-86
- 5.4.1 實驗條件82-83
- 5.4.2 耗時分析83
- 5.4.3 實驗結(jié)果83-86
- 5.5 本章小結(jié)86-87
- 第6章 一種基于用戶興趣集的垃圾郵件在線快速識別方法87-100
- 6.1 引言87-88
- 6.2 本文方法88-93
- 6.2.1 預處理88
- 6.2.2 特征選擇及樣本訓練88-89
- 6.2.3 樣本分類89-90
- 6.2.4 不確定樣本類別標注90-91
- 6.2.5 更新用戶興趣集91-92
- 6.2.6 更新訓練樣本集92-93
- 6.3 實驗結(jié)果與分析93-99
- 6.3.1 實驗條件93
- 6.3.2 耗時分析93-95
- 6.3.3 實驗結(jié)果95-99
- 6.4 本章小結(jié)99-100
- 第7章 總結(jié)和展望100-103
- 7.1 本文工作總結(jié)100-102
- 7.2 未來研究展望102-103
- 參考文獻103-112
- 作者簡介及在學期間所取得的科研成果112-115
- 致謝115
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張永;周振龍;侯莉莉;張世宏;;使用增量SVM進行文本分類[J];蘭州理工大學學報;2007年01期
2 吳偉寧;劉揚;郭茂祖;劉曉燕;;基于采樣策略的主動學習算法研究進展[J];計算機研究與發(fā)展;2012年06期
3 陳小全;張繼紅;;基于改進粒子群算法的聚類算法[J];計算機研究與發(fā)展;2012年S1期
4 王熙照,孫娟,楊宏偉,趙明華;模糊決策樹算法與清晰決策樹算法的比較研究[J];計算機工程與應(yīng)用;2003年21期
5 蔡虹;葉水生;張永;;一種基于粗糙-模糊集理論的分類規(guī)則挖掘方法[J];計算機工程與應(yīng)用;2006年02期
6 石霞軍;林亞平;陳治平;;基于最小風險的貝葉斯郵件過濾算法[J];計算機科學;2002年08期
7 夏桂梅;曾建潮;;一種基于輪盤賭選擇遺傳算法的隨機微粒群算法[J];計算機工程與科學;2007年06期
8 劉伍穎;王挺;;集成學習和主動學習相結(jié)合的個性化垃圾郵件過濾[J];計算機工程與科學;2011年09期
9 丁文軍;薛安榮;;基于SVM的Web文本快速增量分類算法[J];計算機應(yīng)用研究;2012年04期
10 王斌,潘文鋒;基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J];中文信息學報;2005年05期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習文本分類方法研究[D];國防科學技術(shù)大學;2011年
2 陳彬;垃圾郵件的特征選擇及檢測方法研究[D];華南理工大學;2010年
本文關(guān)鍵詞:基于統(tǒng)計的垃圾郵件識別關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:285003
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/285003.html