圖像型垃圾郵件過濾系統(tǒng)的研究
發(fā)布時間:2017-04-15 21:37
本文關(guān)鍵詞:圖像型垃圾郵件過濾系統(tǒng)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展和電子郵件應(yīng)用的普及,垃圾郵件制造者常利用圖像型垃圾郵件發(fā)送廣告、色情、欺詐信息及反動思想等不良內(nèi)容牟取利益。同文本型垃圾郵件相比,,圖像型垃圾郵件更難以檢測,同時占用更多的網(wǎng)絡(luò)資源,甚至?xí)o社會安全埋下隱患,F(xiàn)有的圖像型垃圾郵件過濾系統(tǒng)不盡人意,所以仍有必要開展圖像型垃圾郵件過濾技術(shù)的研究。 本文研究并設(shè)計了一個級聯(lián)型郵件過濾系統(tǒng),降低了圖像型郵件錯誤分類的可能性。圖像型垃圾郵件過濾技術(shù)主要包括郵件圖像的特征提取和分類識別兩大部分,因此分別從這兩方面介紹本文所設(shè)計的多層郵件過濾系統(tǒng)。 (1)第一層粗分類:利用圖像的底層特征,并結(jié)合支持向量機(SVM)實現(xiàn)粗分類得到第一層過濾系統(tǒng),使大多數(shù)正常郵件圖像被識別出來。在此過濾系統(tǒng)中,分別對比了顏色特征、梯度特征、LBP特征后,并提出新的融合特征即梯度—LBP的融合特征,利用SVM分類器此特征可以得到更高的準確率。 (2)第二層精分類:選擇更加精細的圖像特征,基于SIFT特征和GIST特征構(gòu)造詞袋模型(Bags of words),引入并改進局部敏感哈希算法(LSH),實現(xiàn)精分類得到第二層過濾系統(tǒng)。在此過濾系統(tǒng)中,比較了LSH算法改進前后的計算復(fù)雜度和分類準確率。并提出一種新的文本定位方法,能夠很好的定位到垃圾郵件圖像中的文本區(qū)域。該方法結(jié)合Adaboost算法利用表示形式簡單和計算速度快的haar特征實現(xiàn)。 (3)第三層進一步分類:利用文字識別軟件(OCR)提取垃圾郵件圖像中的文本信息,并與敏感詞庫進行比對,實現(xiàn)最后一步分類得到第三層過濾系統(tǒng)。 在MATLAB和VS2008的混合編程環(huán)境下,使用標準圖像庫Spam Archive和作者利用互聯(lián)網(wǎng)和電子郵箱搜集的垃圾圖像以及人工構(gòu)造的垃圾圖像進行訓(xùn)練和測試,并分析了每層過濾系統(tǒng)的性能,結(jié)果表明級聯(lián)過濾系統(tǒng)獲得了較高的準確率。
【關(guān)鍵詞】:垃圾郵件 特征提取 支持向量機 局部敏感哈希算法 級聯(lián)分類器
【學(xué)位授予單位】:遼寧工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.41;TP393.098
【目錄】:
- 摘要5-6
- Abstract6-9
- 1 緒論9-15
- 1.1 論文的研究背景與選題意義9-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 論文的主要內(nèi)容及結(jié)構(gòu)安排13-15
- 2 圖像型垃圾郵件過濾概述15-22
- 2.1 圖像型垃圾郵件的定義15-16
- 2.2 圖像型垃圾郵件的種類16-17
- 2.3 圖像型垃圾郵件的特征17-18
- 2.4 現(xiàn)有圖像型垃圾郵件過濾方法18-19
- 2.5 圖像型垃圾郵件數(shù)據(jù)庫19-21
- 2.6 本章小結(jié)21-22
- 3 圖像型垃圾郵件的特征提取22-38
- 3.1 基于圖像底層的特征提取22-26
- 3.1.1 顏色特征22-23
- 3.1.2 梯度特征23-24
- 3.1.3 LBP 特征24-26
- 3.1.4 融合特征26
- 3.2 構(gòu)造基于 SIFT 的詞袋模型26-32
- 3.2.1 SIFT 特征26-31
- 3.2.2 詞袋模型31-32
- 3.3 GIST 特征32-34
- 3.3.1 Gabor 小波概述32-33
- 3.3.2 GIST 特征提取33-34
- 3.4 文本區(qū)域定位與特征提取34-37
- 3.4.1 現(xiàn)有文本區(qū)域定位方法34-35
- 3.4.2 本文文本區(qū)域定位方法35-37
- 3.5 本章小結(jié)37-38
- 4 圖像型垃圾郵件的分類38-48
- 4.1 SVM 算法38-41
- 4.2 最近鄰算法41
- 4.3 相似性檢索算法41-44
- 4.3.1 LSH 算法41-43
- 4.3.2 改進的 LSH 算法43-44
- 4.4 Adaboost 算法44-47
- 4.4.1 弱分類器的訓(xùn)練過程45-46
- 4.4.2 強分類器的訓(xùn)練過程46-47
- 4.4.3 級聯(lián)分類器的訓(xùn)練過程47
- 4.5 本章小結(jié)47-48
- 5 多層垃圾郵件過濾系統(tǒng)總體設(shè)計48-59
- 5.1 系統(tǒng)總體設(shè)計框圖48-49
- 5.2 第一層過濾系統(tǒng)49-52
- 5.2.1 第一層過濾系統(tǒng)框架49
- 5.2.2 第一層過濾系統(tǒng)的實驗結(jié)果與性能分析49-52
- 5.3 第二層過濾系統(tǒng)52-55
- 5.3.1 第二層過濾系統(tǒng)框架52-53
- 5.3.2 第二層過濾系統(tǒng)的實驗結(jié)果與性能分析53-55
- 5.4 第三層過濾系統(tǒng)55-57
- 5.4.1 第三層過濾系統(tǒng)框架55-56
- 5.4.2 第三層過濾系統(tǒng)的實驗結(jié)果與性能分析56-57
- 5.5 文本區(qū)域定位的實驗結(jié)果57-58
- 5.6 本章小結(jié)58-59
- 6 總結(jié)與展望59-61
- 6.1 總結(jié)59
- 6.2 展望59-61
- 參考文獻61-64
- 攻讀碩士期間發(fā)表學(xué)術(shù)論文情況64-65
- 致謝65
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉曉e
本文編號:309317
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/309317.html
最近更新
教材專著