基于AAPE分類模型的垃圾郵件過(guò)濾技術(shù)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于AAPE分類模型的垃圾郵件過(guò)濾技術(shù)的研究與實(shí)現(xiàn)
更多相關(guān)文章: 垃圾郵件過(guò)濾技術(shù) AAPE分類模型 特征項(xiàng)權(quán)重選擇 期望交叉熵 統(tǒng)計(jì)量
【摘要】:1978年,從DEC公司的一名市場(chǎng)銷售代表向所有美國(guó)西海岸的ARPANET用戶發(fā)送了一封關(guān)于DEC-20新型計(jì)算機(jī)廣告郵件的這一刻起,人類史上第一封垃圾郵件誕生了,從此垃圾郵件伴隨著信息時(shí)代的發(fā)展而發(fā)展,不曾消失。垃圾郵件的出現(xiàn)給網(wǎng)民的生活帶來(lái)了巨大的影響,根據(jù)《2013年第一季度中國(guó)反垃圾郵件狀況調(diào)查報(bào)告》顯示:2013年第一季度,中國(guó)電子郵箱用戶平均每周收到垃圾郵件數(shù)量為14.6封,占所有郵件的比例為37.37%,造成了大量的不良影響,包括浪費(fèi)時(shí)間、浪費(fèi)電腦及網(wǎng)絡(luò)資源、傳播病毒、影響用戶情緒和造成經(jīng)濟(jì)損失等。針對(duì)日益嚴(yán)重的垃圾郵件問(wèn)題,研究人員提出了大量的垃圾郵件過(guò)濾技術(shù)用于改善被垃圾郵件充斥的互聯(lián)網(wǎng)環(huán)境。目前的垃圾郵件過(guò)濾技術(shù)在判斷的準(zhǔn)確性上已達(dá)到較好的效果,但在計(jì)算時(shí)間上往往很固定,不能達(dá)到用戶即需即得的效果。針對(duì)這一問(wèn)題,研究人員提出了AAPE分類模型。AAPE(Anytime Averaged Probabilistic Estimators)分類模型是一種基于貝葉斯估計(jì)的anytime分類模型,由楊影博士提出,應(yīng)用于反垃圾郵件領(lǐng)域。本文首先對(duì)垃圾郵件的背景和危害進(jìn)行了介紹,簡(jiǎn)單了解了電子郵件的工作原理,由此明白了垃圾郵件可能利用的漏洞。然后,深入解剖AAPE分類模型的優(yōu)點(diǎn)與不足,針對(duì)部分地方進(jìn)行了改進(jìn),設(shè)計(jì)出一款基于改進(jìn)AAPE分類模型的垃圾郵件過(guò)濾系統(tǒng)。最后,通過(guò)測(cè)試結(jié)果,對(duì)改進(jìn)的AAPE分類模型進(jìn)行分析,證明其相比較原模型有更高的效率。本文的主要研究成果如下:對(duì)傳統(tǒng)AAPE分類模型進(jìn)行改進(jìn),根據(jù)特征項(xiàng)的相關(guān)性強(qiáng)弱程度,采用期望交叉熵、統(tǒng)計(jì)量和互信息三種方法計(jì)算強(qiáng)相關(guān)特征項(xiàng),并應(yīng)用于垃圾郵件過(guò)濾技術(shù)。根據(jù)實(shí)驗(yàn)測(cè)試結(jié)果對(duì)改進(jìn)后的AAPE分類模型進(jìn)行分析,證明該模型較原始AAPE分類模型在時(shí)間性和準(zhǔn)確性上有較大提升。設(shè)計(jì)了一款以改進(jìn)后AAPE分類模型為基礎(chǔ)的垃圾郵件過(guò)濾系統(tǒng),該系統(tǒng)采取雙層過(guò)濾架構(gòu),第一層使用黑白名單技術(shù)對(duì)所有郵件進(jìn)行簡(jiǎn)單的、快速的郵件過(guò)濾,第二層使用以AAPE分類模型為基礎(chǔ)的智能過(guò)濾,進(jìn)行深入過(guò)濾,確保系統(tǒng)的即時(shí)性和準(zhǔn)確性。
【關(guān)鍵詞】:垃圾郵件過(guò)濾技術(shù) AAPE分類模型 特征項(xiàng)權(quán)重選擇 期望交叉熵 統(tǒng)計(jì)量
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.098
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-18
- 1.1 課題背景和意義10-14
- 1.1.1 垃圾郵件的定義10-11
- 1.1.2 垃圾郵件的歷史11-12
- 1.1.3 垃圾郵件的危害12-13
- 1.1.4 國(guó)內(nèi)垃圾郵件現(xiàn)狀13-14
- 1.2 課題國(guó)內(nèi)外研究現(xiàn)狀14-17
- 1.3 課題研究?jī)?nèi)容和論文結(jié)構(gòu)17-18
- 第二章 反垃圾郵件技術(shù)基礎(chǔ)18-27
- 2.1 電子郵件工作原理18-21
- 2.1.1 電子郵件的標(biāo)準(zhǔn)格式18-19
- 2.1.2 電子郵件在網(wǎng)絡(luò)中的傳輸19-20
- 2.1.3 電子郵件的協(xié)議20-21
- 2.2 文本分類技術(shù)21-25
- 2.2.1 文本預(yù)處理22-23
- 2.2.2 分類方法23-25
- 2.3 本章小結(jié)25-27
- 第三章 改進(jìn)AAPE分類模型的研究與實(shí)現(xiàn)27-41
- 3.1 分類模型27-33
- 3.1.1 樸素貝葉斯分類模型27-30
- 3.1.2 AODE分類模型30-31
- 3.1.3 AAPE分類模型31-33
- 3.2 基于特征項(xiàng)權(quán)重計(jì)算的改進(jìn)AAPE分類模型33-40
- 3.2.1 基于互信息的特征項(xiàng)權(quán)重計(jì)算34-36
- 3.2.2 基于統(tǒng)計(jì)量的特征項(xiàng)權(quán)重計(jì)算36-38
- 3.2.3 基于期望交叉熵的特征項(xiàng)權(quán)重計(jì)算38-40
- 3.3 本章小結(jié)40-41
- 第四章 垃圾郵件過(guò)濾系統(tǒng)設(shè)計(jì)方案41-54
- 4.1 工作流程41-43
- 4.2 總體設(shè)計(jì)43-52
- 4.2.1 用戶管理模塊44
- 4.2.2 郵件管理模塊44-45
- 4.2.3 郵件過(guò)濾模塊45-51
- 4.2.4 數(shù)據(jù)庫(kù)設(shè)計(jì)51-52
- 4.3 測(cè)試指標(biāo)52-53
- 4.4 本章小結(jié)53-54
- 第五章 垃圾郵件過(guò)濾系統(tǒng)實(shí)現(xiàn)及實(shí)驗(yàn)結(jié)果分析54-66
- 5.1 系統(tǒng)實(shí)現(xiàn)54-59
- 5.1.1 開(kāi)發(fā)環(huán)境54
- 5.1.2 系統(tǒng)開(kāi)發(fā)54-59
- 5.2 實(shí)驗(yàn)結(jié)果59-64
- 5.2.1 實(shí)驗(yàn)方法59
- 5.2.2 實(shí)驗(yàn)分析59-64
- 5.3 本章小結(jié)64-66
- 第六章 結(jié)論66-68
- 6.1 本文總結(jié)66
- 6.2 工作展望66-68
- 致謝68-69
- 參考文獻(xiàn)69-72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 丁世飛;齊丙娟;譚紅艷;;支持向量機(jī)理論與算法研究綜述[J];電子科技大學(xué)學(xué)報(bào);2011年01期
2 蔡澤利;陳益全;;淺談反垃圾郵件技術(shù)[J];硅谷;2010年23期
3 臺(tái)德藝;謝飛;胡學(xué)鋼;;文本分類技術(shù)研究[J];合肥學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年03期
4 陳志賢;;垃圾郵件過(guò)濾技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年05期
5 張學(xué)農(nóng);張立成;;累積反饋學(xué)習(xí)的簡(jiǎn)單貝葉斯垃圾郵件過(guò)濾[J];計(jì)算機(jī)應(yīng)用與軟件;2008年10期
6 ;《2013第一季度中國(guó)反垃圾郵件狀況調(diào)查報(bào)告》發(fā)布[J];互聯(lián)網(wǎng)天地;2013年07期
7 林偉;;基于貝葉斯分類的郵件過(guò)濾系統(tǒng)研究與實(shí)現(xiàn)[J];陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年04期
8 唐暉;;基于部署郵件安全防護(hù)網(wǎng)關(guān)方式解決垃圾問(wèn)題的建議[J];現(xiàn)代電信科技;2008年05期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 孫艷華;垃圾郵件過(guò)濾技術(shù)的研究[D];大連海事大學(xué);2007年
,本文編號(hào):1062308
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1062308.html