基于向量空間模型的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于向量空間模型的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 郵件分類 郵件過濾 訓(xùn)練過程 向量空間模型 簡單向量距離法
【摘要】:如今的互聯(lián)網(wǎng)時(shí)代,人們?cè)絹碓蕉嗟耐ㄟ^互聯(lián)網(wǎng)進(jìn)行交流,而電子郵件是最普及的一個(gè)交流方式。通過電子郵件系統(tǒng),用戶之間可以很方便快速地進(jìn)行交流,但是用戶經(jīng)常會(huì)收到垃圾郵件,目前垃圾郵件的泛濫已經(jīng)給網(wǎng)絡(luò)和用戶帶來了很大的困擾,而且用戶對(duì)郵件操作和查看都很繁瑣,所以對(duì)垃圾郵件進(jìn)行過濾是必不可少的;谏鲜隹紤]本文基于向量空間模型開發(fā)了一款根據(jù)郵件內(nèi)容能準(zhǔn)確、快速地過濾垃圾郵件并且便于管理的郵件系統(tǒng)。本文工作如下:首先將郵件分類,郵件分類選用復(fù)旦大學(xué)語料庫作為各類訓(xùn)練集,對(duì)接收到的郵件表示成向量模型,在訓(xùn)練過程中通過預(yù)處理、特征提取、權(quán)重計(jì)算和閾值的設(shè)定技術(shù)訓(xùn)練得出各類郵件的特征向量、閾值;使用簡單向量距離方法計(jì)算該郵件與各類郵件的特征向量的相似度,取最大值,再經(jīng)過與閾值比較實(shí)現(xiàn)對(duì)郵件進(jìn)行分類;然后選用CCERT垃圾郵件訓(xùn)練集對(duì)垃圾郵件進(jìn)行過濾,通過將郵件與該類文檔中垃圾郵件集生成的特征向量進(jìn)行相似度計(jì)算,取最大值并與閾值比較;最后判斷是否為垃圾郵件。本文開發(fā)的垃圾郵件過濾系統(tǒng)是在MyEclipse 6.5平臺(tái)下,基于C/S結(jié)構(gòu)使用JAVA編程語言設(shè)計(jì)并實(shí)現(xiàn)了基于內(nèi)容過濾的垃圾郵件系統(tǒng),該過濾系統(tǒng)不僅提高了過濾速度,而且還可以有利于郵件的管理。
【關(guān)鍵詞】:郵件分類 郵件過濾 訓(xùn)練過程 向量空間模型 簡單向量距離法
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.098
【目錄】:
- 摘要4-5
- Abstract5-12
- 第一章 緒論12-15
- 1.1 研究背景12
- 1.2 國內(nèi)外反垃圾郵件現(xiàn)狀12-13
- 1.3 本文研究內(nèi)容13-14
- 1.4 論文結(jié)構(gòu)14-15
- 第二章 電子郵件相關(guān)原理及反垃圾郵件技術(shù)15-20
- 2.1 電子郵件工作原理15-16
- 2.2 電子郵件相關(guān)協(xié)議16
- 2.2.1 SMTP16
- 2.2.2 POP16
- 2.3 電子郵件格式16-18
- 2.4 反垃圾郵件技術(shù)18-19
- 2.4.1 主要反垃圾郵件技術(shù)18-19
- 2.4.2 本文的垃圾郵件過濾方法19
- 2.5 本章小結(jié)19-20
- 第三章 基于VSM的文本分類相關(guān)技術(shù)20-27
- 3.1 向量空間模型20-22
- 3.2 文本的表示22-24
- 3.2.1 原始特征的生成22
- 3.2.2 特征項(xiàng)的權(quán)重計(jì)算22-23
- 3.2.3 特征提取23-24
- 3.3 訓(xùn)練集和測(cè)試集24-25
- 3.3.1 訓(xùn)練集和測(cè)試集24
- 3.3.2 系統(tǒng)使用的文本分類訓(xùn)練集以及垃圾郵件訓(xùn)練集24-25
- 3.4 系統(tǒng)性能評(píng)價(jià)25-26
- 3.4.1 郵件分類評(píng)估標(biāo)準(zhǔn)25
- 3.4.2 郵件過濾評(píng)估準(zhǔn)則25-26
- 3.5 本章小結(jié)26-27
- 第四章 垃圾郵件過濾系統(tǒng)的設(shè)計(jì)27-40
- 4.1 垃圾郵件過濾系統(tǒng)總體設(shè)計(jì)27-28
- 4.2 郵件分類28-36
- 4.2.1 預(yù)處理28-29
- 4.2.2 郵件向量形式表示29-30
- 4.2.3 訓(xùn)練過程30-34
- 4.2.4 分類器設(shè)計(jì)34-36
- 4.3 郵件過濾36-39
- 4.3.1 垃圾郵件集36-37
- 4.3.2 過濾器設(shè)計(jì)37-39
- 4.4 本章小結(jié)39-40
- 第五章 郵件過濾系統(tǒng)的實(shí)現(xiàn)40-53
- 5.1 開發(fā)環(huán)境40
- 5.2 郵箱的登錄40-41
- 5.3 郵件接收模塊的實(shí)現(xiàn)41-50
- 5.3.1 郵件預(yù)處理41-43
- 5.3.2 郵件分類的實(shí)現(xiàn)43-47
- 5.3.3 郵件過濾的實(shí)現(xiàn)47-50
- 5.4 郵件發(fā)送模塊的實(shí)現(xiàn)50-51
- 5.5 實(shí)驗(yàn)結(jié)果及分析51-52
- 5.5.1 測(cè)試數(shù)據(jù)51
- 5.5.2 實(shí)驗(yàn)結(jié)果51
- 5.5.3 對(duì)比實(shí)驗(yàn)51-52
- 5.6 本章小結(jié)52-53
- 第六章 總結(jié)與展望53-54
- 6.1 總結(jié)53
- 6.2 展望53-54
- 參考文獻(xiàn)54-57
- 致謝57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 落紅衛(wèi),劉建毅,王樅,鐘義信;智能郵件過濾系統(tǒng)的研究與實(shí)現(xiàn)[J];機(jī)電產(chǎn)品開發(fā)與創(chuàng)新;2003年01期
2 張羿;周建國;晏蒲柳;;垃圾郵件過濾系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年18期
3 刁倩,王永成,張惠惠,何驥;文本自動(dòng)分類中的詞權(quán)重與分類算法[J];中文信息學(xué)報(bào);2000年03期
4 李玉峰;舒晨;;反垃圾郵件技術(shù)淺析[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
5 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期
6 李賢華;垃圾郵件涌動(dòng)與國家全面干預(yù)(上)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2004年10期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 井志強(qiáng);基于擴(kuò)展的VSM中文文本分類方法[D];哈爾濱工程大學(xué);2010年
2 章蘭;一種基于VSM模型的動(dòng)態(tài)文本分類器的設(shè)計(jì)[D];蘇州大學(xué);2004年
3 柳培林;基于向量空間模型的中文文本分類技術(shù)研究[D];大慶石油學(xué)院;2006年
4 陳凱;反垃圾郵件技術(shù)的研究與實(shí)踐[D];北京郵電大學(xué);2006年
5 馮靜;基于向量空間模型的中文網(wǎng)頁自動(dòng)分類技術(shù)研究[D];中國石油大學(xué);2008年
,本文編號(hào):812120
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/812120.html