基于BP神經(jīng)網(wǎng)絡(luò)的多重郵件過濾系統(tǒng)的研究與設(shè)計
發(fā)布時間:2021-04-25 20:31
隨著互聯(lián)網(wǎng)網(wǎng)絡(luò)的高速發(fā)展,人與人之間在信息交流中使用電子郵件的頻率與日俱增,它逐漸成為一個重要的溝通媒介。但是,隨著電子郵件的不斷普及,伴隨而來的是垃圾郵件的泛濫,控制不好甚至?xí)绊懥巳藗兊恼9ぷ髋c生活。目前已有的垃圾郵件過濾仍存在諸多不足,不能很好地將垃圾郵件區(qū)分過濾。針對這項不足,如何更好地加強對垃圾郵件過濾技術(shù)的研究便顯得尤為重要。本次研究是要設(shè)計一種基于統(tǒng)計的郵件過濾系統(tǒng)模型。模型訓(xùn)練選用BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。實驗過程對公共PU語料庫進(jìn)行數(shù)據(jù)預(yù)處理和算法訓(xùn)練得到大量模型,接著進(jìn)行模型選擇,最終通過模型組合得到垃圾郵件過濾系統(tǒng)主輔多重協(xié)同模型。郵件在該模型的過濾過程中會被分成多股數(shù)據(jù)流進(jìn)入FC層,并分別在Output層輸出結(jié)果,再根據(jù)子模型虛報率(FALLOUT)計算權(quán)值得到最終判斷結(jié)果。論文預(yù)處理過程包括了基于Hadoop的詞頻統(tǒng)計、基于改進(jìn)TF算法的詞典降維和向量空間模型(VSM)形式矩陣生成。詞頻統(tǒng)計得到總特征詞列表、合法郵件特征詞列表、垃圾郵件特征詞列表和每封郵件特征詞列表。本研究針對數(shù)據(jù)預(yù)處理改進(jìn)了傳統(tǒng)的TF算法,通過詞頻統(tǒng)計對語料庫特征詞集合進(jìn)行降維,將維度落在20...
【文章來源】:深圳大學(xué)廣東省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 郵件過濾相關(guān)理論及實驗平臺
2.1 郵件過濾原理
2.1.1 服務(wù)器端和客戶端的郵件過濾
2.1.2 三種郵件過濾技術(shù)原理
2.1.3 特征選擇技術(shù)
2.2 基于統(tǒng)計的郵件過濾算法
2.2.1 貝葉斯
2.2.2 K近鄰
2.2.3 支持向量機(jī)
2.2.4 BP神經(jīng)網(wǎng)絡(luò)算法
2.3 Hadoop平臺及MapReduce編程模式
2.3.1 Hadoop平臺
2.3.2 MapReduce編程模式
2.4 小結(jié)
第三章 數(shù)據(jù)采集、詞典維數(shù)與預(yù)處理
3.1 實驗語料庫選擇
3.2 語料庫子集劃分
3.3 基于Hadoop實驗數(shù)據(jù)詞頻統(tǒng)計
3.4 基于改進(jìn)的TF算法詞典降維
3.4.1 初步降維
3.4.2 詞典降維
3.4.3 生成VSM形式的稀疏矩陣
3.5 數(shù)據(jù)處理實驗
3.5.1 Hadoop的配置
3.5.2 實驗過程
3.5.3 實驗結(jié)果
3.6 小結(jié)
第四章 基于BP神經(jīng)網(wǎng)絡(luò)郵件過濾研究
4.1 算法訓(xùn)練及模型選擇
4.1.1 學(xué)習(xí)率(Learning Rate)選擇
4.1.2 模型仿真及最優(yōu)模型選擇
4.2 實驗最優(yōu)模型與SVM基函數(shù)訓(xùn)練模型比較
4.3 小結(jié)
第五章 多重過濾系統(tǒng)的設(shè)計與實現(xiàn)
5.1 多重郵件過濾系統(tǒng)的流程設(shè)計
5.2 指標(biāo)測試結(jié)果
5.2.1 重要評價指標(biāo)
5.2.2 基于AUC的評價指標(biāo)
5.3 模型運算量評估
5.4 模型內(nèi)存占用率評估
5.5 小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]DNS服務(wù)器淺談[J]. 楊龍. 電腦知識與技術(shù). 2017(21)
[2]Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J]. 顧榮,嚴(yán)金雙,楊曉亮,袁春風(fēng),黃宜華. 計算機(jī)研究與發(fā)展. 2014(06)
[3]垃圾郵件優(yōu)化過濾方法的研究與仿真[J]. 邵葉秦. 計算機(jī)仿真. 2013(12)
[4]基于鄰接表的進(jìn)路廣度搜索算法分析[J]. 文冬林. 科技資訊. 2013(34)
[5]文本分類中TF-IDF方法的改進(jìn)研究[J]. 覃世安,李法運. 現(xiàn)代圖書情報技術(shù). 2013(10)
[6]一種智能垃圾郵件過濾模型的仿真研究[J]. 雷劍剛,孫細(xì)斌. 計算機(jī)仿真. 2013(05)
[7]VSM信息檢索中的數(shù)據(jù)稀疏問題分析與規(guī)避策略[J]. 梁士金. 圖書情報工作. 2013(01)
[8]Matlab神經(jīng)網(wǎng)絡(luò)工具NNTool的應(yīng)用與仿真[J]. 唐忠,謝濤. 計算機(jī)與現(xiàn)代化. 2012(12)
[9]Hadoop HDFS和MapReduce架構(gòu)淺析[J]. 郝樹魁. 郵電設(shè)計技術(shù). 2012(07)
[10]基于AUC的分類器評價和設(shè)計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
碩士論文
[1]郵件服務(wù)器的設(shè)計與實現(xiàn)[D]. 韓穎.吉林大學(xué) 2014
[2]ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡(luò)算法的比較和分析研究[D]. 林士杰.內(nèi)蒙古大學(xué) 2013
[3]基于改進(jìn)SVM的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 陳孝禮.山東師范大學(xué) 2011
[4]基于神經(jīng)網(wǎng)絡(luò)集成的垃圾郵件過濾系統(tǒng)設(shè)計[D]. 劉寶萍.山西財經(jīng)大學(xué) 2010
[5]Exchange郵件傳輸過程的安全性研究[D]. 金晶.上海交通大學(xué) 2009
[6]基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D]. 楊麗華.西南交通大學(xué) 2006
[7]基于支持向量機(jī)理論的垃圾郵件過濾模型[D]. 張羽.電子科技大學(xué) 2006
[8]基于內(nèi)容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學(xué)院研究生院(計算技術(shù)研究所) 2004
本文編號:3160048
【文章來源】:深圳大學(xué)廣東省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 郵件過濾相關(guān)理論及實驗平臺
2.1 郵件過濾原理
2.1.1 服務(wù)器端和客戶端的郵件過濾
2.1.2 三種郵件過濾技術(shù)原理
2.1.3 特征選擇技術(shù)
2.2 基于統(tǒng)計的郵件過濾算法
2.2.1 貝葉斯
2.2.2 K近鄰
2.2.3 支持向量機(jī)
2.2.4 BP神經(jīng)網(wǎng)絡(luò)算法
2.3 Hadoop平臺及MapReduce編程模式
2.3.1 Hadoop平臺
2.3.2 MapReduce編程模式
2.4 小結(jié)
第三章 數(shù)據(jù)采集、詞典維數(shù)與預(yù)處理
3.1 實驗語料庫選擇
3.2 語料庫子集劃分
3.3 基于Hadoop實驗數(shù)據(jù)詞頻統(tǒng)計
3.4 基于改進(jìn)的TF算法詞典降維
3.4.1 初步降維
3.4.2 詞典降維
3.4.3 生成VSM形式的稀疏矩陣
3.5 數(shù)據(jù)處理實驗
3.5.1 Hadoop的配置
3.5.2 實驗過程
3.5.3 實驗結(jié)果
3.6 小結(jié)
第四章 基于BP神經(jīng)網(wǎng)絡(luò)郵件過濾研究
4.1 算法訓(xùn)練及模型選擇
4.1.1 學(xué)習(xí)率(Learning Rate)選擇
4.1.2 模型仿真及最優(yōu)模型選擇
4.2 實驗最優(yōu)模型與SVM基函數(shù)訓(xùn)練模型比較
4.3 小結(jié)
第五章 多重過濾系統(tǒng)的設(shè)計與實現(xiàn)
5.1 多重郵件過濾系統(tǒng)的流程設(shè)計
5.2 指標(biāo)測試結(jié)果
5.2.1 重要評價指標(biāo)
5.2.2 基于AUC的評價指標(biāo)
5.3 模型運算量評估
5.4 模型內(nèi)存占用率評估
5.5 小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]DNS服務(wù)器淺談[J]. 楊龍. 電腦知識與技術(shù). 2017(21)
[2]Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J]. 顧榮,嚴(yán)金雙,楊曉亮,袁春風(fēng),黃宜華. 計算機(jī)研究與發(fā)展. 2014(06)
[3]垃圾郵件優(yōu)化過濾方法的研究與仿真[J]. 邵葉秦. 計算機(jī)仿真. 2013(12)
[4]基于鄰接表的進(jìn)路廣度搜索算法分析[J]. 文冬林. 科技資訊. 2013(34)
[5]文本分類中TF-IDF方法的改進(jìn)研究[J]. 覃世安,李法運. 現(xiàn)代圖書情報技術(shù). 2013(10)
[6]一種智能垃圾郵件過濾模型的仿真研究[J]. 雷劍剛,孫細(xì)斌. 計算機(jī)仿真. 2013(05)
[7]VSM信息檢索中的數(shù)據(jù)稀疏問題分析與規(guī)避策略[J]. 梁士金. 圖書情報工作. 2013(01)
[8]Matlab神經(jīng)網(wǎng)絡(luò)工具NNTool的應(yīng)用與仿真[J]. 唐忠,謝濤. 計算機(jī)與現(xiàn)代化. 2012(12)
[9]Hadoop HDFS和MapReduce架構(gòu)淺析[J]. 郝樹魁. 郵電設(shè)計技術(shù). 2012(07)
[10]基于AUC的分類器評價和設(shè)計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
碩士論文
[1]郵件服務(wù)器的設(shè)計與實現(xiàn)[D]. 韓穎.吉林大學(xué) 2014
[2]ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡(luò)算法的比較和分析研究[D]. 林士杰.內(nèi)蒙古大學(xué) 2013
[3]基于改進(jìn)SVM的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 陳孝禮.山東師范大學(xué) 2011
[4]基于神經(jīng)網(wǎng)絡(luò)集成的垃圾郵件過濾系統(tǒng)設(shè)計[D]. 劉寶萍.山西財經(jīng)大學(xué) 2010
[5]Exchange郵件傳輸過程的安全性研究[D]. 金晶.上海交通大學(xué) 2009
[6]基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D]. 楊麗華.西南交通大學(xué) 2006
[7]基于支持向量機(jī)理論的垃圾郵件過濾模型[D]. 張羽.電子科技大學(xué) 2006
[8]基于內(nèi)容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學(xué)院研究生院(計算技術(shù)研究所) 2004
本文編號:3160048
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3160048.html
最近更新
教材專著