天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2021-04-08 22:24
  隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件因使用方便,通信快捷,已成為我們生活中的一部分。但是,現(xiàn)在很多的組織或者個人利用電子郵件的便捷,發(fā)布大量垃圾信息,這就是垃圾郵件。如今垃圾郵件問題越來越嚴重,它不僅傳播了大量不良信息,還浪費了我們大量時間。垃圾郵件分類技術中用的比較多的分類算法有樸素貝葉斯(Naive Bayes)、神經(jīng)網(wǎng)絡、K-近鄰法、支持向量機(SVM)等。由于郵件分類算法都是建立特征項提取基礎上的,因此特征項提取直接影響著郵件的分類效果。隨著學者的研究發(fā)現(xiàn),對電子郵件內(nèi)容特征進行提取的有效算法有:文檔頻率、信息增益、互信息、期望交叉熵、文本證據(jù)權、CHI統(tǒng)計以及TFIDF等。TFIDF因其便于理解、操作簡單、時間復雜度低等優(yōu)點被廣泛的運用,該算法也存在不足之處:該方法只考慮了特征詞文檔的絕對數(shù)量和特征詞在某類郵件中的詞頻,沒有考慮到特征詞在類中的分布情況和特征詞在其他類郵件中的詞頻,高估了低頻詞的作用并低估了高頻詞的作用。本文將重點探討并對比現(xiàn)有垃圾郵件過濾技術,分別從郵件預處理、中文分詞、特征提取和分類器等角度展開。在比較多種特征提取算法后,論文選擇對傳統(tǒng)的TFIDF算法進行一定的... 

【文章來源】:武漢郵電科學研究院湖北省

【文章頁數(shù)】:52 頁

【學位級別】:碩士

【部分圖文】:

基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)


電子郵件傳遞流程

分布情況,函數(shù)圖,郵件,特征詞


圾郵件和正常郵件之間分布均勻,說明該特征詞值。因此可以看出僅僅使用傳統(tǒng)的 TFIDF 算法改進F 沒有考慮到特征詞在郵件類中的分布情況進行第 i 封郵件中出現(xiàn)特征詞 t 的頻率為 ni。 1(,)log1iaiTF dt(n)進后的 TF 算法,表示特征項 t 在郵件類別 d以通過實驗來確定最佳值。f(x)=x 的函數(shù)圖如下:

系統(tǒng)流程圖,系統(tǒng)流程圖,特征詞,郵件


從目前的垃圾郵件過濾技術分析,基于內(nèi)容的垃圾郵件過濾技術效果最郵件過濾系統(tǒng)應用于中文垃圾郵件過濾時,存在特征提取不合理的情況:不能很好地找出有區(qū)分度的特征詞。為了使垃圾郵件分類更加準確,本文法進行了一些改進,降低特例郵件中頻繁出現(xiàn)特征詞的影響,引入了頻率類中頻繁出現(xiàn)詞條的權值,并減小了在類中出現(xiàn)頻率小詞條的權值。最終種分類器的實現(xiàn),通過對比來試驗它們的分類效果。.1 系統(tǒng)總體設計本郵件過濾系統(tǒng)的主要流程是將已知類別的郵件集(垃圾郵件集和正常訓練樣本,通過預處理和特征提取等過程,得到特征詞庫;再對測試集郵和正常郵件)進行預處理和特征提取等過程,得到特征詞集合,再使用合測試集郵件進行分類。具體流程圖如圖 5-1 所示:

【參考文獻】:
期刊論文
[1]基于主題模型的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)[J]. 寇曉淮,程華.  電信科學. 2017(11)
[2]基于TFIDF的社區(qū)問答系統(tǒng)問句相似度改進算法[J]. 趙勝輝,李吉月,徐碧,孫博研.  北京理工大學學報. 2017(09)
[3]一種基于郵件頭信息的三支決策郵件過濾方法[J]. 袁國鑫,于洪.  計算機科學. 2017(09)
[4]基于信息增益的文本特征選擇方法[J]. 王理冬.  電腦知識與技術. 2017(25)
[5]基于互信息的粒化特征加權多標簽學習k近鄰算法[J]. 李峰,苗奪謙,張志飛,張維.  計算機研究與發(fā)展. 2017(05)
[6]基于貝葉斯算法的垃圾郵件過濾的方法研究[J]. 郭淑敏,朱蓉,王晶晶,胡勝,陳佳輝.  電腦知識與技術. 2017(13)
[7]基于粗糙集算法的DDoS攻擊威脅評估[J]. 宋全振,陳秀真,馬進.  通信技術. 2017(01)
[8]基于信息增益特征選擇的網(wǎng)絡異常檢測模型[J]. 劉汝雋,賈斌,辛陽.  計算機應用. 2016(S2)
[9]基于詞頻類別相關的特征權重算法[J]. 張羚,陸余良,楊國正.  計算機應用研究. 2017(02)
[10]KNN算法在原始林判別中的應用研究[J]. 何長斌,鄧喜慶,溫慶忠,畢燕玲.  林業(yè)調(diào)查規(guī)劃. 2016(02)

碩士論文
[1]關于垃圾郵件過濾中特征選擇算法的研究[D]. 李猛.吉林大學 2016
[2]基于理解的漢語分詞系統(tǒng)的設計與實現(xiàn)[D]. 蘇勇.電子科技大學 2011
[3]基于全球IP信譽系統(tǒng)的垃圾郵件過濾技術研究[D]. 呂英杰.哈爾濱工業(yè)大學 2007



本文編號:3126385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3126385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶16d40***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com