天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-04-08 22:24
  隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件因使用方便,通信快捷,已成為我們生活中的一部分。但是,現(xiàn)在很多的組織或者個(gè)人利用電子郵件的便捷,發(fā)布大量垃圾信息,這就是垃圾郵件。如今垃圾郵件問題越來越嚴(yán)重,它不僅傳播了大量不良信息,還浪費(fèi)了我們大量時(shí)間。垃圾郵件分類技術(shù)中用的比較多的分類算法有樸素貝葉斯(Naive Bayes)、神經(jīng)網(wǎng)絡(luò)、K-近鄰法、支持向量機(jī)(SVM)等。由于郵件分類算法都是建立特征項(xiàng)提取基礎(chǔ)上的,因此特征項(xiàng)提取直接影響著郵件的分類效果。隨著學(xué)者的研究發(fā)現(xiàn),對(duì)電子郵件內(nèi)容特征進(jìn)行提取的有效算法有:文檔頻率、信息增益、互信息、期望交叉熵、文本證據(jù)權(quán)、CHI統(tǒng)計(jì)以及TFIDF等。TFIDF因其便于理解、操作簡單、時(shí)間復(fù)雜度低等優(yōu)點(diǎn)被廣泛的運(yùn)用,該算法也存在不足之處:該方法只考慮了特征詞文檔的絕對(duì)數(shù)量和特征詞在某類郵件中的詞頻,沒有考慮到特征詞在類中的分布情況和特征詞在其他類郵件中的詞頻,高估了低頻詞的作用并低估了高頻詞的作用。本文將重點(diǎn)探討并對(duì)比現(xiàn)有垃圾郵件過濾技術(shù),分別從郵件預(yù)處理、中文分詞、特征提取和分類器等角度展開。在比較多種特征提取算法后,論文選擇對(duì)傳統(tǒng)的TFIDF算法進(jìn)行一定的... 

【文章來源】:武漢郵電科學(xué)研究院湖北省

【文章頁數(shù)】:52 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


電子郵件傳遞流程

分布情況,函數(shù)圖,郵件,特征詞


圾郵件和正常郵件之間分布均勻,說明該特征詞值。因此可以看出僅僅使用傳統(tǒng)的 TFIDF 算法改進(jìn)F 沒有考慮到特征詞在郵件類中的分布情況進(jìn)行第 i 封郵件中出現(xiàn)特征詞 t 的頻率為 ni。 1(,)log1iaiTF dt(n)進(jìn)后的 TF 算法,表示特征項(xiàng) t 在郵件類別 d以通過實(shí)驗(yàn)來確定最佳值。f(x)=x 的函數(shù)圖如下:

系統(tǒng)流程圖,系統(tǒng)流程圖,特征詞,郵件


從目前的垃圾郵件過濾技術(shù)分析,基于內(nèi)容的垃圾郵件過濾技術(shù)效果最郵件過濾系統(tǒng)應(yīng)用于中文垃圾郵件過濾時(shí),存在特征提取不合理的情況:不能很好地找出有區(qū)分度的特征詞。為了使垃圾郵件分類更加準(zhǔn)確,本文法進(jìn)行了一些改進(jìn),降低特例郵件中頻繁出現(xiàn)特征詞的影響,引入了頻率類中頻繁出現(xiàn)詞條的權(quán)值,并減小了在類中出現(xiàn)頻率小詞條的權(quán)值。最終種分類器的實(shí)現(xiàn),通過對(duì)比來試驗(yàn)它們的分類效果。.1 系統(tǒng)總體設(shè)計(jì)本郵件過濾系統(tǒng)的主要流程是將已知類別的郵件集(垃圾郵件集和正常訓(xùn)練樣本,通過預(yù)處理和特征提取等過程,得到特征詞庫;再對(duì)測試集郵和正常郵件)進(jìn)行預(yù)處理和特征提取等過程,得到特征詞集合,再使用合測試集郵件進(jìn)行分類。具體流程圖如圖 5-1 所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于主題模型的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 寇曉淮,程華.  電信科學(xué). 2017(11)
[2]基于TFIDF的社區(qū)問答系統(tǒng)問句相似度改進(jìn)算法[J]. 趙勝輝,李吉月,徐碧,孫博研.  北京理工大學(xué)學(xué)報(bào). 2017(09)
[3]一種基于郵件頭信息的三支決策郵件過濾方法[J]. 袁國鑫,于洪.  計(jì)算機(jī)科學(xué). 2017(09)
[4]基于信息增益的文本特征選擇方法[J]. 王理冬.  電腦知識(shí)與技術(shù). 2017(25)
[5]基于互信息的;卣骷訖(quán)多標(biāo)簽學(xué)習(xí)k近鄰算法[J]. 李峰,苗奪謙,張志飛,張維.  計(jì)算機(jī)研究與發(fā)展. 2017(05)
[6]基于貝葉斯算法的垃圾郵件過濾的方法研究[J]. 郭淑敏,朱蓉,王晶晶,胡勝,陳佳輝.  電腦知識(shí)與技術(shù). 2017(13)
[7]基于粗糙集算法的DDoS攻擊威脅評(píng)估[J]. 宋全振,陳秀真,馬進(jìn).  通信技術(shù). 2017(01)
[8]基于信息增益特征選擇的網(wǎng)絡(luò)異常檢測模型[J]. 劉汝雋,賈斌,辛陽.  計(jì)算機(jī)應(yīng)用. 2016(S2)
[9]基于詞頻類別相關(guān)的特征權(quán)重算法[J]. 張羚,陸余良,楊國正.  計(jì)算機(jī)應(yīng)用研究. 2017(02)
[10]KNN算法在原始林判別中的應(yīng)用研究[J]. 何長斌,鄧喜慶,溫慶忠,畢燕玲.  林業(yè)調(diào)查規(guī)劃. 2016(02)

碩士論文
[1]關(guān)于垃圾郵件過濾中特征選擇算法的研究[D]. 李猛.吉林大學(xué) 2016
[2]基于理解的漢語分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[3]基于全球IP信譽(yù)系統(tǒng)的垃圾郵件過濾技術(shù)研究[D]. 呂英杰.哈爾濱工業(yè)大學(xué) 2007



本文編號(hào):3126385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3126385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶16d40***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com