基于知識(shí)積累型的樸素貝葉斯垃圾郵件過濾算法研究
發(fā)布時(shí)間:2021-01-26 21:11
隨著互聯(lián)網(wǎng)應(yīng)用的不斷深入,電子郵件已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠,并發(fā)揮著越來越重要的作用。與此同時(shí),伴隨著電子郵件的應(yīng)用,各種廣告、成人交友、商品推銷等垃圾郵件信息也在網(wǎng)絡(luò)中蔓延。這些垃圾郵件極大地浪費(fèi)了互聯(lián)網(wǎng)資源和用戶的時(shí)間。因此,研究對(duì)于垃圾郵件的自動(dòng)過濾算法具有非常重要的意義。本文首先針對(duì)郵件所具有的文本特點(diǎn)進(jìn)行了分析,介紹了文本分類中常用的向量空間模型。由于中文語句不存在類似于空格等天然詞與詞之間的分割符,因此中文分詞技術(shù)是垃圾郵件過濾的基礎(chǔ),論文針對(duì)當(dāng)前主要的中文文本分詞技術(shù)進(jìn)行了相關(guān)介紹與分析。其次針對(duì)目前常用的垃圾郵件過濾算法進(jìn)行了分析,探討了常用的貝葉斯分類模型、原理以及對(duì)應(yīng)算法的特點(diǎn)。同時(shí)對(duì)其他主要分類器的概況及其優(yōu)缺點(diǎn)也進(jìn)行了比較分析。在現(xiàn)有垃圾郵件過濾算法的基礎(chǔ)上,針對(duì)基于主動(dòng)學(xué)習(xí)的分類算法所要求的樣本空間全面性的不足之處,提出了一種基于知識(shí)積累方法的樸素貝葉斯垃圾郵件過濾算法。算法基于樸素貝葉斯算法的分類原理,利用用戶對(duì)郵件的分析結(jié)果將新型的郵件樣本動(dòng)態(tài)加入訓(xùn)練樣本集中,從而實(shí)現(xiàn)知識(shí)的不斷積累過程。實(shí)驗(yàn)結(jié)果表明新算法具有較好的過濾性能。最后,完成了基于...
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
最優(yōu)分類超平面示意圖
并將合法郵件樣本個(gè)數(shù)加1,同時(shí)對(duì)于各特征詞對(duì)應(yīng)合法類的出現(xiàn)頻度加1;若結(jié)果小于0,則將郵件作為垃圾郵件處理;對(duì)應(yīng)將垃圾郵件樣本個(gè)數(shù)加1,同時(shí)對(duì)于各特征詞的對(duì)應(yīng)垃圾郵件類的出現(xiàn)頻度加1;對(duì)應(yīng)算法流程圖如圖4.1所示。圖4.1 過濾算法流程圖(3)用戶對(duì)郵件進(jìn)行瀏覽,若用戶將某一郵件樣本從合法郵件中移至垃圾郵件,則認(rèn)為出現(xiàn)了誤判,因此將對(duì)于合法郵件的樣本個(gè)數(shù)減1,而垃圾郵件樣本個(gè)數(shù)加1,同時(shí)郵件中出現(xiàn)的特征詞也進(jìn)行相應(yīng)調(diào)整;若用戶將一郵件從垃圾郵件中移至合法郵件,則同樣也認(rèn)為出現(xiàn)了誤判,將對(duì)于合法郵件的樣本個(gè)數(shù)加1,而垃圾郵件樣本個(gè)數(shù)減1,同時(shí)郵件中出現(xiàn)的特征詞也進(jìn)行相應(yīng)調(diào)整;對(duì)應(yīng)算法的用戶處理流程圖如圖4.2所示:
5.2 系統(tǒng)實(shí)現(xiàn)基于知識(shí)積累的垃圾郵件分類算法,實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的垃圾郵件過濾系統(tǒng)。系統(tǒng)的主界面如下圖5.5所示:圖 5.5 系統(tǒng)主界面系統(tǒng)在登錄后才能進(jìn)行郵件處理操作。點(diǎn)擊登錄,系統(tǒng)自動(dòng)檢測(cè)當(dāng)前賬號(hào)是否已存在,若沒有設(shè)置則自動(dòng)調(diào)用OutLook進(jìn)行賬號(hào)設(shè)置過程,若存在賬號(hào)則自動(dòng)進(jìn)行連接并獲取郵件的過程,其運(yùn)行情況如圖5.6所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于BP神經(jīng)網(wǎng)絡(luò)的人體血液中紅細(xì)胞濃度無創(chuàng)檢測(cè)[J]. 張寶菊,雷晴,李剛,林凌,王慧泉,Jean Gao. 光譜學(xué)與光譜分析. 2012(09)
[2]模糊決策樹算法在郵件分類中的應(yīng)用[J]. 趙凱. 科技通報(bào). 2012(06)
[3]垃圾郵件過濾技術(shù)發(fā)展現(xiàn)狀及展望[J]. 石鐵峰. 數(shù)字技術(shù)與應(yīng)用. 2012(05)
[4]結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過濾[J]. 劉伍穎,王挺. 計(jì)算機(jī)研究與發(fā)展. 2012(03)
[5]一種改進(jìn)的貝葉斯算法在垃圾郵件過濾中的研究[J]. 馬小龍. 計(jì)算機(jī)應(yīng)用研究. 2012(03)
[6]引入數(shù)據(jù)平滑的增量式貝葉斯垃圾郵件過濾方法[J]. 王祖輝,姜維. 計(jì)算機(jī)工程與應(yīng)用. 2012(16)
[7]在逐漸縮小的空間上漸進(jìn)學(xué)習(xí)樸素貝葉斯參數(shù)[J]. 歐陽澤華,郭華平,范明. 計(jì)算機(jī)應(yīng)用. 2012(01)
[8]一種改進(jìn)KNN個(gè)性化郵件過濾的方法[J]. 鄧文韜,王國(guó)胤,董振興. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(06)
[9]校園網(wǎng)電子郵件故障處理策略研究[J]. 王懌晨,林予松,王宗敏. 廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(S1)
[10]一種基于NNIA多目標(biāo)優(yōu)化的代價(jià)敏感決策樹構(gòu)建方法[J]. 趙士偉,卓力,王素玉,沈蘭蓀. 電子學(xué)報(bào). 2011(10)
本文編號(hào):3001821
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
最優(yōu)分類超平面示意圖
并將合法郵件樣本個(gè)數(shù)加1,同時(shí)對(duì)于各特征詞對(duì)應(yīng)合法類的出現(xiàn)頻度加1;若結(jié)果小于0,則將郵件作為垃圾郵件處理;對(duì)應(yīng)將垃圾郵件樣本個(gè)數(shù)加1,同時(shí)對(duì)于各特征詞的對(duì)應(yīng)垃圾郵件類的出現(xiàn)頻度加1;對(duì)應(yīng)算法流程圖如圖4.1所示。圖4.1 過濾算法流程圖(3)用戶對(duì)郵件進(jìn)行瀏覽,若用戶將某一郵件樣本從合法郵件中移至垃圾郵件,則認(rèn)為出現(xiàn)了誤判,因此將對(duì)于合法郵件的樣本個(gè)數(shù)減1,而垃圾郵件樣本個(gè)數(shù)加1,同時(shí)郵件中出現(xiàn)的特征詞也進(jìn)行相應(yīng)調(diào)整;若用戶將一郵件從垃圾郵件中移至合法郵件,則同樣也認(rèn)為出現(xiàn)了誤判,將對(duì)于合法郵件的樣本個(gè)數(shù)加1,而垃圾郵件樣本個(gè)數(shù)減1,同時(shí)郵件中出現(xiàn)的特征詞也進(jìn)行相應(yīng)調(diào)整;對(duì)應(yīng)算法的用戶處理流程圖如圖4.2所示:
5.2 系統(tǒng)實(shí)現(xiàn)基于知識(shí)積累的垃圾郵件分類算法,實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的垃圾郵件過濾系統(tǒng)。系統(tǒng)的主界面如下圖5.5所示:圖 5.5 系統(tǒng)主界面系統(tǒng)在登錄后才能進(jìn)行郵件處理操作。點(diǎn)擊登錄,系統(tǒng)自動(dòng)檢測(cè)當(dāng)前賬號(hào)是否已存在,若沒有設(shè)置則自動(dòng)調(diào)用OutLook進(jìn)行賬號(hào)設(shè)置過程,若存在賬號(hào)則自動(dòng)進(jìn)行連接并獲取郵件的過程,其運(yùn)行情況如圖5.6所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于BP神經(jīng)網(wǎng)絡(luò)的人體血液中紅細(xì)胞濃度無創(chuàng)檢測(cè)[J]. 張寶菊,雷晴,李剛,林凌,王慧泉,Jean Gao. 光譜學(xué)與光譜分析. 2012(09)
[2]模糊決策樹算法在郵件分類中的應(yīng)用[J]. 趙凱. 科技通報(bào). 2012(06)
[3]垃圾郵件過濾技術(shù)發(fā)展現(xiàn)狀及展望[J]. 石鐵峰. 數(shù)字技術(shù)與應(yīng)用. 2012(05)
[4]結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過濾[J]. 劉伍穎,王挺. 計(jì)算機(jī)研究與發(fā)展. 2012(03)
[5]一種改進(jìn)的貝葉斯算法在垃圾郵件過濾中的研究[J]. 馬小龍. 計(jì)算機(jī)應(yīng)用研究. 2012(03)
[6]引入數(shù)據(jù)平滑的增量式貝葉斯垃圾郵件過濾方法[J]. 王祖輝,姜維. 計(jì)算機(jī)工程與應(yīng)用. 2012(16)
[7]在逐漸縮小的空間上漸進(jìn)學(xué)習(xí)樸素貝葉斯參數(shù)[J]. 歐陽澤華,郭華平,范明. 計(jì)算機(jī)應(yīng)用. 2012(01)
[8]一種改進(jìn)KNN個(gè)性化郵件過濾的方法[J]. 鄧文韜,王國(guó)胤,董振興. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(06)
[9]校園網(wǎng)電子郵件故障處理策略研究[J]. 王懌晨,林予松,王宗敏. 廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(S1)
[10]一種基于NNIA多目標(biāo)優(yōu)化的代價(jià)敏感決策樹構(gòu)建方法[J]. 趙士偉,卓力,王素玉,沈蘭蓀. 電子學(xué)報(bào). 2011(10)
本文編號(hào):3001821
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3001821.html
最近更新
教材專著