Hadoop平臺垃圾郵件過濾算法研究與實現
發(fā)布時間:2020-07-09 11:19
【摘要】:在信息化時代的今天,電子郵件成為了我們日常生活中最重要的交流手段之一,與其相伴而來的垃圾郵件也在日益增長,影響著人們的生活。傳統(tǒng)的垃圾郵件過濾技術,如“黑白名單”、“關鍵字過濾”等方法在一定程度上實現垃圾郵件的過濾,然而,面對郵件用戶群體的膨脹,郵件數量急劇增長,郵件種類也日益龐雜,傳統(tǒng)的郵件過濾技術已經捉襟見肘、后繼乏力。云數據挖掘是將數據挖掘技術與新興的云計算技術相結合。借助云平臺對大數據的并行計算能力實現對海量數據的處理,很好的解決了在海量數據處理時存在的計算與存儲瓶頸。本文利用云數據挖掘技術對垃圾郵件進行過濾。本文選取貝葉斯郵件過濾算法作為研究對象,在深入研究了Hadoop平臺在海量數據處理方面的核心技術之后,針對傳統(tǒng)分布式貝葉斯算法實現中存在效率低、誤判率高、前期訓練消耗資源大等缺點,對貝葉斯郵件過濾算法進行了優(yōu)化,決策規(guī)則是根據待過濾郵件被判定的結果集,由決策表產生規(guī)則,然后根據相應的規(guī)則與貝葉斯算法結合對郵件進行過濾,使郵件誤判率大大降低。再根據一種基于Hadoop開源云架構的MapReduce模型,在處理大量郵件時對其進行并行化處理,這樣在提高郵件過濾準確率的前提下提高垃圾郵件過濾的效率。實驗結果表明,貝葉斯郵件過濾的MapReduce模型,在召回率、查準率和判對率等指標方面都有良好的表現,同時也提高了過濾的執(zhí)行效率。
【學位授予單位】:沈陽理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP393.098
【圖文】:
數據和知識存儲方面研究的重點技術。如果不能充分利用海量數據值的信息,那么這些數據將變成垃圾。因此,在人們面對海量數據,數據挖掘技術出現了。據挖掘技術[14]就是從海量數據中得到對人類有幫助、具有一定價值的掘的基本過程如圖 2.1 所示。數據挖掘作為新興技術的出現引起了社關注,有些領域專門從事處理海量數據事業(yè)來進行商業(yè)活動。數據許多知識,不僅包括機器學習[15]、數據庫還有人工智能,它都可以知識來完善自己。它從指定數據庫中進行檢索、調用等操作進行學進行統(tǒng)計、分析和推斷,為的就是尋求事物間的關聯(lián)性,最后利用知事物進行預測。目前,云計算技術逐漸成熟,使得數據挖掘技術方向和目標。
2 中文郵件文本信息預處理2.1 中文分詞的主要方法(1)關于詞典的方法該方法的處理思路是:中文文本經過分詞得到的結果應當是正規(guī)的詞組這些詞組能在當前漢語詞典中能找到,這樣以來就可以從句子中分割詞組利用關于字符串跟蹤方法進行分詞,它主要以某一算法把待分詞的中文文典里的詞語進行對比,如果在詞典中能查到對應的字符串就表示分詞成功該方法對詞典的依賴性太強,因為詞典中詞語數量、詞語種類等都會直接分詞效果。如果要利用此方法進行較好的分詞,需要對比的詞典一定是“完。此外,該方法也有操作簡單、容易實現的優(yōu)點。關于詞典分詞[22]的算法情況:1、正向最大匹配法
圖 2.3 正向最大匹配過程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一樣方法是根據中文文本由右向左最前面的一個字刪除。對上面單過程如圖 2.4 所示:個學生學生 ——→獲取一個詞是一個一個 ——→獲取一個詞…… ……他是是 ——→獲取一個詞
【學位授予單位】:沈陽理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP393.098
【圖文】:
數據和知識存儲方面研究的重點技術。如果不能充分利用海量數據值的信息,那么這些數據將變成垃圾。因此,在人們面對海量數據,數據挖掘技術出現了。據挖掘技術[14]就是從海量數據中得到對人類有幫助、具有一定價值的掘的基本過程如圖 2.1 所示。數據挖掘作為新興技術的出現引起了社關注,有些領域專門從事處理海量數據事業(yè)來進行商業(yè)活動。數據許多知識,不僅包括機器學習[15]、數據庫還有人工智能,它都可以知識來完善自己。它從指定數據庫中進行檢索、調用等操作進行學進行統(tǒng)計、分析和推斷,為的就是尋求事物間的關聯(lián)性,最后利用知事物進行預測。目前,云計算技術逐漸成熟,使得數據挖掘技術方向和目標。
2 中文郵件文本信息預處理2.1 中文分詞的主要方法(1)關于詞典的方法該方法的處理思路是:中文文本經過分詞得到的結果應當是正規(guī)的詞組這些詞組能在當前漢語詞典中能找到,這樣以來就可以從句子中分割詞組利用關于字符串跟蹤方法進行分詞,它主要以某一算法把待分詞的中文文典里的詞語進行對比,如果在詞典中能查到對應的字符串就表示分詞成功該方法對詞典的依賴性太強,因為詞典中詞語數量、詞語種類等都會直接分詞效果。如果要利用此方法進行較好的分詞,需要對比的詞典一定是“完。此外,該方法也有操作簡單、容易實現的優(yōu)點。關于詞典分詞[22]的算法情況:1、正向最大匹配法
圖 2.3 正向最大匹配過程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一樣方法是根據中文文本由右向左最前面的一個字刪除。對上面單過程如圖 2.4 所示:個學生學生 ——→獲取一個詞是一個一個 ——→獲取一個詞…… ……他是是 ——→獲取一個詞
【參考文獻】
相關期刊論文 前10條
1 宋亞奇;周國亮;朱永利;李莉;王劉旺;王德文;;云平臺下輸變電設備狀態(tài)監(jiān)測大數據存儲優(yōu)化與并行處理[J];中國電機工程學報;2015年02期
2 唐兵;賀海武;;一種混合計算環(huán)境下的MapReduce并行模型[J];計算機工程與科學;2013年11期
3 胡穎;;基于信息增益的文本特征選擇方法[J];計算機與數字工程;2013年03期
4 黃翼彪;;實現Lucene接口的中文分詞器的比較研究[J];科技信息;2012年12期
5 朱陽春;;云計算技術[J];硅谷;2011年18期
6 李s
本文編號:2747381
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2747381.html
最近更新
教材專著