Hadoop平臺垃圾郵件過濾算法研究與實現(xiàn)
發(fā)布時間:2020-07-09 11:19
【摘要】:在信息化時代的今天,電子郵件成為了我們?nèi)粘I钪凶钪匾慕涣魇侄沃?與其相伴而來的垃圾郵件也在日益增長,影響著人們的生活。傳統(tǒng)的垃圾郵件過濾技術(shù),如“黑白名單”、“關(guān)鍵字過濾”等方法在一定程度上實現(xiàn)垃圾郵件的過濾,然而,面對郵件用戶群體的膨脹,郵件數(shù)量急劇增長,郵件種類也日益龐雜,傳統(tǒng)的郵件過濾技術(shù)已經(jīng)捉襟見肘、后繼乏力。云數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)與新興的云計算技術(shù)相結(jié)合。借助云平臺對大數(shù)據(jù)的并行計算能力實現(xiàn)對海量數(shù)據(jù)的處理,很好的解決了在海量數(shù)據(jù)處理時存在的計算與存儲瓶頸。本文利用云數(shù)據(jù)挖掘技術(shù)對垃圾郵件進(jìn)行過濾。本文選取貝葉斯郵件過濾算法作為研究對象,在深入研究了Hadoop平臺在海量數(shù)據(jù)處理方面的核心技術(shù)之后,針對傳統(tǒng)分布式貝葉斯算法實現(xiàn)中存在效率低、誤判率高、前期訓(xùn)練消耗資源大等缺點(diǎn),對貝葉斯郵件過濾算法進(jìn)行了優(yōu)化,決策規(guī)則是根據(jù)待過濾郵件被判定的結(jié)果集,由決策表產(chǎn)生規(guī)則,然后根據(jù)相應(yīng)的規(guī)則與貝葉斯算法結(jié)合對郵件進(jìn)行過濾,使郵件誤判率大大降低。再根據(jù)一種基于Hadoop開源云架構(gòu)的MapReduce模型,在處理大量郵件時對其進(jìn)行并行化處理,這樣在提高郵件過濾準(zhǔn)確率的前提下提高垃圾郵件過濾的效率。實驗結(jié)果表明,貝葉斯郵件過濾的MapReduce模型,在召回率、查準(zhǔn)率和判對率等指標(biāo)方面都有良好的表現(xiàn),同時也提高了過濾的執(zhí)行效率。
【學(xué)位授予單位】:沈陽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.098
【圖文】:
數(shù)據(jù)和知識存儲方面研究的重點(diǎn)技術(shù)。如果不能充分利用海量數(shù)據(jù)值的信息,那么這些數(shù)據(jù)將變成垃圾。因此,在人們面對海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)出現(xiàn)了。據(jù)挖掘技術(shù)[14]就是從海量數(shù)據(jù)中得到對人類有幫助、具有一定價值的掘的基本過程如圖 2.1 所示。數(shù)據(jù)挖掘作為新興技術(shù)的出現(xiàn)引起了社關(guān)注,有些領(lǐng)域?qū)iT從事處理海量數(shù)據(jù)事業(yè)來進(jìn)行商業(yè)活動。數(shù)據(jù)許多知識,不僅包括機(jī)器學(xué)習(xí)[15]、數(shù)據(jù)庫還有人工智能,它都可以知識來完善自己。它從指定數(shù)據(jù)庫中進(jìn)行檢索、調(diào)用等操作進(jìn)行學(xué)進(jìn)行統(tǒng)計、分析和推斷,為的就是尋求事物間的關(guān)聯(lián)性,最后利用知事物進(jìn)行預(yù)測。目前,云計算技術(shù)逐漸成熟,使得數(shù)據(jù)挖掘技術(shù)方向和目標(biāo)。
2 中文郵件文本信息預(yù)處理2.1 中文分詞的主要方法(1)關(guān)于詞典的方法該方法的處理思路是:中文文本經(jīng)過分詞得到的結(jié)果應(yīng)當(dāng)是正規(guī)的詞組這些詞組能在當(dāng)前漢語詞典中能找到,這樣以來就可以從句子中分割詞組利用關(guān)于字符串跟蹤方法進(jìn)行分詞,它主要以某一算法把待分詞的中文文典里的詞語進(jìn)行對比,如果在詞典中能查到對應(yīng)的字符串就表示分詞成功該方法對詞典的依賴性太強(qiáng),因為詞典中詞語數(shù)量、詞語種類等都會直接分詞效果。如果要利用此方法進(jìn)行較好的分詞,需要對比的詞典一定是“完。此外,該方法也有操作簡單、容易實現(xiàn)的優(yōu)點(diǎn)。關(guān)于詞典分詞[22]的算法情況:1、正向最大匹配法
圖 2.3 正向最大匹配過程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一樣方法是根據(jù)中文文本由右向左最前面的一個字刪除。對上面單過程如圖 2.4 所示:個學(xué)生學(xué)生 ——→獲取一個詞是一個一個 ——→獲取一個詞…… ……他是是 ——→獲取一個詞
【學(xué)位授予單位】:沈陽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.098
【圖文】:
數(shù)據(jù)和知識存儲方面研究的重點(diǎn)技術(shù)。如果不能充分利用海量數(shù)據(jù)值的信息,那么這些數(shù)據(jù)將變成垃圾。因此,在人們面對海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)出現(xiàn)了。據(jù)挖掘技術(shù)[14]就是從海量數(shù)據(jù)中得到對人類有幫助、具有一定價值的掘的基本過程如圖 2.1 所示。數(shù)據(jù)挖掘作為新興技術(shù)的出現(xiàn)引起了社關(guān)注,有些領(lǐng)域?qū)iT從事處理海量數(shù)據(jù)事業(yè)來進(jìn)行商業(yè)活動。數(shù)據(jù)許多知識,不僅包括機(jī)器學(xué)習(xí)[15]、數(shù)據(jù)庫還有人工智能,它都可以知識來完善自己。它從指定數(shù)據(jù)庫中進(jìn)行檢索、調(diào)用等操作進(jìn)行學(xué)進(jìn)行統(tǒng)計、分析和推斷,為的就是尋求事物間的關(guān)聯(lián)性,最后利用知事物進(jìn)行預(yù)測。目前,云計算技術(shù)逐漸成熟,使得數(shù)據(jù)挖掘技術(shù)方向和目標(biāo)。
2 中文郵件文本信息預(yù)處理2.1 中文分詞的主要方法(1)關(guān)于詞典的方法該方法的處理思路是:中文文本經(jīng)過分詞得到的結(jié)果應(yīng)當(dāng)是正規(guī)的詞組這些詞組能在當(dāng)前漢語詞典中能找到,這樣以來就可以從句子中分割詞組利用關(guān)于字符串跟蹤方法進(jìn)行分詞,它主要以某一算法把待分詞的中文文典里的詞語進(jìn)行對比,如果在詞典中能查到對應(yīng)的字符串就表示分詞成功該方法對詞典的依賴性太強(qiáng),因為詞典中詞語數(shù)量、詞語種類等都會直接分詞效果。如果要利用此方法進(jìn)行較好的分詞,需要對比的詞典一定是“完。此外,該方法也有操作簡單、容易實現(xiàn)的優(yōu)點(diǎn)。關(guān)于詞典分詞[22]的算法情況:1、正向最大匹配法
圖 2.3 正向最大匹配過程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一樣方法是根據(jù)中文文本由右向左最前面的一個字刪除。對上面單過程如圖 2.4 所示:個學(xué)生學(xué)生 ——→獲取一個詞是一個一個 ——→獲取一個詞…… ……他是是 ——→獲取一個詞
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋亞奇;周國亮;朱永利;李莉;王劉旺;王德文;;云平臺下輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理[J];中國電機(jī)工程學(xué)報;2015年02期
2 唐兵;賀海武;;一種混合計算環(huán)境下的MapReduce并行模型[J];計算機(jī)工程與科學(xué);2013年11期
3 胡穎;;基于信息增益的文本特征選擇方法[J];計算機(jī)與數(shù)字工程;2013年03期
4 黃翼彪;;實現(xiàn)Lucene接口的中文分詞器的比較研究[J];科技信息;2012年12期
5 朱陽春;;云計算技術(shù)[J];硅谷;2011年18期
6 李s
本文編號:2747381
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2747381.html
最近更新
教材專著