天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Hadoop平臺垃圾郵件過濾算法研究與實現(xiàn)

發(fā)布時間:2020-07-09 11:19
【摘要】:在信息化時代的今天,電子郵件成為了我們?nèi)粘I钪凶钪匾慕涣魇侄沃?與其相伴而來的垃圾郵件也在日益增長,影響著人們的生活。傳統(tǒng)的垃圾郵件過濾技術(shù),如“黑白名單”、“關(guān)鍵字過濾”等方法在一定程度上實現(xiàn)垃圾郵件的過濾,然而,面對郵件用戶群體的膨脹,郵件數(shù)量急劇增長,郵件種類也日益龐雜,傳統(tǒng)的郵件過濾技術(shù)已經(jīng)捉襟見肘、后繼乏力。云數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)與新興的云計算技術(shù)相結(jié)合。借助云平臺對大數(shù)據(jù)的并行計算能力實現(xiàn)對海量數(shù)據(jù)的處理,很好的解決了在海量數(shù)據(jù)處理時存在的計算與存儲瓶頸。本文利用云數(shù)據(jù)挖掘技術(shù)對垃圾郵件進(jìn)行過濾。本文選取貝葉斯郵件過濾算法作為研究對象,在深入研究了Hadoop平臺在海量數(shù)據(jù)處理方面的核心技術(shù)之后,針對傳統(tǒng)分布式貝葉斯算法實現(xiàn)中存在效率低、誤判率高、前期訓(xùn)練消耗資源大等缺點(diǎn),對貝葉斯郵件過濾算法進(jìn)行了優(yōu)化,決策規(guī)則是根據(jù)待過濾郵件被判定的結(jié)果集,由決策表產(chǎn)生規(guī)則,然后根據(jù)相應(yīng)的規(guī)則與貝葉斯算法結(jié)合對郵件進(jìn)行過濾,使郵件誤判率大大降低。再根據(jù)一種基于Hadoop開源云架構(gòu)的MapReduce模型,在處理大量郵件時對其進(jìn)行并行化處理,這樣在提高郵件過濾準(zhǔn)確率的前提下提高垃圾郵件過濾的效率。實驗結(jié)果表明,貝葉斯郵件過濾的MapReduce模型,在召回率、查準(zhǔn)率和判對率等指標(biāo)方面都有良好的表現(xiàn),同時也提高了過濾的執(zhí)行效率。
【學(xué)位授予單位】:沈陽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.098
【圖文】:

數(shù)據(jù)挖掘,基本過程,海量數(shù)據(jù)


數(shù)據(jù)和知識存儲方面研究的重點(diǎn)技術(shù)。如果不能充分利用海量數(shù)據(jù)值的信息,那么這些數(shù)據(jù)將變成垃圾。因此,在人們面對海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)出現(xiàn)了。據(jù)挖掘技術(shù)[14]就是從海量數(shù)據(jù)中得到對人類有幫助、具有一定價值的掘的基本過程如圖 2.1 所示。數(shù)據(jù)挖掘作為新興技術(shù)的出現(xiàn)引起了社關(guān)注,有些領(lǐng)域?qū)iT從事處理海量數(shù)據(jù)事業(yè)來進(jìn)行商業(yè)活動。數(shù)據(jù)許多知識,不僅包括機(jī)器學(xué)習(xí)[15]、數(shù)據(jù)庫還有人工智能,它都可以知識來完善自己。它從指定數(shù)據(jù)庫中進(jìn)行檢索、調(diào)用等操作進(jìn)行學(xué)進(jìn)行統(tǒng)計、分析和推斷,為的就是尋求事物間的關(guān)聯(lián)性,最后利用知事物進(jìn)行預(yù)測。目前,云計算技術(shù)逐漸成熟,使得數(shù)據(jù)挖掘技術(shù)方向和目標(biāo)。

過程圖,日志挖掘,過程,詞典


2 中文郵件文本信息預(yù)處理2.1 中文分詞的主要方法(1)關(guān)于詞典的方法該方法的處理思路是:中文文本經(jīng)過分詞得到的結(jié)果應(yīng)當(dāng)是正規(guī)的詞組這些詞組能在當(dāng)前漢語詞典中能找到,這樣以來就可以從句子中分割詞組利用關(guān)于字符串跟蹤方法進(jìn)行分詞,它主要以某一算法把待分詞的中文文典里的詞語進(jìn)行對比,如果在詞典中能查到對應(yīng)的字符串就表示分詞成功該方法對詞典的依賴性太強(qiáng),因為詞典中詞語數(shù)量、詞語種類等都會直接分詞效果。如果要利用此方法進(jìn)行較好的分詞,需要對比的詞典一定是“完。此外,該方法也有操作簡單、容易實現(xiàn)的優(yōu)點(diǎn)。關(guān)于詞典分詞[22]的算法情況:1、正向最大匹配法

過程圖,最大匹配,正向,過程


圖 2.3 正向最大匹配過程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一樣方法是根據(jù)中文文本由右向左最前面的一個字刪除。對上面單過程如圖 2.4 所示:個學(xué)生學(xué)生 ——→獲取一個詞是一個一個 ——→獲取一個詞…… ……他是是 ——→獲取一個詞

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋亞奇;周國亮;朱永利;李莉;王劉旺;王德文;;云平臺下輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理[J];中國電機(jī)工程學(xué)報;2015年02期

2 唐兵;賀海武;;一種混合計算環(huán)境下的MapReduce并行模型[J];計算機(jī)工程與科學(xué);2013年11期

3 胡穎;;基于信息增益的文本特征選擇方法[J];計算機(jī)與數(shù)字工程;2013年03期

4 黃翼彪;;實現(xiàn)Lucene接口的中文分詞器的比較研究[J];科技信息;2012年12期

5 朱陽春;;云計算技術(shù)[J];硅谷;2011年18期

6 李s

本文編號:2747381


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2747381.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2619c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美日韩国产的另类视频| 国产欧美日产中文一区| 亚洲精品国产美女久久久99| 日韩特级黄片免费观看| 欧美日韩国内一区二区| 国产免费观看一区二区| 亚洲国产四季欧美一区| 欧美乱视频一区二区三区| 果冻传媒在线观看免费高清| 日韩成人午夜福利免费视频| 亚洲超碰成人天堂涩涩| 亚洲日本久久国产精品久久| 伊人久久五月天综合网| 人妻一区二区三区多毛女| 国产精品伦一区二区三区四季| 日本欧美一区二区三区就| 91一区国产中文字幕| 亚洲av成人一区二区三区在线| av一区二区三区天堂| 天堂热东京热男人天堂| 日本深夜福利在线播放| 精品人妻少妇二区三区| 国产美女精品人人做人人爽| 成人午夜爽爽爽免费视频| 中文字幕一二区在线观看| 日韩毛片视频免费观看| 国产一区二区不卡在线播放| 欧美区一区二在线播放| 精品偷拍一区二区三区| 深夜福利亚洲高清性感| 国产传媒精品视频一区| 日韩欧美中文字幕av| 激情偷拍一区二区三区视频| 国产成人精品午夜福利| 97人妻精品免费一区二区| 日本精品免费在线观看| 一级片二级片欧美日韩| 日本不卡一区视频欧美| 国产欧美日韩一级小黄片| 久久99爱爱视频视频| 午夜传媒视频免费在线观看|