基于spark的并行貝葉斯垃圾郵件分類系統(tǒng)
發(fā)布時間:2021-11-25 08:58
科技化的急速發(fā)展帶來了生活各方面的便捷,全球的電子化讓電子郵件技術(shù)有了用武之地。電子郵件擺脫了傳統(tǒng)的紙張書寫,能更加迅捷的傳輸信息,所耗費的人力物力也得到了精簡,并且十分易于留存不會輕易丟失,已是當(dāng)下時代最為主流的交流手段之一。電子郵件帶來了諸多便利的同時也產(chǎn)生了不少的弊端,大量的垃圾郵件開始妨礙正常生活,電子郵件被不法商販用于傳播病毒、色情、謠言等信息,給用戶生活和工作上造成了極大的不便,同時危害到網(wǎng)絡(luò)的安全。此外,垃圾郵件還會導(dǎo)致通信阻塞等問題,大量的郵件限制了用戶計算機的內(nèi)存空間和計算能力,讓計算機的處理速度陷入了瓶頸。在大數(shù)據(jù)背景下,數(shù)據(jù)量和特征空間維度快速增長,文本分類算法的并行化顯著提高了其運行效率,本文提出基于Spark的并行貝葉斯垃圾郵件分類系統(tǒng),采用Simhash去重算法和樸素貝葉斯分類器相結(jié)合的分類方式,并使用彈性分布式數(shù)據(jù)集(RDD)模型來并行處理電子郵件,在提升系統(tǒng)分類效果的同時,提高了系統(tǒng)處理海量郵件的能力。本文主要研究工作如下:1.分析和比較了常用的垃圾郵件分類算法,其中,樸素貝葉斯分類算法因其運算速度快,算法簡單,分類精度高等優(yōu)點而得到廣泛應(yīng)用,故確定了樸...
【文章來源】:重慶師范大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般過程
圖 2.2 支持向量機原理的右側(cè)表示+1 級,左側(cè)表示-1 級。該分類劃分了示例生成的?傮w目標(biāo)是很好地概括測試數(shù)據(jù)。,該分離超平面必須最大化兩個類之間的距離 p 在分布式數(shù)據(jù)分析中受到了很多關(guān)注,但仍有一臺具有更明顯的優(yōu)勢。Spark 屬于可擴(kuò)展的數(shù)據(jù)分語,與 Hadoop 的集群存儲方法相比,Spark 在加勢。介種快速,通用且可擴(kuò)展的大數(shù)據(jù)分析引擎。它于校的 AMPLab。它于 2010 年開源,2013 年 6 月
重慶師范大學(xué)碩士學(xué)位論文 2 相關(guān)技術(shù)介紹組成,集群內(nèi)部存在著分區(qū),可以有效的對于各種數(shù)據(jù)進(jìn)行處理。RDD 主要運用Hadoop 上的 HDFS 文件進(jìn)行操作,也可以通過創(chuàng)建文件的方式來得以完成。RDD具有很強的處理能力,能夠促使各種故障順利恢復(fù)正常。總而言之,在一定的條件下 RDD 分區(qū)由于種種原因各種數(shù)據(jù)可能會丟失,RDD 可以自動化的進(jìn)行重新計算,這些操作在后臺可以順利的進(jìn)行,用戶不了解這些過程。RDD 數(shù)據(jù)儲存在整個存儲器之中,根本不可能出現(xiàn)內(nèi)存不足的情況。
【參考文獻(xiàn)】:
期刊論文
[1]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[2]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[3]基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設(shè)計與實現(xiàn)[J]. 李騰飛. 科技資訊. 2018(33)
[4]Hadoop平臺垃圾郵件過濾算法研究[J]. 種飛,徐野,張自圃. 沈陽理工大學(xué)學(xué)報. 2017(06)
[5]基于Spark的大規(guī)模文本k-means并行聚類算法[J]. 劉鵬,滕家雨,丁恩杰,孟磊. 中文信息學(xué)報. 2017(04)
[6]基于改進(jìn)的Porter Stemmer詞干提取與核方法的垃圾郵件過濾算法[J]. 孫漢博,馮國燦. 計算機科學(xué). 2017(S1)
[7]改進(jìn)NB算法在垃圾郵件過濾技術(shù)中的研究[J]. 劉月峰,苑江浩,張曉琳. 微電子學(xué)與計算機. 2017(04)
[8]基于KNN-SVM的垃圾郵件過濾模型[J]. 林蔭. 現(xiàn)代電子技術(shù). 2016(23)
[9]基于SparkR的分類算法并行化研究[J]. 劉志強,顧榮,袁春風(fēng),黃宜華. 計算機科學(xué)與探索. 2015(11)
[10]文本分類中信息增益特征選擇算法的改進(jìn)[J]. 郭頌,馬飛. 計算機應(yīng)用與軟件. 2013(08)
博士論文
[1]垃圾郵件行為模式識別與過濾方法研究[D]. 王美珍.華中科技大學(xué) 2009
本文編號:3517820
【文章來源】:重慶師范大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的一般過程
圖 2.2 支持向量機原理的右側(cè)表示+1 級,左側(cè)表示-1 級。該分類劃分了示例生成的?傮w目標(biāo)是很好地概括測試數(shù)據(jù)。,該分離超平面必須最大化兩個類之間的距離 p 在分布式數(shù)據(jù)分析中受到了很多關(guān)注,但仍有一臺具有更明顯的優(yōu)勢。Spark 屬于可擴(kuò)展的數(shù)據(jù)分語,與 Hadoop 的集群存儲方法相比,Spark 在加勢。介種快速,通用且可擴(kuò)展的大數(shù)據(jù)分析引擎。它于校的 AMPLab。它于 2010 年開源,2013 年 6 月
重慶師范大學(xué)碩士學(xué)位論文 2 相關(guān)技術(shù)介紹組成,集群內(nèi)部存在著分區(qū),可以有效的對于各種數(shù)據(jù)進(jìn)行處理。RDD 主要運用Hadoop 上的 HDFS 文件進(jìn)行操作,也可以通過創(chuàng)建文件的方式來得以完成。RDD具有很強的處理能力,能夠促使各種故障順利恢復(fù)正常。總而言之,在一定的條件下 RDD 分區(qū)由于種種原因各種數(shù)據(jù)可能會丟失,RDD 可以自動化的進(jìn)行重新計算,這些操作在后臺可以順利的進(jìn)行,用戶不了解這些過程。RDD 數(shù)據(jù)儲存在整個存儲器之中,根本不可能出現(xiàn)內(nèi)存不足的情況。
【參考文獻(xiàn)】:
期刊論文
[1]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[2]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[3]基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設(shè)計與實現(xiàn)[J]. 李騰飛. 科技資訊. 2018(33)
[4]Hadoop平臺垃圾郵件過濾算法研究[J]. 種飛,徐野,張自圃. 沈陽理工大學(xué)學(xué)報. 2017(06)
[5]基于Spark的大規(guī)模文本k-means并行聚類算法[J]. 劉鵬,滕家雨,丁恩杰,孟磊. 中文信息學(xué)報. 2017(04)
[6]基于改進(jìn)的Porter Stemmer詞干提取與核方法的垃圾郵件過濾算法[J]. 孫漢博,馮國燦. 計算機科學(xué). 2017(S1)
[7]改進(jìn)NB算法在垃圾郵件過濾技術(shù)中的研究[J]. 劉月峰,苑江浩,張曉琳. 微電子學(xué)與計算機. 2017(04)
[8]基于KNN-SVM的垃圾郵件過濾模型[J]. 林蔭. 現(xiàn)代電子技術(shù). 2016(23)
[9]基于SparkR的分類算法并行化研究[J]. 劉志強,顧榮,袁春風(fēng),黃宜華. 計算機科學(xué)與探索. 2015(11)
[10]文本分類中信息增益特征選擇算法的改進(jìn)[J]. 郭頌,馬飛. 計算機應(yīng)用與軟件. 2013(08)
博士論文
[1]垃圾郵件行為模式識別與過濾方法研究[D]. 王美珍.華中科技大學(xué) 2009
本文編號:3517820
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3517820.html
最近更新
教材專著