基于機(jī)器學(xué)習(xí)的垃圾郵件分類的研究
發(fā)布時(shí)間:2021-10-29 19:31
垃圾郵件開始泛濫于20世紀(jì)末期,具有成本低廉,傳輸便利,誘導(dǎo)性強(qiáng)等特點(diǎn)。某些商業(yè)組織利用此契機(jī)作為謀取利益的一種手段,肆意傳播垃圾郵件。垃圾郵件的廣泛傳播給人們的工作生活帶來了諸多不便與煩惱。大家的收件箱里都會有一些垃圾郵件的存在,它們不僅會占用用戶的信箱存儲空間,而且會占用用戶閱讀郵件的時(shí)間和精力。同時(shí),用戶在處理垃圾郵件時(shí)也需要投入大量的時(shí)間。垃圾郵件的形式多種多樣,也一直隨著互聯(lián)網(wǎng)的發(fā)展不斷更新,反垃圾郵件工作面臨巨大挑戰(zhàn)。因此,不斷更新垃圾郵件分類和過濾的手段和方法,對改善郵件的使用現(xiàn)狀具有重要的現(xiàn)實(shí)意義。本文借助數(shù)據(jù)挖掘工具,并運(yùn)用機(jī)器學(xué)習(xí)的方法研究了兩個(gè)方面的內(nèi)容。所有的分析都是借助R語言編程軟件實(shí)現(xiàn)的。第一,對整個(gè)郵件數(shù)據(jù)集的文本內(nèi)容進(jìn)行研究分析,分別從垃圾郵件和非垃圾郵件兩個(gè)角度,分析兩種文本內(nèi)容中出現(xiàn)的高頻詞匯,并且畫出兩種郵件內(nèi)容對應(yīng)的詞云圖,最后分析高頻詞的語義和詞性,并得出相關(guān)結(jié)論。第二,利用樸素貝葉斯方法、支持向量機(jī)法、K近鄰法對7000條郵件數(shù)據(jù)進(jìn)行建模分析。本文選取的評價(jià)指標(biāo)為精確率,通過比較三種算法建立的分類器模型,得出本文分類效果最優(yōu)的是拉普拉斯參數(shù)為...
【文章來源】:曲阜師范大學(xué)山東省
【文章頁數(shù)】:35 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 文本分類國內(nèi)外研究現(xiàn)狀
1.2.1 國外文本分類研究現(xiàn)狀
1.2.2 國內(nèi)文本分類研究現(xiàn)狀
1.3 垃圾郵件分類國內(nèi)外研究現(xiàn)狀
1.3.1 國外垃圾郵件分類研究現(xiàn)狀
1.3.2 國內(nèi)垃圾郵件分類研究現(xiàn)狀
1.4 結(jié)構(gòu)安排
第二章 中文文本分類及方法理論概述
2.1 文本分類流程
2.1.1 文本預(yù)處理
2.1.2 文本特征處理
2.1.3 建模及評估
2.2 樸素貝葉斯算法
2.2.1 貝葉斯基礎(chǔ)理論
2.2.2 樸素貝葉斯分類器
2.3 支持向量機(jī)算法
2.3.1 最優(yōu)超平面
2.3.2 支持向量
2.3.3 支持向量機(jī)中的核函數(shù)
2.4 K近鄰法
2.4.1 K近鄰算法
2.4.2 k值的選擇
2.5 本章小結(jié)
第三章 垃圾郵件分類的研究
3.1 數(shù)據(jù)的獲取及預(yù)處理
3.1.1 數(shù)據(jù)的獲取
3.1.2 數(shù)據(jù)預(yù)處理
3.2 文本內(nèi)容分析
3.3 數(shù)據(jù)建模及評估
3.3.1 樸素貝葉斯算法模型
3.3.2 支持向量機(jī)算法模型
3.3.3 K近鄰算法模型
3.3.4 整體模型評估
3.4 本章小結(jié)
第四章 總結(jié)與展望
4.1 論文總結(jié)
4.2 本文的創(chuàng)新點(diǎn)與不足
4.2.1 創(chuàng)新點(diǎn)
4.2.2 不足
4.3 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的文本分類[J]. 文莎. 信息通信. 2019(12)
[2]文本分類中卡方統(tǒng)計(jì)特征選擇算法的改進(jìn)[J]. 陳偉鴻,林偉. 有線電視技術(shù). 2018(12)
[3]基于信息增益的SFT中故障影響因素降維方法研究[J]. 崔鐵軍,李莎莎,韓光,姜福川. 安全與環(huán)境學(xué)報(bào). 2018(05)
[4]基于互信息法的中文音樂情感詞典的構(gòu)建[J]. 智昕,周日貴. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(21)
[5]基于復(fù)雜網(wǎng)絡(luò)的中文文本關(guān)鍵詞提取研究[J]. 趙京勝,張麗,肖娜. 青島理工大學(xué)學(xué)報(bào). 2018(03)
[6]改進(jìn)NB算法在垃圾郵件過濾技術(shù)中的研究[J]. 劉月峰,苑江浩,張曉琳. 微電子學(xué)與計(jì)算機(jī). 2017(04)
[7]基于KNN-SVM的垃圾郵件過濾模型[J]. 林蔭. 現(xiàn)代電子技術(shù). 2016(23)
[8]基于K-近鄰方法的網(wǎng)絡(luò)信息文本分類[J]. 劉開袆,江志雄. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(03)
[9]粗糙集與決策樹在電子郵件分類與過濾中的應(yīng)用[J]. 鄧春燕,陶多秀,呂躍進(jìn). 計(jì)算機(jī)工程與應(yīng)用. 2009(16)
[10]基于遺傳算法和信息熵的文本分類規(guī)則抽取方法研究[J]. 唐華,曾碧卿. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2007(05)
碩士論文
[1]基于SVM的Web文本分類研究[D]. 王琪.上海海事大學(xué) 2007
[2]數(shù)據(jù)挖掘系統(tǒng)及其應(yīng)用研究——用關(guān)聯(lián)特征提高樸素貝葉斯文本分類器的性能[D]. 張利軍.西北工業(yè)大學(xué) 2003
本文編號:3465271
【文章來源】:曲阜師范大學(xué)山東省
【文章頁數(shù)】:35 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 文本分類國內(nèi)外研究現(xiàn)狀
1.2.1 國外文本分類研究現(xiàn)狀
1.2.2 國內(nèi)文本分類研究現(xiàn)狀
1.3 垃圾郵件分類國內(nèi)外研究現(xiàn)狀
1.3.1 國外垃圾郵件分類研究現(xiàn)狀
1.3.2 國內(nèi)垃圾郵件分類研究現(xiàn)狀
1.4 結(jié)構(gòu)安排
第二章 中文文本分類及方法理論概述
2.1 文本分類流程
2.1.1 文本預(yù)處理
2.1.2 文本特征處理
2.1.3 建模及評估
2.2 樸素貝葉斯算法
2.2.1 貝葉斯基礎(chǔ)理論
2.2.2 樸素貝葉斯分類器
2.3 支持向量機(jī)算法
2.3.1 最優(yōu)超平面
2.3.2 支持向量
2.3.3 支持向量機(jī)中的核函數(shù)
2.4 K近鄰法
2.4.1 K近鄰算法
2.4.2 k值的選擇
2.5 本章小結(jié)
第三章 垃圾郵件分類的研究
3.1 數(shù)據(jù)的獲取及預(yù)處理
3.1.1 數(shù)據(jù)的獲取
3.1.2 數(shù)據(jù)預(yù)處理
3.2 文本內(nèi)容分析
3.3 數(shù)據(jù)建模及評估
3.3.1 樸素貝葉斯算法模型
3.3.2 支持向量機(jī)算法模型
3.3.3 K近鄰算法模型
3.3.4 整體模型評估
3.4 本章小結(jié)
第四章 總結(jié)與展望
4.1 論文總結(jié)
4.2 本文的創(chuàng)新點(diǎn)與不足
4.2.1 創(chuàng)新點(diǎn)
4.2.2 不足
4.3 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的文本分類[J]. 文莎. 信息通信. 2019(12)
[2]文本分類中卡方統(tǒng)計(jì)特征選擇算法的改進(jìn)[J]. 陳偉鴻,林偉. 有線電視技術(shù). 2018(12)
[3]基于信息增益的SFT中故障影響因素降維方法研究[J]. 崔鐵軍,李莎莎,韓光,姜福川. 安全與環(huán)境學(xué)報(bào). 2018(05)
[4]基于互信息法的中文音樂情感詞典的構(gòu)建[J]. 智昕,周日貴. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(21)
[5]基于復(fù)雜網(wǎng)絡(luò)的中文文本關(guān)鍵詞提取研究[J]. 趙京勝,張麗,肖娜. 青島理工大學(xué)學(xué)報(bào). 2018(03)
[6]改進(jìn)NB算法在垃圾郵件過濾技術(shù)中的研究[J]. 劉月峰,苑江浩,張曉琳. 微電子學(xué)與計(jì)算機(jī). 2017(04)
[7]基于KNN-SVM的垃圾郵件過濾模型[J]. 林蔭. 現(xiàn)代電子技術(shù). 2016(23)
[8]基于K-近鄰方法的網(wǎng)絡(luò)信息文本分類[J]. 劉開袆,江志雄. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(03)
[9]粗糙集與決策樹在電子郵件分類與過濾中的應(yīng)用[J]. 鄧春燕,陶多秀,呂躍進(jìn). 計(jì)算機(jī)工程與應(yīng)用. 2009(16)
[10]基于遺傳算法和信息熵的文本分類規(guī)則抽取方法研究[J]. 唐華,曾碧卿. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2007(05)
碩士論文
[1]基于SVM的Web文本分類研究[D]. 王琪.上海海事大學(xué) 2007
[2]數(shù)據(jù)挖掘系統(tǒng)及其應(yīng)用研究——用關(guān)聯(lián)特征提高樸素貝葉斯文本分類器的性能[D]. 張利軍.西北工業(yè)大學(xué) 2003
本文編號:3465271
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3465271.html
最近更新
教材專著