基于Word2vec的電子郵件分類
發(fā)布時間:2022-10-29 20:44
隨著信息化技術(shù)的不斷發(fā)展,電子郵件以其廉價性、實用性、即時性成為互聯(lián)網(wǎng)應用最廣的服務,電子郵件因為其突出的便捷性極大的便利了人們的日常溝通交流,對社會經(jīng)濟的發(fā)展產(chǎn)生了極大的促進作用,玉有微瑕也帶來了一個意外的副產(chǎn)品——垃圾郵件。垃圾郵件的泛濫不但造成了極大的經(jīng)濟損失,同時還威脅著信息的安全,不僅影響社會風氣,污染人文環(huán)境,還扭曲了人們的人生觀、價值觀,產(chǎn)生了諸多的社會的問題,時刻打擊著人們對網(wǎng)絡交流的信心,阻礙著互聯(lián)網(wǎng)的發(fā)展。因此,如何解決垃圾郵件的問題,如何提高垃圾郵件過濾技術(shù)成了迫在眉睫的難題。目前在國內(nèi)外垃圾郵件過濾技術(shù)研究中,以基于郵件內(nèi)容的分類成為了主流,但傳統(tǒng)的機器學習算法在做文本特征化的過程中不可避免的存在著諸如維度過大、數(shù)據(jù)集太過稀疏、數(shù)據(jù)彼此獨立沒有聯(lián)系,丟失太多重要特征從而導致分類的準確率達不到人們的理想要求,本文在基于郵件內(nèi)容的基礎上,利用Word2vec中的Skip-gram模型+負采樣策略來訓練分布式文本詞向量,并針對過擬合現(xiàn)象對模型進行相應的調(diào)整,本文相關(guān)工作如下:(1)數(shù)據(jù)集采用國際文本檢索會議提供的一個公開的垃圾郵件語料庫——中文數(shù)據(jù)集Trec06c,分...
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 課題研究背景
1.1.2 課題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及創(chuàng)新點
1.4 論文框架
第二章 相關(guān)理論技術(shù)論述
2.1 對比試驗的相關(guān)技術(shù)
2.1.1 機器學習模型的數(shù)據(jù)表示形式
2.1.2 KNN算法
2.1.3 貝葉斯算法
2.2 本文所采取的相關(guān)技術(shù)
2.2.1 BP神經(jīng)網(wǎng)絡模型
2.2.2 BP算法
2.3 代價函數(shù)的選擇
2.4 激活函數(shù)的選擇
2.5 Softmax分類器
2.6 本章小結(jié)
第三章 基于Word2vec的中文郵件識別
3.1 中文垃圾郵件過濾中的問題及解決思路
3.2 分布式向量化表示
3.2.1 數(shù)據(jù)集
3.2.2 數(shù)據(jù)過濾
3.2.3 對文本進行分詞及結(jié)果
3.2.4 利用Word2vec訓練詞向量
3.2.5 訓練詞向量的兩種加速方式
3.2.6 詞向量訓練結(jié)果
3.2.7 郵件文本的向量化表示
3.3 防過擬合措施
3.3.1 Dropout層
3.3.2 添加正則懲罰項
3.4 加快收斂速度的措施
3.4.1 Adam算法
3.4.2 數(shù)據(jù)輸入方式
3.5 模型性能的評價標準
3.6 本章小結(jié)
第四章 郵件過濾模型實驗分析
4.1 實驗環(huán)境
4.2 實驗分析
4.2.1 確定隱藏層神經(jīng)元個數(shù)
4.2.2 Dropout層對模型的影響
4.2.3 Dropout值的確定
4.2.4 確定詞向量的維度
4.2.5 Adam算法對實驗結(jié)果影響
4.2.6 與其他算法的實驗結(jié)果對比
4.3 實驗總結(jié)
4.4 本章小結(jié)
第五章 總結(jié)與展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于貝葉斯算法的中文垃圾郵件過濾系統(tǒng)研究[J]. 劉浩然,丁攀,郭長江,常金鳳,崔靜闖. 通信學報. 2018(12)
[2]基于詞嵌入與生成對抗網(wǎng)絡的垃圾郵件分類算法[J]. 王琦,吳鐘揚,黃陳蓉,潘磊. 南京工程學院學報(自然科學版). 2018(03)
[3]樸素貝葉斯算法在垃圾郵件過濾方面的應用[J]. 徐夢龍,黃家旺. 網(wǎng)絡安全技術(shù)與應用. 2018(07)
[4]基于自適應性分類器的垃圾郵件檢測[J]. 陳龍,梁意文,譚成予. 計算機工程. 2018(05)
[5]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會芳,董翠翠,陳長松. 農(nóng)業(yè)機械學報. 2017(10)
[6]用于垃圾郵件的貝葉斯過濾算法研究[J]. 曹翠玲,王媛媛,袁野,趙國冬. 網(wǎng)絡與信息安全學報. 2017(03)
[7]基于規(guī)則的垃圾郵件過濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡安全技術(shù)與應用. 2016(06)
[8]垃圾郵件的概念漂移及過濾技術(shù)研究[J]. 師文軒,殷愛茹. 中國科技論文. 2014(10)
[9]基于內(nèi)容過濾的反垃圾郵件系統(tǒng)模型研究[J]. 趙俊生,蘇依拉,馬志強. 內(nèi)蒙古農(nóng)業(yè)大學學報(自然科學版). 2013(03)
[10]垃圾郵件過濾技術(shù)發(fā)展現(xiàn)狀及展望[J]. 石鐵峰. 數(shù)字技術(shù)與應用. 2012(05)
本文編號:3698390
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 課題研究背景
1.1.2 課題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及創(chuàng)新點
1.4 論文框架
第二章 相關(guān)理論技術(shù)論述
2.1 對比試驗的相關(guān)技術(shù)
2.1.1 機器學習模型的數(shù)據(jù)表示形式
2.1.2 KNN算法
2.1.3 貝葉斯算法
2.2 本文所采取的相關(guān)技術(shù)
2.2.1 BP神經(jīng)網(wǎng)絡模型
2.2.2 BP算法
2.3 代價函數(shù)的選擇
2.4 激活函數(shù)的選擇
2.5 Softmax分類器
2.6 本章小結(jié)
第三章 基于Word2vec的中文郵件識別
3.1 中文垃圾郵件過濾中的問題及解決思路
3.2 分布式向量化表示
3.2.1 數(shù)據(jù)集
3.2.2 數(shù)據(jù)過濾
3.2.3 對文本進行分詞及結(jié)果
3.2.4 利用Word2vec訓練詞向量
3.2.5 訓練詞向量的兩種加速方式
3.2.6 詞向量訓練結(jié)果
3.2.7 郵件文本的向量化表示
3.3 防過擬合措施
3.3.1 Dropout層
3.3.2 添加正則懲罰項
3.4 加快收斂速度的措施
3.4.1 Adam算法
3.4.2 數(shù)據(jù)輸入方式
3.5 模型性能的評價標準
3.6 本章小結(jié)
第四章 郵件過濾模型實驗分析
4.1 實驗環(huán)境
4.2 實驗分析
4.2.1 確定隱藏層神經(jīng)元個數(shù)
4.2.2 Dropout層對模型的影響
4.2.3 Dropout值的確定
4.2.4 確定詞向量的維度
4.2.5 Adam算法對實驗結(jié)果影響
4.2.6 與其他算法的實驗結(jié)果對比
4.3 實驗總結(jié)
4.4 本章小結(jié)
第五章 總結(jié)與展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于貝葉斯算法的中文垃圾郵件過濾系統(tǒng)研究[J]. 劉浩然,丁攀,郭長江,常金鳳,崔靜闖. 通信學報. 2018(12)
[2]基于詞嵌入與生成對抗網(wǎng)絡的垃圾郵件分類算法[J]. 王琦,吳鐘揚,黃陳蓉,潘磊. 南京工程學院學報(自然科學版). 2018(03)
[3]樸素貝葉斯算法在垃圾郵件過濾方面的應用[J]. 徐夢龍,黃家旺. 網(wǎng)絡安全技術(shù)與應用. 2018(07)
[4]基于自適應性分類器的垃圾郵件檢測[J]. 陳龍,梁意文,譚成予. 計算機工程. 2018(05)
[5]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會芳,董翠翠,陳長松. 農(nóng)業(yè)機械學報. 2017(10)
[6]用于垃圾郵件的貝葉斯過濾算法研究[J]. 曹翠玲,王媛媛,袁野,趙國冬. 網(wǎng)絡與信息安全學報. 2017(03)
[7]基于規(guī)則的垃圾郵件過濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡安全技術(shù)與應用. 2016(06)
[8]垃圾郵件的概念漂移及過濾技術(shù)研究[J]. 師文軒,殷愛茹. 中國科技論文. 2014(10)
[9]基于內(nèi)容過濾的反垃圾郵件系統(tǒng)模型研究[J]. 趙俊生,蘇依拉,馬志強. 內(nèi)蒙古農(nóng)業(yè)大學學報(自然科學版). 2013(03)
[10]垃圾郵件過濾技術(shù)發(fā)展現(xiàn)狀及展望[J]. 石鐵峰. 數(shù)字技術(shù)與應用. 2012(05)
本文編號:3698390
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3698390.html
最近更新
教材專著