基于深度學習的垃圾郵件文本分類方法
發(fā)布時間:2021-01-20 18:05
隨著電子郵件的廣泛應用,郵件成為了商業(yè)廣告、惡意軟件和非法文件的傳播載體,人們平均接受的垃圾郵件數(shù)量遠遠超于正常郵件數(shù)量,嚴重影響著人們的生活和網(wǎng)絡安全,如何能夠精確的將垃圾郵件過濾出來成為了急需解決的問題。目前常用的垃圾郵件過濾方法一般包括基于郵件來源的識別技術和基于內(nèi)容的識別技術兩種類型,例如白名單與黑名單機制、關鍵詞匹配和樸素貝葉斯模型文本識別。電子郵件的數(shù)量與樣式在不斷的增多,垃圾郵件的特征關鍵詞也在發(fā)生巨大的變化,所以基于規(guī)則的識別方式要不間斷的進行郵件特征規(guī)則庫的更新,這將需要耗費大量的人力;趦(nèi)容的方法已經(jīng)初具成效,但是傳統(tǒng)的樸素貝葉斯模型識別垃圾郵件,在文本分類上性能已落后于深度學習模型,為此本文基于深度學習模型研究垃圾郵件分類。本畢業(yè)論文從電子郵件文本內(nèi)容入手,使用深度學習文本分類算法,建立了一個垃圾郵件識別模型。具體研究工作及貢獻包括:(1)提出了基于卷積神經(jīng)網(wǎng)絡與循環(huán)神經(jīng)網(wǎng)絡的深度學習模型(Conv-BiGRU Model),結(jié)合卷積神經(jīng)網(wǎng)絡的局部特征提取優(yōu)勢和循環(huán)神經(jīng)網(wǎng)絡的上下文學習優(yōu)勢,有效提高了垃圾郵件文本分類的正確率;(2)結(jié)合深度學習模型改進了Stac...
【文章來源】:中北大學山西省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
決策樹示例
圖 2.2 支持向量機示意圖空間中,分類超平面的表示公式如下:0T x b= (式間中某個點 x 到分類超平面( ,b)的距離計算公式為:| |r|| ||T x b = (式類超平面正確區(qū)分了樣本類別,由式 2.9 對 縮放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距離分類超平面最近的樣本稱作“支持向量”。兩個不
圖 2.3 FastText 模型結(jié)構(gòu)中輸入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分類問題,因為很多文本分類問題的類別會特別多,傳統(tǒng)的 Softmax 計算隨著類別的增多上升非?,于是 FastText 利用了一種層次分類器將多種類別形結(jié)構(gòu)里面,這樣加快了計算速度,這種層次分類器就是層次 Softmax。層ax 的優(yōu)點是在于對類別標簽進行了哈夫曼編碼,計算輸出目標的數(shù)量大量減少astText 另一個特點是采用了 N-gram 特征[47],輸入特征加入了局部詞組特征。 找 他”這個樣本中分詞后的輸入是“我”“找”“他”,“他 找 我”這個詞后的輸入是“他”“找”“我”,這兩個樣本分詞后的特征詞是一樣的,無區(qū)分出兩句話的含義。假設加入 N-gram 特征,這里 N 取 2,則得到第一個樣gram 特征為“我找”,“找他”,第二個樣本 N-gram 特征為“他找”,“找我”明顯能區(qū)分兩個樣本的語義。此 FastText 的核心思想就是:將輸入的詞序列及 N-gram 特征詞序列經(jīng)過隱藏
【參考文獻】:
期刊論文
[1]基于詞向量特征的文本分類模型研究[J]. 張敬誼,張亞紅,李靜. 信息技術與標準化. 2017(05)
[2]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[3]深度學習的發(fā)展與應用[J]. 邱曉康. 科技展望. 2016(33)
[4]基于規(guī)則的垃圾郵件過濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡安全技術與應用. 2016(06)
[5]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機. 2016(02)
[6]中文分詞模型的領域適應性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[7]泛化誤差的各種交叉驗證估計方法綜述[J]. 楊柳,王鈺. 計算機應用研究. 2015(05)
[8]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[9]基于字符的中文分詞、詞性標注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學報. 2014(06)
[10]垃圾郵件分類技術對比研究[J]. 趙曉丹,徐燕. 信息網(wǎng)絡安全. 2014(02)
博士論文
[1]垃圾郵件過濾理論和關鍵技術研究[D]. 劉震.電子科技大學 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡模型的文本分類[D]. 龔千健.華中科技大學 2016
[2]基于統(tǒng)計學習的中文分詞方法的研究[D]. 王威.東北大學 2015
[3]基于卷積神經(jīng)網(wǎng)絡的句子分類算法[D]. 林榮華.浙江大學 2015
[4]模型選擇中的交叉驗證方法綜述[D]. 范永東.山西大學 2013
[5]基于統(tǒng)計學習的中文分詞改進及其在面向應用分詞中的應用[D]. 巫黃旭.浙江大學 2012
[6]基于理解的漢語分詞系統(tǒng)的設計與實現(xiàn)[D]. 蘇勇.電子科技大學 2011
[7]基于貝葉斯分類的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 林偉.西華大學 2009
[8]基于邏輯回歸模型的垃圾郵件過濾系統(tǒng)的研究[D]. 安波.哈爾濱工程大學 2009
[9]基于貝葉斯分類算法的中文垃圾郵件過濾技術的研究[D]. 李書全.合肥工業(yè)大學 2008
[10]基于內(nèi)容挖掘的中文垃圾郵件過濾技術研究與實現(xiàn)[D]. 許建明.湖南大學 2008
本文編號:2989516
【文章來源】:中北大學山西省
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
決策樹示例
圖 2.2 支持向量機示意圖空間中,分類超平面的表示公式如下:0T x b= (式間中某個點 x 到分類超平面( ,b)的距離計算公式為:| |r|| ||T x b = (式類超平面正確區(qū)分了樣本類別,由式 2.9 對 縮放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距離分類超平面最近的樣本稱作“支持向量”。兩個不
圖 2.3 FastText 模型結(jié)構(gòu)中輸入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分類問題,因為很多文本分類問題的類別會特別多,傳統(tǒng)的 Softmax 計算隨著類別的增多上升非?,于是 FastText 利用了一種層次分類器將多種類別形結(jié)構(gòu)里面,這樣加快了計算速度,這種層次分類器就是層次 Softmax。層ax 的優(yōu)點是在于對類別標簽進行了哈夫曼編碼,計算輸出目標的數(shù)量大量減少astText 另一個特點是采用了 N-gram 特征[47],輸入特征加入了局部詞組特征。 找 他”這個樣本中分詞后的輸入是“我”“找”“他”,“他 找 我”這個詞后的輸入是“他”“找”“我”,這兩個樣本分詞后的特征詞是一樣的,無區(qū)分出兩句話的含義。假設加入 N-gram 特征,這里 N 取 2,則得到第一個樣gram 特征為“我找”,“找他”,第二個樣本 N-gram 特征為“他找”,“找我”明顯能區(qū)分兩個樣本的語義。此 FastText 的核心思想就是:將輸入的詞序列及 N-gram 特征詞序列經(jīng)過隱藏
【參考文獻】:
期刊論文
[1]基于詞向量特征的文本分類模型研究[J]. 張敬誼,張亞紅,李靜. 信息技術與標準化. 2017(05)
[2]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[3]深度學習的發(fā)展與應用[J]. 邱曉康. 科技展望. 2016(33)
[4]基于規(guī)則的垃圾郵件過濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡安全技術與應用. 2016(06)
[5]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機. 2016(02)
[6]中文分詞模型的領域適應性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[7]泛化誤差的各種交叉驗證估計方法綜述[J]. 楊柳,王鈺. 計算機應用研究. 2015(05)
[8]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[9]基于字符的中文分詞、詞性標注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學報. 2014(06)
[10]垃圾郵件分類技術對比研究[J]. 趙曉丹,徐燕. 信息網(wǎng)絡安全. 2014(02)
博士論文
[1]垃圾郵件過濾理論和關鍵技術研究[D]. 劉震.電子科技大學 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡模型的文本分類[D]. 龔千健.華中科技大學 2016
[2]基于統(tǒng)計學習的中文分詞方法的研究[D]. 王威.東北大學 2015
[3]基于卷積神經(jīng)網(wǎng)絡的句子分類算法[D]. 林榮華.浙江大學 2015
[4]模型選擇中的交叉驗證方法綜述[D]. 范永東.山西大學 2013
[5]基于統(tǒng)計學習的中文分詞改進及其在面向應用分詞中的應用[D]. 巫黃旭.浙江大學 2012
[6]基于理解的漢語分詞系統(tǒng)的設計與實現(xiàn)[D]. 蘇勇.電子科技大學 2011
[7]基于貝葉斯分類的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 林偉.西華大學 2009
[8]基于邏輯回歸模型的垃圾郵件過濾系統(tǒng)的研究[D]. 安波.哈爾濱工程大學 2009
[9]基于貝葉斯分類算法的中文垃圾郵件過濾技術的研究[D]. 李書全.合肥工業(yè)大學 2008
[10]基于內(nèi)容挖掘的中文垃圾郵件過濾技術研究與實現(xiàn)[D]. 許建明.湖南大學 2008
本文編號:2989516
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2989516.html
最近更新
教材專著