天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的垃圾郵件過(guò)濾方法研究

發(fā)布時(shí)間:2024-04-22 22:01
  隨著互聯(lián)網(wǎng)相關(guān)應(yīng)用的快速發(fā)展,廣告技術(shù)的進(jìn)步和電子郵件的普及,越來(lái)越多的垃圾郵件充斥著我們的生活。如何高效的區(qū)分垃圾郵件的研究也逐漸成為了熱門(mén)課題。因自然語(yǔ)言在結(jié)構(gòu)上有著很強(qiáng)的前后相關(guān)性,而且對(duì)于中文郵件直接轉(zhuǎn)化成向量會(huì)有過(guò)高的維度產(chǎn)生,影響最后分類(lèi)的準(zhǔn)確性;趦(nèi)容和基于電子郵件源的識(shí)別技術(shù)現(xiàn)在是常用的兩種垃圾郵件過(guò)濾方法。例如貝葉斯模型文本識(shí)別等就是基于內(nèi)容的識(shí)別技術(shù)。白名單與黑名單機(jī)制、關(guān)鍵詞匹配的是基于郵件來(lái)源的技術(shù)。電子郵件的數(shù)量增加可觀、樣式層出不窮,基于規(guī)則的方法不僅需要對(duì)郵件特征規(guī)則庫(kù)進(jìn)行不斷的更新,同時(shí)還需要大量的人力。基于內(nèi)容的方法當(dāng)前已經(jīng)取得令人可喜的成效,但隨著科技的發(fā)展,現(xiàn)在垃圾郵件的制造者們開(kāi)始大量的使用圖像垃圾郵件,然后肆意的進(jìn)行傳播。這種方式的垃圾郵件更加難以檢測(cè)且消耗的網(wǎng)絡(luò)寬帶也更大。論文主要分析總結(jié)當(dāng)前常用的垃圾郵件的過(guò)濾方法,選擇基于深度學(xué)習(xí)的分類(lèi)算法作為本文研究的重點(diǎn),建立垃圾郵件過(guò)濾模型。這之中具體工作以及貢獻(xiàn)包括如下:1.本章設(shè)計(jì)了一種基于Skip-gram的CNNs-Highway郵件過(guò)濾模型(SGCH)。由于以前的詞表示方法主要是獨(dú)熱編碼...

【文章頁(yè)數(shù)】:61 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.1郵件發(fā)送完整過(guò)程

圖2.1郵件發(fā)送完整過(guò)程

圖2.1郵件發(fā)送完整過(guò)程圖中的發(fā)送方發(fā)出的一封郵件,需要經(jīng)過(guò)MUA(MailUserAgent,郵件用戶(hù)代理)。我們使用的郵件客戶(hù)端軟件(如Foxmail和OutlookExpress)屬于MUA,可以幫助用戶(hù)讀取和寫(xiě)入文件。用戶(hù)郵件完成后,MUA將郵件發(fā)送到....


圖2.2文本分類(lèi)的一般過(guò)程

圖2.2文本分類(lèi)的一般過(guò)程

圖2.2文本分類(lèi)的一般過(guò)程2.3文本預(yù)處理本小節(jié)重點(diǎn)介紹了文本的預(yù)處理方法,它主要為后面的向量化和特征提取做準(zhǔn)備,所以預(yù)處理的過(guò)程,也直接影響到后面特征提取的好壞。它主要包括去噪、分詞、去停用詞等過(guò)程。2.3.1非法字符的過(guò)濾非法字符的過(guò)濾是文本分類(lèi)中的一個(gè)重要的步驟,因....


圖2.3決策樹(shù)示例

圖2.3決策樹(shù)示例

圖2.3決策樹(shù)示例個(gè)簡(jiǎn)單的分類(lèi)決策樹(shù),通過(guò)判斷雷暴,雪,溫度指標(biāo)來(lái)判斷是否思路,包括葉子節(jié)點(diǎn)和根節(jié)點(diǎn),如圖2.3所示,是否走出相應(yīng)的決每個(gè)節(jié)點(diǎn)屬性的劃分,從雷暴開(kāi)始,接著是大雪,溫度,每個(gè)判見(jiàn)的決策樹(shù)的核心算法是ID3[27]和C4.5[28]。ID3算法劃分特征為....


圖2.4SVM分類(lèi)模型

圖2.4SVM分類(lèi)模型

性a里的離散值數(shù)目的增多而變大。決策樹(shù)算法比夠觀察數(shù)據(jù)的分布,但是它不穩(wěn)定,對(duì)數(shù)據(jù)較為敏而發(fā)生改變。以用于處理二分類(lèi)的有監(jiān)督問(wèn)題,后來(lái)再加入了核方用于多目標(biāo)分類(lèi)問(wèn)題上。轉(zhuǎn)化為凸二次規(guī)劃過(guò)程,通過(guò)求解基于凸二次規(guī)劃思想可歸納如下:在樣本中找到可以分離樣本類(lèi)別分區(qū)間隔最大化。支持....



本文編號(hào):3962273

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3962273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d1427***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com