天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于聚類的半監(jiān)督中文垃圾郵件過濾研究與實現(xiàn)

發(fā)布時間:2022-01-12 01:53
  在互聯(lián)網(wǎng)高速發(fā)展的今天,電子郵件已成為人們信息傳遞的主要工具。但是在電子郵件以其快速性、簡易性給人們帶來便利的同時,也帶來了日益突顯的垃圾郵件泛濫成災(zāi)的問題。目前,在反垃圾郵件過濾技術(shù)中,基于文本內(nèi)容的垃圾信息過濾是目前被人們投入研究最多和應(yīng)用最廣泛的一類方法。而基于Bayes算法和支持向量機(SVM)的兩類機器學(xué)習(xí)算法由于在分類應(yīng)用方面有非常出色的表現(xiàn),因此它們在郵件過濾技術(shù)上有著非常廣泛的應(yīng)用。由于基于文本的郵件過濾如傳統(tǒng)的文本分類一樣,其郵件內(nèi)容都具有一定的群聚特征。針對文本內(nèi)容的不同分布特性,本文提出了基于聚類的郵件過濾模型。本文完成的具體工作如下:(1)提出了基于聚類的郵件過濾模型。在該模型中,引入聚類的思想,通過利用聚類來挖掘出郵件中的文本內(nèi)容的分別差異,從而有針對性的不同類簇進(jìn)行訓(xùn)練,使得過濾器能更精確的對郵件進(jìn)行判別。(2)在基于聚類的郵件過濾模型基礎(chǔ)上,對相似度計算算法進(jìn)行了研究,在此基礎(chǔ)上提出了郵件類屬性的判別方法,使得判斷郵件所屬的簇類類別不必在郵件初始的聚類階段去完成,實現(xiàn)了該模型對郵件系統(tǒng)的實時判別能力,符合真實環(huán)境下郵件過濾的要求。(3)提出了對未標(biāo)注郵件的... 

【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于聚類的半監(jiān)督中文垃圾郵件過濾研究與實現(xiàn)


012年各月份垃圾郵件量比例[4]

類型層次,郵件,附加域


華南理工大學(xué)碩士學(xué)位論文.2 MIME 郵件內(nèi)容解析MIME(Multipurpose Internet Mailension)對電子郵件標(biāo)準(zhǔn)進(jìn)行了擴(kuò)展,使其除了支準(zhǔn)的 ASCII 字符外,還能夠支持如非 ASCII 字符、二進(jìn)制格式附件等其它的格式類型過對電子郵件報文的頭部的附加域進(jìn)行標(biāo)準(zhǔn)化,從而實現(xiàn) MIME 的功能。在這些頭附加域中,可以描述新報文類型的內(nèi)容及組織形式。在郵件 MIME 的報頭中,注明IME 的相關(guān)信息,其中對 MIME 的版本、發(fā)送數(shù)據(jù)的類型以及編碼格式進(jìn)行了說明MIME 中常見有三種類型[15],分別為 multipart/mixed、multipart/related 和ultipart/alternative。三種類型具體的含義以及它們之間的層次關(guān)系如圖 2-1 所示。

向量空間,矩陣表示,向量模型,向量空間模型


)為文檔D的向量表示或向量空間模型。在向量模型中,假設(shè)向量中的各分量是正交的,即各特征間并無語義的相關(guān)性。其構(gòu)造過程如圖2.2所示。圖 2.2 向量空間矩陣表示[14]

【參考文獻(xiàn)】:
期刊論文
[1]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇.  軟件學(xué)報. 2008(01)
[2]SVM在文本分類中的應(yīng)用研究[J]. 劉霞,盧葦.  計算機教育. 2007(02)
[3]基于隱性語義標(biāo)引的知識匹配模型及算法分析[J]. 趙濤,袁蘭靜,曾金平.  中國地質(zhì)大學(xué)學(xué)報(社會科學(xué)版). 2006(03)
[4]電子郵件過濾系統(tǒng)的粗糙集分析模型[J]. 于洪,李志君,唐宏,吳中福.  計算機工程與應(yīng)用. 2003(15)
[5]電子郵件的編碼和解碼[J]. 李小平.  中國青年科技. 1997(03)

博士論文
[1]基于支持向量機的若干分類問題研究[D]. 周綺鳳.廈門大學(xué) 2007

碩士論文
[1]基于時序特征的貝葉斯垃圾郵件過濾研究[D]. 尚翠玲.華南理工大學(xué) 2012
[2]基于EM算法的半監(jiān)督文本分類方法研究[D]. 郭志毅.重慶郵電大學(xué) 2010
[3]基于相對詞頻的相似度研究[D]. 張妍.東北師范大學(xué) 2008
[4]文本聚類方法研究及其應(yīng)用[D]. 李伯陽.廈門大學(xué) 2008
[5]基于支持向量機的郵件過濾算法研究[D]. 張萍.武漢理工大學(xué) 2008
[6]基于語義情感傾向的文本相似度計算[D]. 游春暉.電子科技大學(xué) 2008



本文編號:3583870

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3583870.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d5171***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com