基于數(shù)據(jù)驅(qū)動的垃圾郵件檢測技術研究
本文關鍵詞:基于數(shù)據(jù)驅(qū)動的垃圾郵件檢測技術研究
更多相關文章: 垃圾郵件 Boosting Tree算法 隨機森林 Elastic net-Decision Tree算法
【摘要】:垃圾郵件作為電子郵件的副產(chǎn)品,已經(jīng)給人們生活、工作等多個方面帶來嚴重的影響。如何有效地檢測出垃圾郵件已經(jīng)成為急需解決的一個難題。因此本文針對常見的垃圾郵件文本檢測進行了深入研究。具體描述如下:(1)提出了基于Boosting Tree算法的垃圾郵件檢測方法。Boosting Tree算法基本原理是以Decision Tree分類算法作為Boosting算法框架中的基分類方法,利用Boosting算法框架對歷史郵件文本(訓練集)進行訓練以獲得多個不同的訓練樣本子集。然后應用Decision Tree分類算法對這些樣本子集進行訓練生成Decision Tree基分類器,經(jīng)過T輪的訓練后產(chǎn)生T個Decision Tree基分類器。再將T個Decision Tree基分類器進行加權融合成一個最終結果的分類器。最后利用這個最終結果的分類器對電子郵件進行檢測分類。傳統(tǒng)貝葉斯算法、Decision Tree算法和Boosting Tree算法的對比結果充分說明了基于Boosting Tree算法的垃圾郵件分類器的性能明顯優(yōu)于其它。(2)提出了基于隨機森林的垃圾郵件檢測方法。隨機森林以Decision Tree算法為基分類器,通過bagging抽樣方法從訓練樣本集中重復抽取多個訓練樣本子集,再對每個訓練樣本子集分別進行建立Decision Tree算法數(shù)學模型,然后根據(jù)分類結果對每個決策樹進行“投票”,獲得票數(shù)最多的作為最優(yōu)分類樹。隨機森林和Decision Tree算法仿真實驗結果表明基于隨機森林的垃圾郵件分類器的分類效率大幅度提高。(3)提出了一種新型的Elastic net-Decision Tree兩步垃圾郵件分類算法。該算法彌補了單獨使用一些算法進行特征降維或回歸分析時分類的效果不足的缺陷。第一步運用Elastic Net算法對歷史郵件文本數(shù)據(jù)進行特征降維;第二步將特征降維產(chǎn)生的結果輸入到Decision Tree算法中進行分類,即篩選出哪些郵件是垃圾郵件,哪些是合法郵件。與PLS、PCA和Lasso算法的仿真結果相比,Elastic net-Decision Tree兩步分類算法的分類結果明顯更好。
【學位授予單位】:華東交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.098
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;網(wǎng)絡暢“郵”——常青藤郵件系統(tǒng)解決方案分析[J];每周電腦報;2000年25期
2 劉杰;商業(yè)化郵件系統(tǒng):企業(yè)信息化第一應用[J];互聯(lián)網(wǎng)周刊;2001年30期
3 ;郵件系統(tǒng)應用——聚焦企業(yè)級市場[J];微電腦世界;2002年15期
4 ;附加價值——企業(yè)郵件系統(tǒng)的真正目標[J];微電腦世界;2002年15期
5 ;擎空霹靂劍——在服務器端圍剿垃圾郵件[J];微電腦世界;2003年07期
6 馮琳蔚;分布式抗垃圾郵件技術[J];計算機安全;2004年09期
7 曉齊;啟明星辰推出 天澄防垃圾郵件系統(tǒng)[J];信息網(wǎng)絡安全;2004年08期
8 郁冰;;大容量郵件系統(tǒng)的動力[J];電子商務世界;2006年04期
9 王冰睿;;從1小時到幾秒鐘 宜春改造公務員郵件系統(tǒng)見奇效[J];IT時代周刊;2009年24期
10 李心豐;;大型企業(yè)郵件系統(tǒng)設計[J];通信管理與技術;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 孟廣平;;分布式郵件系統(tǒng)特點及在寶鋼的應用[A];第十一屆全國自動化應用技術學術交流會論文集[C];2006年
2 劉華檳;;企業(yè)郵件系統(tǒng)的選型[A];創(chuàng)新·融合·發(fā)展——創(chuàng)新型煤炭企業(yè)發(fā)展與信息化高峰論壇論文集[C];2010年
3 劉陽;楊延新;鄭鐵成;;淺談企業(yè)涉密郵件系統(tǒng)建設與改造[A];2013年中國航空學會管理科學分會學術會議論文集[C];2013年
4 吳哲;田捷;李亮;楊鑫;;基于指紋身份認證的安全郵件系統(tǒng)設計與實現(xiàn)[A];全國網(wǎng)絡與信息安全技術研討會論文集(下冊)[C];2007年
5 李軍輝;朱巧明;錢培德;;郵件語料庫的語料添加算法研究與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
6 黃斌;;第二代郵件系統(tǒng)[A];經(jīng)濟全球化和中國技術經(jīng)濟發(fā)展[C];2000年
7 尋曉勁;;郵件系統(tǒng)信息安全[A];2007中國科協(xié)年會——通信與信息發(fā)展高層論壇論文集[C];2007年
8 吳昊;;基于Lucene技術的郵件取證技術研究[A];第28次全國計算機安全學術交流會論文集[C];2013年
9 代剛;趙小宇;馬嚴;;MailS(?)c智能安全郵件系統(tǒng)設計[A];全國計算機網(wǎng)絡應用年會論文集(2001)[C];2001年
10 陳良臣;劉淑珍;閆曉飛;孫功星;;基于BERW和IMAP4的移動終端郵件系統(tǒng)的設計與開發(fā)[A];第13屆全國計算機、網(wǎng)絡在現(xiàn)代科學技術領域的應用學術會議論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 潘永花;郵件系統(tǒng)因需求而動[N];網(wǎng)絡世界;2002年
2 姜姝;企業(yè)郵件系統(tǒng)如何確保安全[N];中國信息化周報;2013年
3 本報記者 陳凡;對付垃圾郵件有新招[N];北京科技報;2004年
4 梁劍坤;垃圾郵件可以消除[N];中國計算機報;2002年
5 本報記者 張超;垃圾郵件:互聯(lián)網(wǎng)的煩惱[N];科技日報;2003年
6 小青;263積極打造郵件運營價值鏈[N];中國經(jīng)營報;2004年
7 特約撰稿 張琦;垃圾郵件成“圣誕禮物”[N];中國電腦教育報;2006年
8 Mirapoint中國區(qū)技術經(jīng)理 顧春;系統(tǒng)硬件化 構建安全郵件系統(tǒng)新趨勢[N];中國計算機報;2006年
9 ;碩琦: 垃圾郵件行為模式分析[N];計算機世界;2006年
10 李玉華;企業(yè)郵件系統(tǒng)大升級[N];計算機世界;2007年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 李弋;云環(huán)境中典型應用的I/O優(yōu)化策略研究[D];復旦大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉慶雄;基于數(shù)據(jù)驅(qū)動的垃圾郵件檢測技術研究[D];華東交通大學;2016年
2 宋占鈺;聯(lián)通統(tǒng)一郵件系統(tǒng)改造工程項目分析與設計[D];哈爾濱工業(yè)大學;2016年
3 萬果鋒;基于郵件系統(tǒng)的社團挖掘研究[D];大連交通大學;2010年
4 金星;大容量郵件系統(tǒng)的設計和實現(xiàn)[D];電子科技大學;2002年
5 劉建;大容量分布式郵件系統(tǒng)的原理、結構及實現(xiàn)[D];西安電子科技大學;2002年
6 石道生;大容量移動郵件系統(tǒng)的設計和實現(xiàn)[D];華中科技大學;2004年
7 李應開;基于代理重加密的郵件系統(tǒng)的研究與設計[D];暨南大學;2012年
8 顧大偉;基于代理的敏感郵件監(jiān)控技術研究[D];哈爾濱工業(yè)大學;2015年
9 江奇峰;辦公郵件系統(tǒng)的設計與實現(xiàn)[D];華僑大學;2015年
10 傅揚波;郵件客戶服務原型系統(tǒng)研究與實現(xiàn)[D];電子科技大學;2010年
,本文編號:1286184
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1286184.html