基于SVM的垃圾郵件在線過濾新方法
發(fā)布時間:2021-10-16 23:10
隨著網(wǎng)絡技術發(fā)展越來越迅速,大量的垃圾信息在網(wǎng)絡信息傳播中隨處可見,電子郵件正是垃圾信息傳播的一種較為常見的形式。垃圾郵件是指人們所不期望或者不要求接收的信件。它們消耗大量的網(wǎng)絡資源,造成網(wǎng)絡的堵塞,侵犯用戶隱私、浪費用戶的時間和郵箱空間,嚴重損害用戶的合法權益。因此,有效抵制垃圾郵件帶來的危害變得迫在眉睫。反垃圾郵件技術當前已經(jīng)經(jīng)歷了三個階段。萌芽階段:此階段主要是針對垃圾郵件的進行收集和討論,并逐漸出現(xiàn)了一些類似黑名單等的簡單的反垃圾技術;產(chǎn)生階段;針對如何有效過濾垃圾郵件的討論等不斷展開,國內外相繼成立了許多著名的服務單位和組織結構;發(fā)展階段:在該階段,國內外許多知名的組織和研究機構已相繼開展了垃圾郵件相關的各項研究,機器學習、遺傳算法等已在此領域內被成功應用。針對傳統(tǒng)垃圾郵件過濾技術分類精確性不高、在線過濾的實時性差等問題,本文提出了一種基于支持向量機的垃圾郵件在線過濾算法。為加快樣本訓練速度,訓練過程中使用支持向量集合替換原始訓練樣本集,以有效減少對分類意義不大的冗余樣本;為提高在線識別精度,定義了分類結果確定性因子,根據(jù)分類結果的確定性大小決定是否將樣本加入原始訓練樣本集中...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
PU1數(shù)據(jù)集下不同算法所得F1值比較
圖 4.3 LingSpam 數(shù)據(jù)集下不同算法所得 F1 值比較由表 4.3,4.4 易知,隨著所選特征數(shù)目的增加,本文所得垃圾郵件識別正確率及召回率基本呈現(xiàn)上升狀態(tài),但同時會降低算法的執(zhí)行速度,這主要是因為高維特征豐富了用于識別信息量的同時增加了特征提取及 SVM 分類器的計算負擔。由圖 4.2,4.3 可知,隨著增量樣本的不斷加入,本文所得 F1 值不斷增加,而算法[33][35]所得 F1 值卻呈現(xiàn)降低趨勢,這主要是因為本文結合分類確定性因子,能更好地保留對于分類具有較強作用的樣本,摒棄對學習結果無益的樣本,以此優(yōu)化參與 SVM 訓練的樣本集合,使得分類器在線學習能力得到不斷提升。4.4 本章小結本章提出了一種基于 SVM 的在線垃圾郵件過濾算法。先對空間向量模型VSM 及文本分類所經(jīng)常使用的特征提取方法進行介紹,在此基礎上對本文算法所涉及的具體過程進行詳細闡述。仿真實驗過程先給出了 2 個垃圾郵件數(shù)據(jù)集:
【參考文獻】:
期刊論文
[1]一種基于語義可理解的信息過濾算法[J]. 張波,向陽,王堅. 電子與信息學報. 2010(10)
[2]粗糙集與決策樹在電子郵件分類與過濾中的應用[J]. 鄧春燕,陶多秀,呂躍進. 計算機工程與應用. 2009(16)
[3]改進KNN算法在垃圾郵件過濾中的應用[J]. 張俊麗,張帆. 現(xiàn)代圖書情報技術. 2007(04)
[4]基于貝葉斯理論的垃圾郵件過濾技術[J]. 戴勁松,白英彩. 計算機應用與軟件. 2006(01)
[5]垃圾郵件過濾的貝葉斯方法綜述[J]. 張銘鋒,李云春,李巍. 計算機應用研究. 2005(08)
[6]基于k-近鄰方法的漸進式中文文本分類技術[J]. 袁方,楊柳,張紅霞. 華南理工大學學報(自然科學版). 2004(S1)
[7]基于向量空間模型的文本過濾系統(tǒng)[J]. 黃萱菁,夏迎炬,吳立德. 軟件學報. 2003(03)
[8]統(tǒng)計學習理論及支持向量機概述[J]. 鄭紅軍,周旭,畢篤彥. 現(xiàn)代電子技術. 2003(04)
[9]基于支持向量機的中文文本自動分類研究[J]. 都云琪,肖詩斌. 計算機工程. 2002(11)
[10]向量空間法中單詞權重函數(shù)的分析和構造[J]. 陸玉昌,魯明羽,李凡,周立柱. 計算機研究與發(fā)展. 2002(10)
博士論文
[1]基于即時分類的垃圾郵件過濾關鍵技術的研究[D]. 惠孛.電子科技大學 2009
碩士論文
[1]基于支持向量機增量學習的異常入侵檢測算法研究[D]. 于健峰.吉林大學 2012
[2]基于內容的垃圾郵件意圖分析方法研究[D]. 孫吉譚.吉林大學 2011
[3]支持向量機增量算法[D]. 海洋.中央民族大學 2011
[4]新的支持向量機增量學習算法[D]. 吳慧.西安電子科技大學 2009
[5]基于貝葉斯分類的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 林偉.西華大學 2009
[6]垃圾郵件過濾技術研究[D]. 歐德寧.山東大學 2009
[7]基于貝葉斯理論的中文垃圾郵件過濾算法研究[D]. 包理群.蘭州交通大學 2009
[8]基于支持向量機的特征增量學習算法研究[D]. 劉新旺.國防科學技術大學 2008
[9]基于貝葉斯分類算法的中文垃圾郵件過濾技術的研究[D]. 李書全.合肥工業(yè)大學 2008
[10]基于支持向量機的垃圾郵件過濾模型研究[D]. 高加旺.哈爾濱理工大學 2008
本文編號:3440668
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
PU1數(shù)據(jù)集下不同算法所得F1值比較
圖 4.3 LingSpam 數(shù)據(jù)集下不同算法所得 F1 值比較由表 4.3,4.4 易知,隨著所選特征數(shù)目的增加,本文所得垃圾郵件識別正確率及召回率基本呈現(xiàn)上升狀態(tài),但同時會降低算法的執(zhí)行速度,這主要是因為高維特征豐富了用于識別信息量的同時增加了特征提取及 SVM 分類器的計算負擔。由圖 4.2,4.3 可知,隨著增量樣本的不斷加入,本文所得 F1 值不斷增加,而算法[33][35]所得 F1 值卻呈現(xiàn)降低趨勢,這主要是因為本文結合分類確定性因子,能更好地保留對于分類具有較強作用的樣本,摒棄對學習結果無益的樣本,以此優(yōu)化參與 SVM 訓練的樣本集合,使得分類器在線學習能力得到不斷提升。4.4 本章小結本章提出了一種基于 SVM 的在線垃圾郵件過濾算法。先對空間向量模型VSM 及文本分類所經(jīng)常使用的特征提取方法進行介紹,在此基礎上對本文算法所涉及的具體過程進行詳細闡述。仿真實驗過程先給出了 2 個垃圾郵件數(shù)據(jù)集:
【參考文獻】:
期刊論文
[1]一種基于語義可理解的信息過濾算法[J]. 張波,向陽,王堅. 電子與信息學報. 2010(10)
[2]粗糙集與決策樹在電子郵件分類與過濾中的應用[J]. 鄧春燕,陶多秀,呂躍進. 計算機工程與應用. 2009(16)
[3]改進KNN算法在垃圾郵件過濾中的應用[J]. 張俊麗,張帆. 現(xiàn)代圖書情報技術. 2007(04)
[4]基于貝葉斯理論的垃圾郵件過濾技術[J]. 戴勁松,白英彩. 計算機應用與軟件. 2006(01)
[5]垃圾郵件過濾的貝葉斯方法綜述[J]. 張銘鋒,李云春,李巍. 計算機應用研究. 2005(08)
[6]基于k-近鄰方法的漸進式中文文本分類技術[J]. 袁方,楊柳,張紅霞. 華南理工大學學報(自然科學版). 2004(S1)
[7]基于向量空間模型的文本過濾系統(tǒng)[J]. 黃萱菁,夏迎炬,吳立德. 軟件學報. 2003(03)
[8]統(tǒng)計學習理論及支持向量機概述[J]. 鄭紅軍,周旭,畢篤彥. 現(xiàn)代電子技術. 2003(04)
[9]基于支持向量機的中文文本自動分類研究[J]. 都云琪,肖詩斌. 計算機工程. 2002(11)
[10]向量空間法中單詞權重函數(shù)的分析和構造[J]. 陸玉昌,魯明羽,李凡,周立柱. 計算機研究與發(fā)展. 2002(10)
博士論文
[1]基于即時分類的垃圾郵件過濾關鍵技術的研究[D]. 惠孛.電子科技大學 2009
碩士論文
[1]基于支持向量機增量學習的異常入侵檢測算法研究[D]. 于健峰.吉林大學 2012
[2]基于內容的垃圾郵件意圖分析方法研究[D]. 孫吉譚.吉林大學 2011
[3]支持向量機增量算法[D]. 海洋.中央民族大學 2011
[4]新的支持向量機增量學習算法[D]. 吳慧.西安電子科技大學 2009
[5]基于貝葉斯分類的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 林偉.西華大學 2009
[6]垃圾郵件過濾技術研究[D]. 歐德寧.山東大學 2009
[7]基于貝葉斯理論的中文垃圾郵件過濾算法研究[D]. 包理群.蘭州交通大學 2009
[8]基于支持向量機的特征增量學習算法研究[D]. 劉新旺.國防科學技術大學 2008
[9]基于貝葉斯分類算法的中文垃圾郵件過濾技術的研究[D]. 李書全.合肥工業(yè)大學 2008
[10]基于支持向量機的垃圾郵件過濾模型研究[D]. 高加旺.哈爾濱理工大學 2008
本文編號:3440668
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3440668.html
最近更新
教材專著