基于聚類思想的快速訓(xùn)練不平衡郵件集的方法
發(fā)布時(shí)間:2023-04-20 05:13
隨著互聯(lián)網(wǎng)中垃圾郵件的快速蔓延,垃圾郵件過(guò)濾的研究越來(lái)越受到學(xué)者關(guān)注。在研究中,較為常見(jiàn)的思路是通過(guò)文本挖掘技術(shù)進(jìn)行垃圾郵件的識(shí)別,該思路將郵件過(guò)濾問(wèn)題看做是一個(gè)區(qū)分正常郵件和垃圾郵件的二分類問(wèn)題,它通過(guò)對(duì)已標(biāo)記類別的郵件樣本集合的訓(xùn)練學(xué)習(xí),得到一個(gè)可識(shí)別未知樣本類別的分類器,并用該分類器對(duì)正常郵件和垃圾郵件進(jìn)行區(qū)分。然而,在現(xiàn)實(shí)應(yīng)用中,由于垃圾郵件不斷涌現(xiàn),訓(xùn)練集在隨之持續(xù)更新的同時(shí),其規(guī)模也持續(xù)擴(kuò)大。大規(guī)模樣本的頻繁訓(xùn)練需要消耗過(guò)多的計(jì)算資源,這是垃圾郵件技術(shù)在實(shí)際應(yīng)用中無(wú)法回避的問(wèn)題。此外,介于用戶隱私等因素的考慮,正常郵件較垃圾郵件而言,往往更難收集,訓(xùn)練集中樣本比例的不平衡將使得分類器更傾向于判斷一封未知類別的郵件為垃圾郵件,影響垃圾郵件識(shí)別的準(zhǔn)確率。因此,針對(duì)此問(wèn)題,本文提出了一種快速訓(xùn)練不平衡郵件集的方法,該方法在通過(guò)聚類方法對(duì)樣本集合進(jìn)行壓縮和平衡處理后,再使用支持向量機(jī)進(jìn)行訓(xùn)練和預(yù)測(cè)。其核心思想是為正常郵件和垃圾郵件設(shè)置不同的閩值進(jìn)行樣本壓縮。實(shí)驗(yàn)表明,針對(duì)大量不平衡郵件訓(xùn)練集,該方法在縮短訓(xùn)練時(shí)間、提高預(yù)測(cè)的準(zhǔn)確率方面,具有一定的有效性。
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文結(jié)構(gòu)
第二章 文本挖掘理論
2.1 文本表示
2.1.1 向量空間模型
2.1.2 語(yǔ)言模型
2.1.3 后綴樹模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征選擇
2.2.3 特征提取
2.3 文本分類
2.3.1 支持向量機(jī)算法
2.3.2 樸素貝葉斯算法
2.3.3 K最近鄰算法
2.4 文本聚類
2.4.1 劃分聚類算法
2.4.2 層次聚類算法
2.4.3 密度聚類算法
第三章 快速訓(xùn)練不平衡郵件集的模型研究
3.1 郵件過(guò)濾模型簡(jiǎn)介
3.1.1 郵件過(guò)濾研究中的現(xiàn)存問(wèn)題
3.1.2 模型框架介紹
3.2 郵件的量化表示
3.2.1 結(jié)構(gòu)分析和內(nèi)容抽取
3.2.2 特征空間構(gòu)建
3.2.3 特征選擇與提取
3.2.4 相似度計(jì)算
3.3 郵件的過(guò)濾算法
3.3.1 欠采樣的分析
3.3.2 壓縮及平衡樣本的算法
3.3.3 分類算法
3.3.4 訓(xùn)練集更新思路
第四章 實(shí)驗(yàn)及結(jié)果評(píng)價(jià)
4.1 實(shí)驗(yàn)環(huán)境及樣本
4.2 實(shí)驗(yàn)內(nèi)容
4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.4 實(shí)驗(yàn)結(jié)果及分析
第五章 結(jié)論和展望
5.1 本文的結(jié)論
5.2 創(chuàng)新點(diǎn)
5.3 不足之處
參考文獻(xiàn)
致謝
本文編號(hào):3794959
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文結(jié)構(gòu)
第二章 文本挖掘理論
2.1 文本表示
2.1.1 向量空間模型
2.1.2 語(yǔ)言模型
2.1.3 后綴樹模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征選擇
2.2.3 特征提取
2.3 文本分類
2.3.1 支持向量機(jī)算法
2.3.2 樸素貝葉斯算法
2.3.3 K最近鄰算法
2.4 文本聚類
2.4.1 劃分聚類算法
2.4.2 層次聚類算法
2.4.3 密度聚類算法
第三章 快速訓(xùn)練不平衡郵件集的模型研究
3.1 郵件過(guò)濾模型簡(jiǎn)介
3.1.1 郵件過(guò)濾研究中的現(xiàn)存問(wèn)題
3.1.2 模型框架介紹
3.2 郵件的量化表示
3.2.1 結(jié)構(gòu)分析和內(nèi)容抽取
3.2.2 特征空間構(gòu)建
3.2.3 特征選擇與提取
3.2.4 相似度計(jì)算
3.3 郵件的過(guò)濾算法
3.3.1 欠采樣的分析
3.3.2 壓縮及平衡樣本的算法
3.3.3 分類算法
3.3.4 訓(xùn)練集更新思路
第四章 實(shí)驗(yàn)及結(jié)果評(píng)價(jià)
4.1 實(shí)驗(yàn)環(huán)境及樣本
4.2 實(shí)驗(yàn)內(nèi)容
4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.4 實(shí)驗(yàn)結(jié)果及分析
第五章 結(jié)論和展望
5.1 本文的結(jié)論
5.2 創(chuàng)新點(diǎn)
5.3 不足之處
參考文獻(xiàn)
致謝
本文編號(hào):3794959
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3794959.html
最近更新
教材專著