加權貝葉斯郵件過濾方法研究
本文關鍵詞:加權貝葉斯郵件過濾方法研究
更多相關文章: 貝葉斯定理 郵件過濾 特征選擇 特征表示 加權
【摘要】:電子郵件給人們的溝通交流帶來極大的便利,與此同時也帶來了新的問題,即大量垃圾郵件的出現(xiàn)。垃圾郵件占用大量的網(wǎng)絡資源,侵犯個人隱私,給人們造成了很大干擾,因此研究如何過濾垃圾郵件具有重要的現(xiàn)實意義和實際應用價值。本文在貝葉斯垃圾郵件分類算法的基礎上進行研究工作。該算法基于統(tǒng)計學中的貝葉斯定理,根據(jù)先驗概率求出后驗概率,從而達到將垃圾郵件從大量電子文件中剔除的目的。貝葉斯垃圾郵件分類算法在按照文本分類進行郵件過濾的研究領域得到了廣泛應用。本文首先介紹了垃圾郵件過濾的研究背景、國內(nèi)外研究現(xiàn)狀以及常用的郵件過濾方法和技術。為了建立垃圾郵件剔除效果測試的比較標準,介紹了貝葉斯概率定理、本文使用的語料庫以及引用文獻中經(jīng)常使用文本分類性能評價指標。本文重點在分析常用的特征表示和特征選擇基礎上,做一些改進工作。建立特征表示的指紋向量方法以及特征選擇的CHI-XIG混合方法,初步分析這種新方法在垃圾郵件分類中的優(yōu)越性,后續(xù)設計了仿真實驗進行驗證。實驗結果顯示在本文建立的特征表示和特征選擇方法基礎上,樸素貝葉斯算法郵件分類效果有顯著提高。本文研究發(fā)現(xiàn)郵件頭和郵件體在郵件分類過程中具有不同的作用,據(jù)此建立了給予郵件頭和郵件體不同權重系數(shù)的加權貝葉斯郵件過濾模型。在實際使用中,郵件頭和郵件體的權重系數(shù)從歷史數(shù)據(jù)統(tǒng)計產(chǎn)生,利用加權貝葉斯郵件過濾模型計算得到郵件綜合分數(shù)作為判斷郵件類型的定量依據(jù)。仿真實驗驗證了加權貝葉斯郵件過濾模型在垃圾郵件分類中的明顯優(yōu)勢。
【關鍵詞】:貝葉斯定理 郵件過濾 特征選擇 特征表示 加權
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.098
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-14
- 1.1 課題背景8
- 1.2 國內(nèi)外研究現(xiàn)狀8-10
- 1.3 垃圾郵件的定義10
- 1.4 常用垃圾郵件過濾技術10-12
- 1.4.1 黑白名單技術10-11
- 1.4.2 關鍵詞過濾技術11
- 1.4.3 反向域名驗證11
- 1.4.4 基于規(guī)則評分的過濾技術11-12
- 1.4.5 貝葉斯過濾法12
- 1.5 本文研究的內(nèi)容12
- 1.6 本論文的組織結構12-14
- 第2章 貝葉斯概率理論14-17
- 2.1 貝葉斯定理14
- 2.2 向量空間14-15
- 2.3 語料庫15
- 2.4 評價體系15-16
- 2.5 本章小結16-17
- 第3章 樸素貝葉斯過濾方法特征研究17-31
- 3.1 樸素貝葉斯過濾模型17-18
- 3.2 貝葉斯過濾模型的估計18-19
- 3.3 樸素貝葉斯分類基本流程19
- 3.4 樸素貝葉斯過濾器的改進19-29
- 3.4.1 特征表示19-23
- 3.4.2 特征選擇23-29
- 3.5 閾值的動態(tài)調(diào)整29-30
- 3.6 本章小結30-31
- 第4章 加權貝葉斯郵件過濾分類模型31-41
- 4.1 電子郵件簡介31-33
- 4.2 郵件格式33-34
- 4.3 郵件頭字段34-37
- 4.4 加權貝葉斯概率模型37-38
- 4.5 加權貝葉斯郵件分類模型流程38-39
- 4.6 實驗結果分析39-40
- 4.7 本章小結40-41
- 結論41-42
- 參考文獻42-47
- 致謝47
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊葆紅;防范垃圾郵件的幾種措施[J];鄭州鐵路職業(yè)技術學院學報;2004年01期
2 Firefox;;在線狙擊垃圾郵件[J];電腦迷;2005年16期
3 LX ,阮征 ,Joycat;垃圾郵件 你真的惹惱我了!(上)[J];電腦愛好者;2005年03期
4 許偉民;羅鍵;;廈門廣電集團垃圾郵件的防范[J];中國傳媒科技;2006年10期
5 馮秀彥;宋宏偉;楊鳳勇;;防垃圾郵件方法探討[J];石家莊職業(yè)技術學院學報;2006年06期
6 高良誠;;郵件過濾系統(tǒng)的設計與實現(xiàn)[J];銅陵職業(yè)技術學院學報;2007年01期
7 戴健;;飛馬替你收郵件[J];電腦界.應用文萃;2000年08期
8 蔡健,黃國興,謝孟軍;基于數(shù)據(jù)挖掘方法的電子郵件過濾[J];微型電腦應用;2001年08期
9 呢仔男孩;垃圾郵件防守戰(zhàn)[J];電腦愛好者;2001年09期
10 馮小民;徹底拒絕垃圾郵件[J];電腦愛好者;2001年16期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張晶;姚建民;董守斌;張凌;;基于自然語言同現(xiàn)詞匯的郵件過濾[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
2 薛亞楠;廖聞劍;彭艷兵;;垃圾郵件行為識別研究[A];中國電子學會第十六屆信息論學術年會論文集[C];2009年
3 蒯莉;;網(wǎng)絡垃圾郵件的防范與治理[A];第十六次全國計算機安全學術交流會論文集[C];2001年
4 沈衛(wèi)超;;郵件過濾器系統(tǒng)的設計與實現(xiàn)[A];中國工程物理研究院科技年報(2001)[C];2001年
5 石艷榮;孫丹寧;賀永強;;一種基于內(nèi)容的郵件過濾模型的研究與性能分析[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
6 張尼;姜譽;方濱興;郭莉;;一個基于郵件路徑地理屬性分析的垃圾郵件過濾算法[A];全國網(wǎng)絡與信息安全技術研討會論文集(下冊)[C];2007年
7 朱巧明;周志軍;李培峰;;中文郵件語料庫建設及其分類研究[A];第六屆漢語詞匯語義學研討會論文集[C];2005年
8 仇小鋒;陳鳴;賈永興;;垃圾郵件及其防范技術[A];第九屆全國青年通信學術會議論文集[C];2004年
9 張相於;陳繼東;李玉坤;孟小峰;;TEXEM:一種基于實體的郵件任務提取策略[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
10 李婧;張煥國;;應用于貝葉斯過濾器的噪音消除算法研究[A];2005通信理論與技術新進展——第十屆全國青年通信學術會議論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 曹;拒絕垃圾郵件[N];中國電腦教育報;2003年
2 ;狙擊垃圾郵件[N];中國電腦教育報;2004年
3 ;砍斷垃圾郵件黑手[N];計算機世界;2003年
4 本報記者 張琳;防垃圾郵件怎樣“行為識別”[N];網(wǎng)絡世界;2005年
5 新華社記者 王緬 毛磊 楊駿 何德功 潘治;垃圾郵件全球泛濫,,法律怎么辦[N];新華每日電訊;2003年
6 阮光塵邋朱元春;多層構建郵件免疫機能[N];中國計算機報;2007年
7 ;垃圾郵件不再是安全難題[N];網(wǎng)絡世界;2006年
8 ;垃圾郵件傳播追隨“熱點”[N];網(wǎng)絡世界;2007年
9 劉向晨;垃圾郵件防治任重道遠[N];中國電腦教育報;2003年
10 小新;郵箱也能自動過濾垃圾郵件[N];中國電腦教育報;2003年
中國博士學位論文全文數(shù)據(jù)庫 前6條
1 陳彬;垃圾郵件的特征選擇及檢測方法研究[D];華南理工大學;2010年
2 劉震;垃圾郵件過濾理論和關鍵技術研究[D];電子科技大學;2008年
3 王友衛(wèi);基于統(tǒng)計的垃圾郵件識別關鍵技術研究[D];吉林大學;2015年
4 劉衛(wèi)紅;垃圾郵件檢測與過濾關鍵技術研究[D];華南理工大學;2010年
5 詹川;反垃圾郵件技術的研究[D];電子科技大學;2005年
6 王會珍;文本內(nèi)容分類和主題追蹤關鍵技術研究[D];東北大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 朱凱健;基于向量空間模型的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)[D];內(nèi)蒙古大學;2015年
2 卓小伍;基于改進度量尺度和閾值確定方法的馬田系統(tǒng)及其在郵件過濾中的應用[D];南京理工大學;2015年
3 周文彬;基于鏈接挖掘的郵件網(wǎng)絡中心性研究[D];北京化工大學;2015年
4 項學濤;基于賦權有向圖的郵件網(wǎng)絡親緣關系研究與實現(xiàn)[D];國際關系學院;2015年
5 王旭;基于用戶關系行為的垃圾郵件判別機制的研究與實現(xiàn)[D];東北大學;2014年
6 陳海華;圖像垃圾郵件攔截系統(tǒng)的設計與實現(xiàn)[D];蘇州大學;2016年
7 張遠;加權貝葉斯郵件過濾方法研究[D];哈爾濱工業(yè)大學;2016年
8 宋洪正;基于用戶行為關系和內(nèi)容的郵件分類算法的研究與實現(xiàn)[D];電子科技大學;2016年
9 趙雪梅;校園網(wǎng)環(huán)境下行為模式識別垃圾郵件技術研究[D];安徽理工大學;2008年
10 王巖;基于內(nèi)容的郵件過濾技術研究[D];北方工業(yè)大學;2010年
本文編號:978833
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/978833.html