中文垃圾郵件過濾方法的研究
本文關(guān)鍵詞:中文垃圾郵件過濾方法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:目前垃圾郵件給人們的生活造成了越來越惡劣的影響,對于我國這樣人口基數(shù)大的郵件發(fā)送接收大國,在處理垃圾郵件問題上浪費了更多的人力物力。在眾多的反垃圾郵件技術(shù)中,樸素貝葉斯垃圾郵件過濾方法以其運算速度快、易于實現(xiàn)等特點而被廣泛應(yīng)用。這種技術(shù)在過濾過程中,必不可少的環(huán)節(jié)是分詞和特征項提取。目前大部分面向中文的垃圾郵件過濾方法中,分詞過程往往實現(xiàn)復(fù)雜;當(dāng)面對的是大規(guī)模的郵件訓(xùn)練樣本時,以詞語作為文本的特征項單位,這種算法的時間效率會成為郵件過濾技術(shù)中的一個瓶頸;另外在特征項提取時現(xiàn)有的特征評估函數(shù)并不完全符合垃圾郵件的特點,所提取出來的特征項對文本并沒有足夠的代表能力。針對這種現(xiàn)狀,本文以提高中文垃圾郵件過濾性能為目標(biāo),做了較為深入的研究,主要工作如下:1在預(yù)處理的分詞階段,提出一種以基本短語為單位的分詞方法。使用TRIE樹結(jié)構(gòu)為詞典載體,將TRIE樹與正向最大匹配原則配合使用,然后結(jié)合文本分類領(lǐng)域的短語分析方法,利用基本名詞短語、基本動詞短語等語義分析方面的限定將向量空間中從詞語模式轉(zhuǎn)換成基本短語模式。這種方法可以使分詞在精度和效率都達(dá)到更好的效果。2在特征項提取階段結(jié)合垃圾郵件的特點,提出改進的互信息特征評估函數(shù),用于特征項提取。改善正負(fù)相關(guān)、忽略詞頻和趨向低頻詞、不同位置的特征項對類別界定貢獻能力不同的問題,這種方法可以在大大縮減特征向量空間維數(shù)的同時也保證提取出的特征項對文本有更強的代表能力。3運用樸素貝葉斯垃圾郵件過濾算法進行仿真實驗,實驗結(jié)果驗證了利用TRIE樹和最大匹配原則結(jié)合進行分詞能夠提高分詞效率,用基本短語代替詞作為特征項單位能夠縮減向量空間的維數(shù),運用改進的特征評估函數(shù)能夠提高過濾性能,改進的樸素貝葉斯方法在查重率、查準(zhǔn)率等各方面上都有更好的表現(xiàn)。
【關(guān)鍵詞】:中文垃圾郵件過濾 貝葉斯 TRIE樹 基本短語 特征項提取
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.098
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 緒論10-18
- 1.1 課題的研究背景10-15
- 1.1.1 垃圾郵件概述10-12
- 1.1.2 主要應(yīng)用領(lǐng)域及研究現(xiàn)狀12-13
- 1.1.3 中文垃圾郵件過濾面臨的挑戰(zhàn)13-15
- 1.2 研究目的與意義15-16
- 1.3 本文的主要工作16
- 1.4 本文的組織結(jié)構(gòu)16-18
- 第2章 中文垃圾郵件過濾技術(shù)18-27
- 2.1 樸素貝葉斯算法原理18-20
- 2.2 中文垃圾郵件概述20-22
- 2.2.1 中文垃圾郵件現(xiàn)狀21
- 2.2.2 中文垃圾郵件的異同21-22
- 2.3 樸素貝葉斯過濾方法22-26
- 2.4 本章小結(jié)26-27
- 第3章 中文垃圾郵件過濾中的分詞算法27-40
- 3.1 中文郵件分詞方法介紹27-29
- 3.2 中文分詞詞典TRIE樹29-33
- 3.2.1 詞典的樹型結(jié)構(gòu)組織29-31
- 3.2.2 樹型結(jié)構(gòu)的生成31-32
- 3.2.3 詞匹配過程32-33
- 3.3 基于基本短語模式的中文郵件分詞33-39
- 3.3.1 基于基本短語模式分詞的意義33-34
- 3.3.2 基本短語的界定和語義分析34-35
- 3.3.3 基于基本短語分詞過程35-39
- 3.4 本章小結(jié)39-40
- 第4章 改進的中文垃圾郵件過濾算法40-54
- 4.1 特征項提取40-43
- 4.1.1 特征項提取的意義40
- 4.1.2 特征評估函數(shù)介紹40-43
- 4.2 互信息特征評估函數(shù)43-46
- 4.2.1 互信息特征評估函數(shù)的不足43-44
- 4.2.2 改進的互信息特征評估函數(shù)44-46
- 4.3 改進的中文垃圾郵件過濾方法46-49
- 4.4 仿真實驗49-52
- 4.4.1 郵件樣本的收集49
- 4.4.2 分詞算法測試及分析49-50
- 4.4.3 基于基本短語模式特征向量空間的測試與分析50-51
- 4.4.4 改進的樸素貝葉斯中文垃圾郵件過濾的測試與分析51-52
- 4.5 本章小結(jié)52-54
- 第5章 結(jié)論與展望54-56
- 5.1 結(jié)論54-55
- 5.2 展望55-56
- 致謝56-57
- 參考文獻57-60
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及參加科研情況60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張羿;周建國;晏蒲柳;;垃圾郵件過濾系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2006年18期
2 徐衛(wèi);;一種垃圾郵件過濾網(wǎng)關(guān)的設(shè)計[J];電腦知識與技術(shù);2006年35期
3 項濤;龔儉;丁偉;;垃圾郵件過濾系統(tǒng)的評估模型研究[J];計算機工程與設(shè)計;2007年18期
4 歐德寧;馬軍;;基于內(nèi)含鏈接特征分析的垃圾郵件過濾技術(shù)[J];鄭州大學(xué)學(xué)報(理學(xué)版);2009年02期
5 金彩琴;裘國永;;對垃圾郵件過濾技術(shù)的問題研究[J];計算機技術(shù)與發(fā)展;2011年09期
6 丁上凌;呂后坤;;垃圾郵件過濾技術(shù)研究[J];漯河職業(yè)技術(shù)學(xué)院學(xué)報;2012年02期
7 趙文清;一種混合型垃圾郵件過濾系統(tǒng)的研究與設(shè)計[J];山西電子技術(shù);2004年06期
8 陳長偉;劉罡;洪躍楓;;電子垃圾郵件過濾技術(shù)的應(yīng)用[J];辦公自動化;2004年06期
9 劉震,佘X,周明天;基于多級屬性集的垃圾郵件過濾技術(shù)[J];計算機應(yīng)用研究;2005年07期
10 陳治平;王雷;;基于自學(xué)習(xí)K近鄰的垃圾郵件過濾算法[J];計算機應(yīng)用;2005年S1期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李軍;何曉寧;黃成哲;齊浩亮;雷國華;;基于特征貢獻度的垃圾郵件過濾方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
2 潘文鋒;王斌;譚松波;;貝葉斯垃圾郵件過濾研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會’2004論文集[C];2004年
3 劉紅翼;;一種垃圾郵件過濾器的設(shè)計與實現(xiàn)[A];廣西計算機學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年
4 張尼;方濱興;;垃圾郵件過濾技術(shù)綜述[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會'2005論文集(下冊)[C];2005年
5 張志斌;施水才;呂學(xué)強;;基于貝葉斯方法的中文垃圾郵件過濾技術(shù)綜述[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
6 周立兵;柳景超;;貝葉斯理論在垃圾郵件過濾中的應(yīng)用分析[A];中國造船工程學(xué)會電子技術(shù)學(xué)術(shù)委員會2006學(xué)術(shù)年會論文集(上冊)[C];2006年
7 張海雷;王會珍;王安慧;朱靖波;;基于樸素貝葉斯模型的垃圾郵件過濾技術(shù)比較分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年
8 米淑云;辛陽;羅群;;一種新型垃圾郵件過濾系統(tǒng)的設(shè)計和研究[A];2008通信理論與技術(shù)新進展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年
9 岑芳明;王明文;王鵬鳴;戴玉娟;;基于核偏最小二乘分類的垃圾郵件過濾[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
10 牛明珠;;病毒和垃圾郵件過濾技術(shù)淺析[A];二○○九年全國電力企業(yè)信息化大會論文集[C];2009年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;“垃圾郵件過濾系統(tǒng)”幾乎沒有一個完善的[N];新華每日電訊;2003年
2 ;測試?yán)]件過濾系統(tǒng)[N];網(wǎng)絡(luò)世界;2003年
3 本報記者 高穎;清除網(wǎng)絡(luò)“牛皮癬”勝算幾何?[N];計算機世界;2003年
4 John D. Halamka;IT手段的兩面性[N];計算機世界;2007年
5 ;不止是垃圾郵件過濾[N];網(wǎng)絡(luò)世界;2005年
6 ;2003十大網(wǎng)絡(luò)應(yīng)用電子郵箱[N];中國電腦教育報;2003年
7 本報記者 李建平;Comdex走向?qū)WN];計算機世界;2003年
8 張穎;東西方交流不會被“垃圾”阻斷[N];中國經(jīng)營報;2002年
9 ;如何選擇和使用UTM設(shè)備[N];網(wǎng)絡(luò)世界;2009年
10 ;用戶關(guān)心的問題:MSN 8值嗎?[N];計算機世界;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 董建設(shè);協(xié)作式垃圾郵件過濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年
2 惠孛;基于即時分類的垃圾郵件過濾關(guān)鍵技術(shù)的研究[D];電子科技大學(xué);2009年
3 鄧蔚;垃圾郵件過濾中的敵手分類問題研究[D];電子科技大學(xué);2011年
4 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學(xué);2010年
5 張澤明;人工免疫算法及其應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 甘棠儀;基于屬性論方法的垃圾郵件過濾系統(tǒng)設(shè)計與研究[D];上海海事大學(xué);2005年
2 王申;基于內(nèi)容的垃圾郵件過濾技術(shù)的若干研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
3 田月霞;基于疫苗機制的垃圾郵件過濾模型的研究[D];鄭州輕工業(yè)學(xué)院;2015年
4 鄧曾;遺傳算法和貝葉斯模型在垃圾郵件過濾中的應(yīng)用[D];電子科技大學(xué);2015年
5 徐兆志;基于AAPE分類模型的垃圾郵件過濾技術(shù)的研究與實現(xiàn)[D];電子科技大學(xué);2014年
6 次曲(Tse Qu);基于樸素貝葉斯算法的藏文垃圾郵件過濾關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2013年
7 王浩;基于發(fā)送方異常行為檢測的垃圾郵件過濾系統(tǒng)的研究與實現(xiàn)[D];東北大學(xué);2013年
8 陸元;基于多特征融合的垃圾郵件過濾系統(tǒng)[D];重慶大學(xué);2015年
9 魏如玉;中文垃圾郵件過濾方法的研究[D];遼寧大學(xué);2016年
10 許建明;基于內(nèi)容挖掘的中文垃圾郵件過濾技術(shù)研究與實現(xiàn)[D];湖南大學(xué);2008年
本文關(guān)鍵詞:中文垃圾郵件過濾方法的研究,由筆耕文化傳播整理發(fā)布。
,本文編號:453458
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/453458.html