基于文本分類技術(shù)的垃圾郵件過濾研究
本文選題:垃圾郵件 + 互信息; 參考:《安徽大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)廣告技術(shù)的發(fā)展和E-mail的普及,垃圾郵件廣告越來越嚴(yán)重,如何準(zhǔn)確過濾垃圾郵件直接影響用戶體驗(yàn)。本論文是在前人的理論與研究基礎(chǔ)上,系統(tǒng)的學(xué)習(xí)了垃圾郵件分類的方法,主要分析的重點(diǎn)是樸素貝葉斯分類方法在垃圾郵件過濾上的研究。本文首先從定義、特征以及危害等方面對垃圾郵件進(jìn)行了一個概述,分析了國內(nèi)外垃圾郵件研究的現(xiàn)狀,介紹了基于信件源以及基于內(nèi)容的兩種垃圾郵件過濾方法。其中基于內(nèi)容統(tǒng)計(jì)的樸素貝葉斯分類方法其比較高效、經(jīng)濟(jì)并且易于實(shí)現(xiàn)的優(yōu)點(diǎn),而在垃圾郵件過濾的研究中得到了廣泛的應(yīng)用。接著介紹了文本分類的關(guān)鍵技術(shù),有文本預(yù)處理、文本特征選擇、文本表示方法以及文本分類算法。最后用實(shí)驗(yàn)證明本文在傳統(tǒng)的樸素貝葉斯分類的基礎(chǔ)上提出的幾大改進(jìn)地方使分類性能得到了提高。鑒于保證郵件準(zhǔn)確分類的重要性以及數(shù)據(jù)的真實(shí)性以及權(quán)威性,本文利用Apache SpamAssassin Project數(shù)據(jù)設(shè)計(jì)了五組對比實(shí)驗(yàn)。實(shí)驗(yàn)一用沒有經(jīng)過任何處理的數(shù)據(jù)直接建立伯努利樸素貝葉斯分類模型,由于詞典單詞量大,從而聯(lián)合概率分布計(jì)算量大,超出了計(jì)算機(jī)現(xiàn)有的計(jì)算能力,在計(jì)算文本被判為某類別的概率的過程中很容易超出浮點(diǎn)數(shù)的范圍,使計(jì)算結(jié)果為零,影響分類準(zhǔn)確率。故本文優(yōu)化了計(jì)算過程,轉(zhuǎn)而計(jì)算文本被判為正常郵件概率與被判為垃圾郵件概率之比,將分類正確率從88.3%提升到92.3%。雖然經(jīng)過巧妙的比值計(jì)算處理,最大限度的利用了浮點(diǎn)數(shù)的存取范圍,但該概率的比值還是會出現(xiàn)為零和為無窮大的情況,故需要降低文本特征維度。實(shí)驗(yàn)二首先是按照傳統(tǒng)方法去除停用詞,結(jié)果發(fā)現(xiàn)準(zhǔn)確率反而降低了,說明有些停用詞對文本分類還是有一定的貢獻(xiàn)的,進(jìn)而轉(zhuǎn)向特征提取方法。實(shí)驗(yàn)三根據(jù)互信息特征提取方法作出了改進(jìn),提出"相對依存度、分類能力、綜合分類能力"等概念,提出另一種分類依據(jù),并將其與互信息方法進(jìn)行對比,發(fā)現(xiàn)當(dāng)都選取一萬左右的特征詞時,準(zhǔn)確率從87.8%提高到了 96.6%。改進(jìn)后的方法可以提取出綜合分類能力最大的特征集,但是對于給定的測試郵件,它的分類能力并不是最大的。故本文在此基礎(chǔ)上進(jìn)行了深入探討,實(shí)驗(yàn)四對特征選擇的計(jì)算方法又作出了改進(jìn),并稱之為自適應(yīng)特征選擇,實(shí)驗(yàn)結(jié)果是分類準(zhǔn)確率普遍得到了提高。在特征集維度合適的情況下,實(shí)驗(yàn)五為了降低樸素貝葉斯中各屬性特征間相互獨(dú)立這一嚴(yán)格的假設(shè),通過為每個屬性建立一個隱藏的父節(jié)點(diǎn)來描述該屬性與其他屬性間的一種依賴關(guān)系,并稱之單隱樸素貝葉斯,最后在該模型的計(jì)算方法又提出了略小的改進(jìn),實(shí)驗(yàn)結(jié)果表面,分類準(zhǔn)確率得到了提高。為提高準(zhǔn)確性,所有實(shí)驗(yàn)均采取的是十折交叉驗(yàn)證。
[Abstract]:With the development of Internet advertising technology and the popularity of E-mail, spam advertising is becoming more and more serious. How to filter spam directly affects the user experience. On the basis of previous theories and researches, this paper systematically studies the method of spam classification. The emphasis of this paper is the research of naive Bayes classification in spam filtering. In this paper, firstly, the definition, characteristics and harm of spam are summarized, the current situation of spam research at home and abroad is analyzed, and two spam filtering methods based on mail source and content are introduced. Among them, the naive Bayesian classification method based on content statistics has the advantages of high efficiency, economy and easy implementation, and has been widely used in the research of spam filtering. Then the paper introduces the key technologies of text classification, including text preprocessing, text feature selection, text representation and text classification algorithm. Finally, it is proved by experiments that the performance of the classification is improved by several improvements proposed in this paper based on the traditional naive Bayes classification. In view of the importance of accurate classification of mail and the authenticity and authority of the data, this paper designs five sets of comparative experiments using Apache SpamAssassin Project data. In experiment one, Bernoulli naive Bayes classification model is built directly from the data without any processing. Because of the large number of words in the dictionary, the calculation of joint probability distribution is large, which is beyond the existing computing ability of the computer. In the process of calculating the probability that the text is judged as a certain class, it is easy to exceed the range of floating-point, so that the result of calculation is zero, which affects the accuracy of classification. Therefore, this paper optimizes the calculation process, and then calculates the ratio of the probability of the text being judged as normal mail to the probability of being judged as spam, and raises the classification accuracy rate from 88.3% to 92.3%. Although the access range of floating-point number is utilized to the maximum extent through the skillful ratio calculation, the ratio of this probability still appears to be zero sum and infinity, so it is necessary to reduce the text feature dimension. The second experiment is to remove the stop word according to the traditional method. The result shows that some stop words have some contribution to text classification and then turn to the feature extraction method. In the third experiment, according to the mutual information feature extraction method, the concepts of "relative dependency, classification ability, comprehensive classification ability" are proposed, and another classification basis is put forward, and compared with the mutual information method. It was found that the accuracy increased from 87.8% to 96. 6% when we selected about 10, 000 feature words. The improved method can extract the feature set with the maximum ability of synthesis classification, but its classification ability is not the maximum for a given test mail. Therefore, this paper makes a thorough discussion on this basis, and the calculation method of experimental four pairs of feature selection is improved, which is called adaptive feature selection. The experimental result is that the accuracy of classification is generally improved. In order to reduce the strict assumption that the attributes in naive Bayes are independent of each other when the dimension of the feature set is appropriate, By establishing a hidden parent node for each attribute to describe a dependency between the attribute and other attributes, and call it a single hidden naive Bayes, a slight improvement is proposed in the calculation method of the model. The classification accuracy is improved. In order to improve the accuracy, all the experiments were carried out by 10% cross-validation.
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.098;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張羿;周建國;晏蒲柳;;垃圾郵件過濾系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年18期
2 徐衛(wèi);;一種垃圾郵件過濾網(wǎng)關(guān)的設(shè)計(jì)[J];電腦知識與技術(shù);2006年35期
3 項(xiàng)濤;龔儉;丁偉;;垃圾郵件過濾系統(tǒng)的評估模型研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年18期
4 歐德寧;馬軍;;基于內(nèi)含鏈接特征分析的垃圾郵件過濾技術(shù)[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2009年02期
5 金彩琴;裘國永;;對垃圾郵件過濾技術(shù)的問題研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期
6 丁上凌;呂后坤;;垃圾郵件過濾技術(shù)研究[J];漯河職業(yè)技術(shù)學(xué)院學(xué)報(bào);2012年02期
7 趙文清;一種混合型垃圾郵件過濾系統(tǒng)的研究與設(shè)計(jì)[J];山西電子技術(shù);2004年06期
8 陳長偉;劉罡;洪躍楓;;電子垃圾郵件過濾技術(shù)的應(yīng)用[J];辦公自動化;2004年06期
9 劉震,佘X,周明天;基于多級屬性集的垃圾郵件過濾技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2005年07期
10 陳治平;王雷;;基于自學(xué)習(xí)K近鄰的垃圾郵件過濾算法[J];計(jì)算機(jī)應(yīng)用;2005年S1期
相關(guān)會議論文 前10條
1 李軍;何曉寧;黃成哲;齊浩亮;雷國華;;基于特征貢獻(xiàn)度的垃圾郵件過濾方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
2 潘文鋒;王斌;譚松波;;貝葉斯垃圾郵件過濾研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會’2004論文集[C];2004年
3 劉紅翼;;一種垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年
4 張尼;方濱興;;垃圾郵件過濾技術(shù)綜述[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會'2005論文集(下冊)[C];2005年
5 張志斌;施水才;呂學(xué)強(qiáng);;基于貝葉斯方法的中文垃圾郵件過濾技術(shù)綜述[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
6 周立兵;柳景超;;貝葉斯理論在垃圾郵件過濾中的應(yīng)用分析[A];中國造船工程學(xué)會電子技術(shù)學(xué)術(shù)委員會2006學(xué)術(shù)年會論文集(上冊)[C];2006年
7 張海雷;王會珍;王安慧;朱靖波;;基于樸素貝葉斯模型的垃圾郵件過濾技術(shù)比較分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年
8 米淑云;辛陽;羅群;;一種新型垃圾郵件過濾系統(tǒng)的設(shè)計(jì)和研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年
9 岑芳明;王明文;王鵬鳴;戴玉娟;;基于核偏最小二乘分類的垃圾郵件過濾[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
10 牛明珠;;病毒和垃圾郵件過濾技術(shù)淺析[A];二○○九年全國電力企業(yè)信息化大會論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 ;“垃圾郵件過濾系統(tǒng)”幾乎沒有一個完善的[N];新華每日電訊;2003年
2 ;測試?yán)]件過濾系統(tǒng)[N];網(wǎng)絡(luò)世界;2003年
3 本報(bào)記者 高穎;清除網(wǎng)絡(luò)“牛皮癬”勝算幾何?[N];計(jì)算機(jī)世界;2003年
4 John D. Halamka;IT手段的兩面性[N];計(jì)算機(jī)世界;2007年
5 ;不止是垃圾郵件過濾[N];網(wǎng)絡(luò)世界;2005年
6 ;2003十大網(wǎng)絡(luò)應(yīng)用電子郵箱[N];中國電腦教育報(bào);2003年
7 本報(bào)記者 李建平;Comdex走向?qū)WN];計(jì)算機(jī)世界;2003年
8 張穎;東西方交流不會被“垃圾”阻斷[N];中國經(jīng)營報(bào);2002年
9 ;如何選擇和使用UTM設(shè)備[N];網(wǎng)絡(luò)世界;2009年
10 ;用戶關(guān)心的問題:MSN 8值嗎?[N];計(jì)算機(jī)世界;2002年
相關(guān)博士學(xué)位論文 前5條
1 董建設(shè);協(xié)作式垃圾郵件過濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年
2 惠孛;基于即時分類的垃圾郵件過濾關(guān)鍵技術(shù)的研究[D];電子科技大學(xué);2009年
3 鄧蔚;垃圾郵件過濾中的敵手分類問題研究[D];電子科技大學(xué);2011年
4 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學(xué);2010年
5 張澤明;人工免疫算法及其應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 甘棠儀;基于屬性論方法的垃圾郵件過濾系統(tǒng)設(shè)計(jì)與研究[D];上海海事大學(xué);2005年
2 王申;基于內(nèi)容的垃圾郵件過濾技術(shù)的若干研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
3 田月霞;基于疫苗機(jī)制的垃圾郵件過濾模型的研究[D];鄭州輕工業(yè)學(xué)院;2015年
4 鄧曾;遺傳算法和貝葉斯模型在垃圾郵件過濾中的應(yīng)用[D];電子科技大學(xué);2015年
5 徐兆志;基于AAPE分類模型的垃圾郵件過濾技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
6 次曲(Tse Qu);基于樸素貝葉斯算法的藏文垃圾郵件過濾關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2013年
7 王浩;基于發(fā)送方異常行為檢測的垃圾郵件過濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
8 陸元;基于多特征融合的垃圾郵件過濾系統(tǒng)[D];重慶大學(xué);2015年
9 魏如玉;中文垃圾郵件過濾方法的研究[D];遼寧大學(xué);2016年
10 胡瑋;基于語義的垃圾郵件過濾技術(shù)的研究[D];重慶大學(xué);2016年
,本文編號:1816323
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1816323.html