基于語(yǔ)義的垃圾郵件過(guò)濾技術(shù)的研究
本文選題:垃圾郵件過(guò)濾 + 文本分類(lèi)。 參考:《重慶大學(xué)》2016年碩士論文
【摘要】:電子郵件的興起伴隨著垃圾郵件的產(chǎn)生,隨著互聯(lián)網(wǎng)的普及和發(fā)展,電子郵件成為人們?nèi)粘9ぷ骱蜕钪斜夭豢缮俚慕涣鞣绞?甚至已經(jīng)成為文件和文檔進(jìn)行快速傳輸?shù)闹髁鬏d體。而垃圾郵件問(wèn)題卻日益嚴(yán)重并越來(lái)越深切的影響著人們的工作和生活,垃圾郵件不僅嚴(yán)重占用和浪費(fèi)了網(wǎng)絡(luò)帶寬和計(jì)算資源,而且還帶來(lái)各種各樣的安全隱患,威脅著人們的信息安全。雖然人們已經(jīng)提出了很多相應(yīng)的解決對(duì)策和方法,但是垃圾郵件仍呈現(xiàn)出持續(xù)性的爆炸式增長(zhǎng)的趨勢(shì)。垃圾郵件的過(guò)濾攔截可以通過(guò)影響和控制電子郵件傳遞過(guò)程中的各個(gè)環(huán)節(jié)來(lái)實(shí)現(xiàn)。本文主要研究通過(guò)對(duì)電子郵件的正文內(nèi)容進(jìn)行語(yǔ)義識(shí)別來(lái)實(shí)現(xiàn)垃圾郵件過(guò)濾的方法和技術(shù)。垃圾郵件的內(nèi)容和形式不管如何變化,必定會(huì)傳達(dá)出某種語(yǔ)義信息,以這些語(yǔ)義信息作為垃圾郵件過(guò)濾和攔截的基礎(chǔ),會(huì)有效提高垃圾郵件攔截的效率和效果。傳統(tǒng)的特征選擇方法大多是基于統(tǒng)計(jì)學(xué)的,并且總是將文本中的字、詞、短語(yǔ)拆分開(kāi)來(lái)做為單獨(dú)的特征項(xiàng)來(lái)處理,將文本單純的看作一堆字詞的堆砌,拋棄了不同語(yǔ)法結(jié)構(gòu)、語(yǔ)言環(huán)境、詞匯搭配所表現(xiàn)出的語(yǔ)義信息。本文提出了一種針對(duì)中文郵件的基于內(nèi)容的垃圾郵件過(guò)濾技術(shù),并在公共語(yǔ)料集TREC06c上進(jìn)行了實(shí)驗(yàn),獲得了良好的結(jié)果。本文首先采用了逐層在文本上添加注釋來(lái)提取語(yǔ)義信息的方法,然后將提取出的語(yǔ)義信息進(jìn)行篩選后作為表示文本的特征項(xiàng)來(lái)構(gòu)建決策樹(shù)并最終生成分類(lèi)器,實(shí)現(xiàn)了文本的識(shí)別和分類(lèi)。這種方法的優(yōu)勢(shì)在于既能夠準(zhǔn)確表達(dá)文本的內(nèi)容含義,又能夠達(dá)到科學(xué)有效的降維效果。因此,直接選取詞匯作為特征來(lái)表示文本,而提取文本的語(yǔ)義信息作為特征項(xiàng)來(lái)表示文本,是一種更加科學(xué)有效的特征選擇方法。采用語(yǔ)義作為特征項(xiàng)有兩個(gè)明顯的優(yōu)勢(shì)。一是,對(duì)文本內(nèi)容的反映更準(zhǔn)確,更有利于實(shí)現(xiàn)準(zhǔn)確的文本分類(lèi);二是,與傳統(tǒng)方法相比,特征項(xiàng)的數(shù)量顯著減少了,運(yùn)算壓力更小。本文主要研究的第二個(gè)問(wèn)題是在科學(xué)有效的篩選出特征項(xiàng)的基礎(chǔ)上,運(yùn)用決策樹(shù)方法來(lái)完成垃圾郵件的多分類(lèi)任務(wù),因?yàn)閷?shí)現(xiàn)垃圾郵件的多分類(lèi)更加有助于實(shí)現(xiàn)郵件過(guò)濾和攔截的個(gè)性化,注重了用戶隱私。從自然語(yǔ)言處理的方面來(lái)看,本文中介紹的這一方法作為一種針對(duì)文本內(nèi)容的多分類(lèi)技術(shù),在自然語(yǔ)言處理中也具有巨大潛力。
[Abstract]:With the popularity and development of the Internet, email has become an indispensable way of communication in people's daily work and life. It has even become the mainstream carrier for fast transmission of files and documents. However, the problem of spam is becoming more and more serious and deeply affects people's work and life. Spam not only occupies and wastes network bandwidth and computing resources seriously, but also brings all kinds of hidden dangers to security. Threatening people's information security. Although people have put forward a lot of corresponding solutions and methods, spam still shows a sustained explosive growth trend. The filtering and blocking of spam can be realized by influencing and controlling each link in the process of e-mail delivery. This paper mainly studies the method and technology of spam filtering by semantic recognition of the text of email. No matter how the content and form of spam changes, it will convey some semantic information. Using these semantic information as the basis of spam filtering and blocking will effectively improve the efficiency and effect of spam blocking. Most of the traditional feature selection methods are based on statistics, and they always separate the words, words and phrases in the text as separate feature items, and treat the text simply as a pile of words, leaving out different grammatical structures. Language environment, lexical collocation shows semantic information. In this paper, a content-based spam filtering technique for Chinese mail is proposed, and the experiment is carried out on TREC06c, a common corpus, and good results are obtained. In this paper, we first use the method of adding annotations to the text layer by layer to extract the semantic information, then filter the extracted semantic information as the feature items to represent the text to construct the decision tree and finally generate the classifier. The text recognition and classification are realized. The advantage of this method is that it can not only accurately express the meaning of the text, but also achieve a scientific and effective dimensionality reduction effect. Therefore, it is a more scientific and effective feature selection method to directly select words as features to represent text, and extract semantic information of text as feature items to represent text. There are two obvious advantages in using semantics as feature items. One is that the text content is more accurately reflected, which is more conducive to the realization of accurate text classification; second, compared with the traditional method, the number of feature items is significantly reduced, and the operation pressure is less. The second problem of this paper is to use the decision tree method to complete the multi-classification of spam on the basis of scientific and effective selection of feature items. Because the multi-classification of spam is more helpful to realize the personalization of email filtering and blocking, it pays more attention to user privacy. From the aspect of natural language processing, this method, as a multi-classification technique for text content, has great potential in natural language processing.
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP393.098
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張羿;周建國(guó);晏蒲柳;;垃圾郵件過(guò)濾系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年18期
2 徐衛(wèi);;一種垃圾郵件過(guò)濾網(wǎng)關(guān)的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2006年35期
3 項(xiàng)濤;龔儉;丁偉;;垃圾郵件過(guò)濾系統(tǒng)的評(píng)估模型研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年18期
4 歐德寧;馬軍;;基于內(nèi)含鏈接特征分析的垃圾郵件過(guò)濾技術(shù)[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2009年02期
5 金彩琴;裘國(guó)永;;對(duì)垃圾郵件過(guò)濾技術(shù)的問(wèn)題研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期
6 丁上凌;呂后坤;;垃圾郵件過(guò)濾技術(shù)研究[J];漯河職業(yè)技術(shù)學(xué)院學(xué)報(bào);2012年02期
7 趙文清;一種混合型垃圾郵件過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[J];山西電子技術(shù);2004年06期
8 陳長(zhǎng)偉;劉罡;洪躍楓;;電子垃圾郵件過(guò)濾技術(shù)的應(yīng)用[J];辦公自動(dòng)化;2004年06期
9 劉震,佘X,周明天;基于多級(jí)屬性集的垃圾郵件過(guò)濾技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2005年07期
10 陳治平;王雷;;基于自學(xué)習(xí)K近鄰的垃圾郵件過(guò)濾算法[J];計(jì)算機(jī)應(yīng)用;2005年S1期
相關(guān)會(huì)議論文 前10條
1 李軍;何曉寧;黃成哲;齊浩亮;雷國(guó)華;;基于特征貢獻(xiàn)度的垃圾郵件過(guò)濾方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
2 潘文鋒;王斌;譚松波;;貝葉斯垃圾郵件過(guò)濾研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)’2004論文集[C];2004年
3 劉紅翼;;一種垃圾郵件過(guò)濾器的設(shè)計(jì)與實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會(huì)2005年學(xué)術(shù)年會(huì)論文集[C];2005年
4 張尼;方濱興;;垃圾郵件過(guò)濾技術(shù)綜述[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)'2005論文集(下冊(cè))[C];2005年
5 張志斌;施水才;呂學(xué)強(qiáng);;基于貝葉斯方法的中文垃圾郵件過(guò)濾技術(shù)綜述[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
6 周立兵;柳景超;;貝葉斯理論在垃圾郵件過(guò)濾中的應(yīng)用分析[A];中國(guó)造船工程學(xué)會(huì)電子技術(shù)學(xué)術(shù)委員會(huì)2006學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2006年
7 張海雷;王會(huì)珍;王安慧;朱靖波;;基于樸素貝葉斯模型的垃圾郵件過(guò)濾技術(shù)比較分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
8 米淑云;辛陽(yáng);羅群;;一種新型垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)和研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
9 岑芳明;王明文;王鵬鳴;戴玉娟;;基于核偏最小二乘分類(lèi)的垃圾郵件過(guò)濾[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
10 牛明珠;;病毒和垃圾郵件過(guò)濾技術(shù)淺析[A];二○○九年全國(guó)電力企業(yè)信息化大會(huì)論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 ;“垃圾郵件過(guò)濾系統(tǒng)”幾乎沒(méi)有一個(gè)完善的[N];新華每日電訊;2003年
2 ;測(cè)試?yán)]件過(guò)濾系統(tǒng)[N];網(wǎng)絡(luò)世界;2003年
3 本報(bào)記者 高穎;清除網(wǎng)絡(luò)“牛皮癬”勝算幾何?[N];計(jì)算機(jī)世界;2003年
4 John D. Halamka;IT手段的兩面性[N];計(jì)算機(jī)世界;2007年
5 ;不止是垃圾郵件過(guò)濾[N];網(wǎng)絡(luò)世界;2005年
6 ;2003十大網(wǎng)絡(luò)應(yīng)用電子郵箱[N];中國(guó)電腦教育報(bào);2003年
7 本報(bào)記者 李建平;Comdex走向?qū)WN];計(jì)算機(jī)世界;2003年
8 張穎;東西方交流不會(huì)被“垃圾”阻斷[N];中國(guó)經(jīng)營(yíng)報(bào);2002年
9 ;如何選擇和使用UTM設(shè)備[N];網(wǎng)絡(luò)世界;2009年
10 ;用戶關(guān)心的問(wèn)題:MSN 8值嗎?[N];計(jì)算機(jī)世界;2002年
相關(guān)博士學(xué)位論文 前5條
1 董建設(shè);協(xié)作式垃圾郵件過(guò)濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年
2 惠孛;基于即時(shí)分類(lèi)的垃圾郵件過(guò)濾關(guān)鍵技術(shù)的研究[D];電子科技大學(xué);2009年
3 鄧蔚;垃圾郵件過(guò)濾中的敵手分類(lèi)問(wèn)題研究[D];電子科技大學(xué);2011年
4 孫晶濤;基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)研究[D];蘭州理工大學(xué);2010年
5 張澤明;人工免疫算法及其應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 甘棠儀;基于屬性論方法的垃圾郵件過(guò)濾系統(tǒng)設(shè)計(jì)與研究[D];上海海事大學(xué);2005年
2 王申;基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)的若干研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
3 田月霞;基于疫苗機(jī)制的垃圾郵件過(guò)濾模型的研究[D];鄭州輕工業(yè)學(xué)院;2015年
4 鄧曾;遺傳算法和貝葉斯模型在垃圾郵件過(guò)濾中的應(yīng)用[D];電子科技大學(xué);2015年
5 徐兆志;基于AAPE分類(lèi)模型的垃圾郵件過(guò)濾技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
6 次曲(Tse Qu);基于樸素貝葉斯算法的藏文垃圾郵件過(guò)濾關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2013年
7 王浩;基于發(fā)送方異常行為檢測(cè)的垃圾郵件過(guò)濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
8 陸元;基于多特征融合的垃圾郵件過(guò)濾系統(tǒng)[D];重慶大學(xué);2015年
9 魏如玉;中文垃圾郵件過(guò)濾方法的研究[D];遼寧大學(xué);2016年
10 胡瑋;基于語(yǔ)義的垃圾郵件過(guò)濾技術(shù)的研究[D];重慶大學(xué);2016年
,本文編號(hào):2034982
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2034982.html