基于改進(jìn)Winnow算法的中文反垃圾郵件系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2018-07-15 07:05

【摘要】： 隨著Internet的廣泛應(yīng)用,電子郵件已經(jīng)是人們?nèi)粘Ｉ罹W(wǎng)絡(luò)交流的重要途徑。然而垃圾郵件作為商業(yè)廣告、病毒程序或敏感內(nèi)容的載體,已經(jīng)對(duì)系統(tǒng)安全形成威脅,并且給人們的生活帶來不便。反垃圾郵件問題已成為全球性的具有重大現(xiàn)實(shí)意義的課題。本文深入研究了垃圾郵件內(nèi)容過濾技術(shù),結(jié)合中文垃圾郵件的特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了一種基于自動(dòng)分類技術(shù)的中文反垃圾郵件過濾引擎。該引擎分成預(yù)處理、訓(xùn)練、分類和反饋四個(gè)部分。在預(yù)處理方面,本文分別研究了郵件解碼、中文分詞、特征提取以及郵件的向量表示等子模塊。對(duì)于中文分詞,本引擎采用了中科院的漢語詞法分析系統(tǒng)ICTCLAS;對(duì)于特征提取,采用了互信息值的方法。訓(xùn)練及分類是本文研究的重點(diǎn)。首先,對(duì)基本W(wǎng)innow算法的指數(shù)形式和因子形式進(jìn)行了統(tǒng)一,并由此推導(dǎo)出了Balanced Winnow算法的指數(shù)形式;其次,鑒于基本W(wǎng)innow算法的抖動(dòng)現(xiàn)象,提出了一種改進(jìn)Winnow的反垃圾郵件過濾算法——Review Winnow,該算法不僅有效地緩減了抖動(dòng)現(xiàn)象,而且所選用的損失函數(shù)能更真實(shí)地描述分類錯(cuò)誤郵件的內(nèi)在損失;再次,通過去除郵件樣本集中存在的野點(diǎn)和利用改良的Boosting算法,提升了Winnow分類器的性能,并由此構(gòu)建了ADOR-Winnow郵件分類器;最后實(shí)驗(yàn)證明,Balanced R-Winnow算法有效地緩減了抖動(dòng)現(xiàn)象,ADOR-Winnow郵件分類器極大地提高了分類器性能。在反饋方面,本文提出了一種基于網(wǎng)格的反饋學(xué)習(xí)模型。該模型通過用戶分類,將反饋級(jí)別從一般的兩級(jí)延伸到系統(tǒng)級(jí)、域級(jí)、用戶級(jí)三級(jí)。這種改進(jìn)不僅有利于組間的協(xié)同過濾及集中式的反饋學(xué)習(xí),而且有利于提高郵件分類器的過濾性能。
[Abstract]:With the wide application of Internet, email has become an important way for people to communicate with each other in daily life. However, spam, as a carrier of commercial advertisements, virus programs or sensitive content, has posed a threat to the security of the system and brought inconvenience to people's lives. Anti-spam problem has become a global issue of great practical significance. In this paper, the technology of spam content filtering is deeply studied, and a Chinese anti-spam filtering engine based on automatic classification technology is designed and implemented according to the characteristics of Chinese spam. The engine is divided into four parts: preprocessing, training, classification and feedback. In the aspect of preprocessing, this paper studies the sub-modules of mail decoding, Chinese word segmentation, feature extraction and vector representation of mail. For Chinese word segmentation, the engine adopts ICTCLAS-based Chinese lexical analysis system of Chinese Academy of Sciences, and uses mutual information value method for feature extraction. Training and classification are the focus of this paper. Firstly, the exponential form and the factor form of the basic winnow algorithm are unified, and the exponential form of the balanced winnow algorithm is deduced. Secondly, in view of the jitter of the basic winnow algorithm, This paper presents an improved winnow anti-spam filtering algorithm, Review Winnow. this algorithm not only effectively reduces the jitter phenomenon, but also the loss function selected can describe the inner loss of classification error mail more truthfully. By removing the outliers in the mail sample set and using the improved boosting algorithm, the performance of winnow classifier is improved, and the ADOR-winnow mail classifier is constructed. Finally, experiments show that the balanced R-Winnow algorithm can effectively reduce the jitter phenomenon and greatly improve the performance of ADOR-Winnow mail classifier. In terms of feedback, a grid-based feedback learning model is proposed. Through user classification, the feedback level is extended from general two levels to system level, domain level and user level. This improvement is not only conducive to cooperative filtering among groups and centralized feedback learning, but also helps to improve the filtering performance of mail classifiers.
【學(xué)位授予單位】：南京航空航天大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2008
【分類號(hào)】：TP393.098

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 李智信;;善用10分鐘郵箱跟垃圾郵件說再見[J];電腦愛好者;2011年10期

2 ;惡意軟件空前激增而垃圾郵件大幅減少[J];微電腦世界;2011年07期

3 ;查看信頭找到垃圾郵件真正發(fā)件人[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年02期

4 金彩琴;裘國(guó)永;;對(duì)垃圾郵件過濾技術(shù)的問題研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期

5 蘇鋒;;@[J];微電腦世界;2011年08期

6 李志東;;Linux系統(tǒng)下postfix郵件系統(tǒng)反垃圾技術(shù)解析[J];一重技術(shù);2011年03期

7 林偉;;一種基于成詞概率的貝葉斯垃圾郵件過濾方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期

8 任賢;;一種多算法協(xié)作式垃圾郵件過濾模型[J];科技信息;2011年16期

9 黃勝宇;徐汀榮;王宏瑞;;基于有向賦權(quán)圖的垃圾郵件社團(tuán)發(fā)現(xiàn)算法[J];微計(jì)算機(jī)信息;2011年07期

10 徐芳;范文凌;;基于鏈接信息網(wǎng)絡(luò)的垃圾郵件檢測(cè)[J];電腦知識(shí)與技術(shù);2011年26期

相關(guān)會(huì)議論文前10條

1 王琦;;基于貝葉斯決策樹算法的垃圾郵件識(shí)別機(jī)制[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年

2 李軍;何曉寧;黃成哲;齊浩亮;雷國(guó)華;;基于特征貢獻(xiàn)度的垃圾郵件過濾方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

3 李勁;岳昆;杭菲璐;;一種基于自適應(yīng)Markov模型的中文垃圾郵件過濾方法[A];第二十五屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集（一）[C];2008年

4 米淑云;辛陽;羅群;;一種新型垃圾郵件過濾系統(tǒng)的設(shè)計(jì)和研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集（上）[C];2008年

5 劉紅翼;;一種垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會(huì)2005年學(xué)術(shù)年會(huì)論文集[C];2005年

6 薛亞楠;廖聞劍;彭艷兵;;垃圾郵件行為識(shí)別研究[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年

7 陳娟;葛辛;羅向陽;劉粉林;;基于反向查詢技術(shù)和貝葉斯算法的反垃圾郵件方案[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年

8 張彤;;巧用Foxmail過濾垃圾郵件[A];學(xué)報(bào)編輯論叢（第十五集）[C];2007年

9 趙利;廖聞劍;彭艷兵;;基于中文主題的垃圾郵件過濾方法研究[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集（上）[C];2009年

10 楊曉光;李寧;吳昊;;基于P2P信譽(yù)體系垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)——通信與信息技術(shù)會(huì)議論文集（下）[C];2006年

相關(guān)重要報(bào)紙文章前10條

1 戴賢聰;治理垃圾郵件卡在哪兒了？[N];北京日?qǐng)?bào);2003年

2 李國(guó)訓(xùn);垃圾郵件的危機(jī)與商機(jī)[N];中國(guó)電子報(bào);2004年

3 陳慶修;下大力氣制止垃圾郵件泛濫[N];光明日?qǐng)?bào);2005年

4 楊華;垃圾郵件誰來掃[N];經(jīng)濟(jì)參考報(bào);2003年

5 程立龍;斬?cái)嗬]件的黑手[N];經(jīng)濟(jì)日?qǐng)?bào);2003年

6 陳代壽;抵御垃圾郵件[N];中國(guó)計(jì)算機(jī)報(bào);2003年

7 冷云;垃圾郵件肆虐危及E-mail生存[N];中國(guó)計(jì)算機(jī)報(bào);2003年

8 山楓;垃圾郵件人人喊打[N];中國(guó)計(jì)算機(jī)報(bào);2004年

9 本報(bào)記者李剛;曝光垃圾郵件“黑”源頭[N];中國(guó)計(jì)算機(jī)報(bào);2004年

10 米笑;垃圾郵件擋在邊緣[N];中國(guó)計(jì)算機(jī)報(bào);2004年

相關(guān)博士學(xué)位論文前10條

1 陳彬;垃圾郵件的特征選擇及檢測(cè)方法研究[D];華南理工大學(xué);2010年

2 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學(xué);2010年

3 劉衛(wèi)紅;垃圾郵件檢測(cè)與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

4 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年

5 董建設(shè);協(xié)作式垃圾郵件過濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年

6 劉震;垃圾郵件過濾理論和關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2008年

7 王美珍;垃圾郵件行為模式識(shí)別與過濾方法研究[D];華中科技大學(xué);2009年

8 王會(huì)珍;文本內(nèi)容分類和主題追蹤關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

9 鄧蔚;垃圾郵件過濾中的敵手分類問題研究[D];電子科技大學(xué);2011年

10 董大凡;基于度量空間的P2P網(wǎng)絡(luò)相似搜索技術(shù)研究及應(yīng)用[D];南開大學(xué);2010年

相關(guān)碩士學(xué)位論文前10條

1 楊慧娟;基于語義體與模糊聚類的中文垃圾郵件過濾方法研究[D];蘭州理工大學(xué);2011年

2 郭學(xué)敏;基于語義的廣告圖像垃圾郵件過濾技術(shù)研究[D];燕山大學(xué);2010年

3 毛巖;基于行為識(shí)別的垃圾郵件過濾技術(shù)的研究[D];大慶石油學(xué)院;2010年

4 孫吉譚;基于內(nèi)容的垃圾郵件意圖分析方法研究[D];吉林大學(xué);2011年

5 張青;中文垃圾郵件過濾技術(shù)研究[D];武漢理工大學(xué);2011年

6 宋文;圖像垃圾郵件過濾技術(shù)的研究[D];淮北師范大學(xué);2011年

7 王超;基于圖像底層特征的圖像型垃圾郵件識(shí)別研究[D];電子科技大學(xué);2011年

8 楊興華;基于多模態(tài)特征的垃圾郵件過濾技術(shù)研究[D];西安電子科技大學(xué);2011年

9 趙海濤;基于模糊支持向量機(jī)的垃圾郵件過濾技術(shù)研究[D];重慶師范大學(xué);2010年

10 劉菊新;垃圾圖像過濾系統(tǒng)的實(shí)現(xiàn)[D];浙江大學(xué);2010年

，

本文編號(hào)：2123213

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2123213.html

上一篇：數(shù)字影視后期技術(shù)的應(yīng)用及作用
下一篇：視聽語言與廣告策略的創(chuàng)意結(jié)合

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)Winnow算法的中文反垃圾郵件系統(tǒng)的研究與實(shí)現(xiàn)