基于改進(jìn)Winnow算法的中文反垃圾郵件系統(tǒng)的研究與實(shí)現(xiàn)
[Abstract]:With the wide application of Internet, email has become an important way for people to communicate with each other in daily life. However, spam, as a carrier of commercial advertisements, virus programs or sensitive content, has posed a threat to the security of the system and brought inconvenience to people's lives. Anti-spam problem has become a global issue of great practical significance. In this paper, the technology of spam content filtering is deeply studied, and a Chinese anti-spam filtering engine based on automatic classification technology is designed and implemented according to the characteristics of Chinese spam. The engine is divided into four parts: preprocessing, training, classification and feedback. In the aspect of preprocessing, this paper studies the sub-modules of mail decoding, Chinese word segmentation, feature extraction and vector representation of mail. For Chinese word segmentation, the engine adopts ICTCLAS-based Chinese lexical analysis system of Chinese Academy of Sciences, and uses mutual information value method for feature extraction. Training and classification are the focus of this paper. Firstly, the exponential form and the factor form of the basic winnow algorithm are unified, and the exponential form of the balanced winnow algorithm is deduced. Secondly, in view of the jitter of the basic winnow algorithm, This paper presents an improved winnow anti-spam filtering algorithm, Review Winnow. this algorithm not only effectively reduces the jitter phenomenon, but also the loss function selected can describe the inner loss of classification error mail more truthfully. By removing the outliers in the mail sample set and using the improved boosting algorithm, the performance of winnow classifier is improved, and the ADOR-winnow mail classifier is constructed. Finally, experiments show that the balanced R-Winnow algorithm can effectively reduce the jitter phenomenon and greatly improve the performance of ADOR-Winnow mail classifier. In terms of feedback, a grid-based feedback learning model is proposed. Through user classification, the feedback level is extended from general two levels to system level, domain level and user level. This improvement is not only conducive to cooperative filtering among groups and centralized feedback learning, but also helps to improve the filtering performance of mail classifiers.
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP393.098
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李智信;;善用10分鐘郵箱 跟垃圾郵件說再見[J];電腦愛好者;2011年10期
2 ;惡意軟件空前激增而垃圾郵件大幅減少[J];微電腦世界;2011年07期
3 ;查看信頭 找到垃圾郵件真正發(fā)件人[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年02期
4 金彩琴;裘國(guó)永;;對(duì)垃圾郵件過濾技術(shù)的問題研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期
5 蘇鋒;;@[J];微電腦世界;2011年08期
6 李志東;;Linux系統(tǒng)下postfix郵件系統(tǒng)反垃圾技術(shù)解析[J];一重技術(shù);2011年03期
7 林偉;;一種基于成詞概率的貝葉斯垃圾郵件過濾方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年09期
8 任賢;;一種多算法協(xié)作式垃圾郵件過濾模型[J];科技信息;2011年16期
9 黃勝宇;徐汀榮;王宏瑞;;基于有向賦權(quán)圖的垃圾郵件社團(tuán)發(fā)現(xiàn)算法[J];微計(jì)算機(jī)信息;2011年07期
10 徐芳;范文凌;;基于鏈接信息網(wǎng)絡(luò)的垃圾郵件檢測(cè)[J];電腦知識(shí)與技術(shù);2011年26期
相關(guān)會(huì)議論文 前10條
1 王琦;;基于貝葉斯決策樹算法的垃圾郵件識(shí)別機(jī)制[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年
2 李軍;何曉寧;黃成哲;齊浩亮;雷國(guó)華;;基于特征貢獻(xiàn)度的垃圾郵件過濾方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 李勁;岳昆;杭菲璐;;一種基于自適應(yīng)Markov模型的中文垃圾郵件過濾方法[A];第二十五屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(一)[C];2008年
4 米淑云;辛陽;羅群;;一種新型垃圾郵件過濾系統(tǒng)的設(shè)計(jì)和研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
5 劉紅翼;;一種垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會(huì)2005年學(xué)術(shù)年會(huì)論文集[C];2005年
6 薛亞楠;廖聞劍;彭艷兵;;垃圾郵件行為識(shí)別研究[A];中國(guó)電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年
7 陳娟;葛辛;羅向陽;劉粉林;;基于反向查詢技術(shù)和貝葉斯算法的反垃圾郵件方案[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
8 張彤;;巧用Foxmail過濾垃圾郵件[A];學(xué)報(bào)編輯論叢(第十五集)[C];2007年
9 趙利;廖聞劍;彭艷兵;;基于中文主題的垃圾郵件過濾方法研究[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年
10 楊曉光;李寧;吳昊;;基于P2P信譽(yù)體系垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)——通信與信息技術(shù)會(huì)議論文集(下)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 戴賢聰;治理垃圾郵件卡在哪兒了?[N];北京日?qǐng)?bào);2003年
2 李國(guó)訓(xùn);垃圾郵件的危機(jī)與商機(jī)[N];中國(guó)電子報(bào);2004年
3 陳慶修;下大力氣制止垃圾郵件泛濫[N];光明日?qǐng)?bào);2005年
4 楊華;垃圾郵件誰來掃[N];經(jīng)濟(jì)參考報(bào);2003年
5 程立龍;斬?cái)嗬]件的黑手[N];經(jīng)濟(jì)日?qǐng)?bào);2003年
6 陳代壽;抵御垃圾郵件[N];中國(guó)計(jì)算機(jī)報(bào);2003年
7 冷云;垃圾郵件肆虐 危及E-mail生存[N];中國(guó)計(jì)算機(jī)報(bào);2003年
8 山楓;垃圾郵件人人喊打[N];中國(guó)計(jì)算機(jī)報(bào);2004年
9 本報(bào)記者 李剛;曝光垃圾郵件“黑”源頭[N];中國(guó)計(jì)算機(jī)報(bào);2004年
10 米笑;垃圾郵件擋在邊緣[N];中國(guó)計(jì)算機(jī)報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 陳彬;垃圾郵件的特征選擇及檢測(cè)方法研究[D];華南理工大學(xué);2010年
2 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學(xué);2010年
3 劉衛(wèi)紅;垃圾郵件檢測(cè)與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
4 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年
5 董建設(shè);協(xié)作式垃圾郵件過濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年
6 劉震;垃圾郵件過濾理論和關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2008年
7 王美珍;垃圾郵件行為模式識(shí)別與過濾方法研究[D];華中科技大學(xué);2009年
8 王會(huì)珍;文本內(nèi)容分類和主題追蹤關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
9 鄧蔚;垃圾郵件過濾中的敵手分類問題研究[D];電子科技大學(xué);2011年
10 董大凡;基于度量空間的P2P網(wǎng)絡(luò)相似搜索技術(shù)研究及應(yīng)用[D];南開大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 楊慧娟;基于語義體與模糊聚類的中文垃圾郵件過濾方法研究[D];蘭州理工大學(xué);2011年
2 郭學(xué)敏;基于語義的廣告圖像垃圾郵件過濾技術(shù)研究[D];燕山大學(xué);2010年
3 毛巖;基于行為識(shí)別的垃圾郵件過濾技術(shù)的研究[D];大慶石油學(xué)院;2010年
4 孫吉譚;基于內(nèi)容的垃圾郵件意圖分析方法研究[D];吉林大學(xué);2011年
5 張青;中文垃圾郵件過濾技術(shù)研究[D];武漢理工大學(xué);2011年
6 宋文;圖像垃圾郵件過濾技術(shù)的研究[D];淮北師范大學(xué);2011年
7 王超;基于圖像底層特征的圖像型垃圾郵件識(shí)別研究[D];電子科技大學(xué);2011年
8 楊興華;基于多模態(tài)特征的垃圾郵件過濾技術(shù)研究[D];西安電子科技大學(xué);2011年
9 趙海濤;基于模糊支持向量機(jī)的垃圾郵件過濾技術(shù)研究[D];重慶師范大學(xué);2010年
10 劉菊新;垃圾圖像過濾系統(tǒng)的實(shí)現(xiàn)[D];浙江大學(xué);2010年
,本文編號(hào):2123213
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2123213.html