天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于貝葉斯分類的郵件網(wǎng)絡(luò)協(xié)同過濾算法

發(fā)布時間:2018-03-20 20:33

  本文選題:貝葉斯分類 切入點:郵件過濾 出處:《哈爾濱工程大學(xué)》2014年碩士論文 論文類型:學(xué)位論文


【摘要】:目前網(wǎng)絡(luò)中垃圾郵件泛濫,擠占大量網(wǎng)絡(luò)帶寬,更讓用戶煩惱的是,刪除掉這些垃圾郵件會花費他們大量時間。目前,國內(nèi)學(xué)者針對中文垃圾郵件的過濾研究也在如火如茶的展開。隨著文本分類技術(shù)的發(fā)展,基于內(nèi)容的垃圾郵件過濾成為一種有效的垃圾郵件過濾方法,而其中樸素貝葉斯分類算法因其簡單高效收到了廣泛青睞。但是該算法目前主要存在兩大問題,嚴重制約了其分類的準確率。首先樸素貝葉斯過濾算法沒有考慮用戶之間的聯(lián)系,而僅僅考慮了用戶自己;其次,樸素貝葉斯過濾算法只有在充分訓(xùn)練的基礎(chǔ)上才能表現(xiàn)出良好的性能,而充分訓(xùn)練就是需要用戶長期的參與并且頻繁的反饋。為了緩解以上矛盾,從而更好地提高垃圾郵件過濾的準確率,本文首先從整體的角度去分析垃圾郵件的傳播特性,借助學(xué)生郵件網(wǎng)絡(luò)集合,揭示出郵件網(wǎng)絡(luò)的小世界特性;其次,構(gòu)建學(xué)生郵件交互有向圖,基于用戶節(jié)點間的交互強度,定義交互強度矩陣W,進而根據(jù)交互強度矩陣W提出了一種新的計算用戶之間交互強度的方法,本文中稱為節(jié)點交互概率,并且區(qū)分對待郵件的收和發(fā);最后基于節(jié)點交互概率提出協(xié)同過濾算法來進行垃圾郵件過濾。交互強度參數(shù)α的值是根據(jù)用戶自己的需求去設(shè)置的,通過對α進行不同取值,用戶可以決定是否需要依靠他用戶的協(xié)同推薦來進行垃圾郵件的過濾,從而也解決了樸素貝葉斯過濾算法需要大量訓(xùn)練集的問題。實驗結(jié)果表明,同采用樸素貝葉斯算法的單用戶過濾方法相比,協(xié)同過濾算法在召回率R、正確率P以及精確率Auc三個評價指標方面均有提高,并且方法簡單易行。
[Abstract]:At present, spam is rampant in the network, which takes up a lot of network bandwidth. What worries users more is that deleting these spam will take them a lot of time. With the development of text classification technology, content-based spam filtering has become an effective spam filtering method. Among them, naive Bayesian classification algorithm is popular for its simplicity and efficiency. However, there are two main problems in this algorithm. First, naive Bayesian filtering algorithm does not consider the relationship between users, but only considers the users themselves. The naive Bayesian filtering algorithm can only show good performance on the basis of sufficient training, which requires the long-term participation of users and frequent feedback. In order to improve the accuracy of spam filtering, this paper first analyzes the characteristics of spam transmission from the overall point of view, with the help of student mail network set, reveals the small world characteristics of mail network; secondly, Based on the interaction intensity of user nodes, the interaction intensity matrix W is defined, and a new method to calculate the interaction intensity between users is proposed according to the interaction intensity matrix W. This paper is called node interaction probability, and distinguishes between receiving and sending messages. Finally, a collaborative filtering algorithm based on node interaction probability is proposed to filter spam. The value of interaction intensity parameter 偽 is set according to the user's own requirements. By taking different values of 偽, the user can decide whether or not to rely on the collaborative recommendation of other users for spam filtering, thus solving the problem that naive Bayesian filtering algorithm requires a large number of training sets. The experimental results show that, Compared with the single user filtering method using naive Bayes algorithm, the cooperative filtering algorithm improves the recall rate R, the correct rate P and the accuracy rate Auc, and the method is simple and feasible.
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.098

【參考文獻】

相關(guān)期刊論文 前10條

1 葛銳;;漢語分詞技術(shù)初探[J];軟件;2013年03期

2 楊穎濤;王躍鋼;鄧衛(wèi)強;徐洪濤;;基于共軛先驗分布的貝葉斯網(wǎng)絡(luò)分類模型[J];控制與決策;2012年09期

3 蔣建洪;趙嵩正;羅玫;;詞典與統(tǒng)計方法結(jié)合的中文分詞模型研究及應(yīng)用[J];計算機工程與設(shè)計;2012年01期

4 劉伍穎;王挺;;集成學(xué)習(xí)和主動學(xué)習(xí)相結(jié)合的個性化垃圾郵件過濾[J];計算機工程與科學(xué);2011年09期

5 向昌盛;周子英;;支持向量分類機的參數(shù)選擇方法研究[J];計算機技術(shù)與發(fā)展;2010年09期

6 衣治安;毛巖;;垃圾郵件過濾技術(shù)概述[J];長江大學(xué)學(xué)報(自然科學(xué)版)理工卷;2010年01期

7 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

8 羅倩;秦玉平;王春立;;反垃圾郵件技術(shù)綜述[J];渤海大學(xué)學(xué)報(自然科學(xué)版);2008年04期

9 趙治國;譚敏生;丁琳;;垃圾郵件行為識別技術(shù)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2007年11期

10 羅浩;方濱興;唐劍琪;;垃圾郵件問題及其處理方法[J];電信科學(xué);2006年02期

相關(guān)碩士學(xué)位論文 前10條

1 劉冰凌;基于正向最大匹配算法的優(yōu)化算法ImpFMMseg的實現(xiàn)[D];中南民族大學(xué);2010年

2 孫琳程;基于主題相關(guān)領(lǐng)域搜索引擎的研究[D];天津師范大學(xué);2010年

3 林偉藝;基于SpamAssassin & Milter的反垃圾郵件系統(tǒng)的研究與實現(xiàn)[D];廈門大學(xué);2009年

4 杜吉梁;中文搜索引擎的關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2008年

5 賀莉娜;視頻語義特征提取的研究[D];北京交通大學(xué);2008年

6 黃均樂;基于lucene的圖像搜索[D];中南民族大學(xué);2008年

7 李建磊;基于貝葉斯網(wǎng)絡(luò)的文語轉(zhuǎn)換系統(tǒng)文本分析研究[D];山東師范大學(xué);2008年

8 黃志剛;基于貝葉斯的中文垃圾郵件過濾系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2007年

9 杜長海;模糊聚類及其在中文文本聚類中的應(yīng)用研究[D];南京師范大學(xué);2006年

10 何峰;基于文本分類的人才自動推薦系統(tǒng)[D];蘇州大學(xué);2006年



本文編號:1640689

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1640689.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9701f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com