天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向海量郵件日志的異常信息發(fā)現(xiàn)與挖掘

發(fā)布時(shí)間:2020-05-05 12:10
【摘要】:電子郵件因?yàn)槠浞奖恪⒖旖、低成本的特點(diǎn)成為了人們生活中和工作中不可或缺的信息傳遞媒介,也因此導(dǎo)致垃圾郵件泛濫成災(zāi)。特別是在高校,這種問(wèn)題尤其嚴(yán)重。杜絕垃圾郵件的傳播,有效地對(duì)郵件系統(tǒng)進(jìn)行垃圾郵件的過(guò)濾,是學(xué)校,乃至企業(yè)網(wǎng)絡(luò)中心十分關(guān)注的核心焦點(diǎn),F(xiàn)如今已存在許多相關(guān)研究,比如常用的貝葉斯、支持向量機(jī)過(guò)濾算法,也獲得了很多成果,但是大部分都是基于郵件內(nèi)容的過(guò)濾算法。在現(xiàn)實(shí)中,往往因?yàn)殡[私問(wèn)題無(wú)法獲取郵件的文本內(nèi)容,并且基于內(nèi)容的過(guò)濾也耗費(fèi)了大量的處理時(shí)間。因此,必須尋求新的方法和算法。本文以某高校的郵件系統(tǒng)為例,提出了一種基于ELK對(duì)郵件日志的信息處理架構(gòu),能夠?qū)崟r(shí)處理大量日志流數(shù)據(jù),在現(xiàn)實(shí)中,高校郵件系統(tǒng)每天產(chǎn)生可達(dá)上億數(shù)量級(jí)的郵件日志,該框架對(duì)上億的吞吐量仍然表現(xiàn)良好。然后利用正則表達(dá)式進(jìn)行日志分析,提取日志中實(shí)驗(yàn)所需的信息,如發(fā)件人、收件人、發(fā)送時(shí)間、接受時(shí)間等元素,并定義了郵件事件的概念將所得元素組合進(jìn)行建模,存入圖數(shù)據(jù)庫(kù)。然后引入用戶基本行為模式單元(簡(jiǎn)稱模式單元)的概念,改進(jìn)了用戶行為模式挖掘算法,提取用戶行為特征,通過(guò)分析快照中的特征,發(fā)現(xiàn)郵件信息的異常。實(shí)驗(yàn)證明,該方案能實(shí)現(xiàn)對(duì)大規(guī)模量數(shù)據(jù)的實(shí)時(shí)處理與建模存儲(chǔ),滿足郵件系統(tǒng)的需求。本文的主要工作在于提供了一個(gè)新的工具組合ELK+Neo4j處理郵件日志,利用ELK實(shí)現(xiàn)郵件日志的實(shí)時(shí)搜索。采用正則表達(dá)式的方法提取郵件日志中零零散散的信息,將零碎的信息組合建模,提出郵件事件的概念,將事件存入圖數(shù)據(jù)庫(kù)Neo4j中。引入模式單元的概念,改進(jìn)了用戶行為模式算法來(lái)檢測(cè)用戶異常信息,發(fā)現(xiàn)垃圾郵件。
【圖文】:

圖數(shù),競(jìng)爭(zhēng)力,圖樣,可視化


重慶郵電大學(xué)碩士學(xué)位論文 第 2 章 背景知識(shí)以及相關(guān)技and Graph、Neo4j 等等,目前各個(gè)企業(yè)選擇最多、最主流的就是 Neo4j,所以本也是選用的 Neo4j 來(lái)作為這次實(shí)驗(yàn)的 Databese。Neo4j 最主要的特點(diǎn)它是一張是有屬性并且可以設(shè)置方向的圖,它不僅僅能夠支持 Ruby、Python、Java、ScalaPHP 等語(yǔ)言,還能夠提供了 Blueprints、Gremlin、Cypher 等查詢語(yǔ)言,最常用是 Cypher。與此同時(shí),它也支持傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的 ACID 事物機(jī)制。作為一款源的 NOSQL,它的底層是用 JAVA、SCALA 寫的,,圖 2.2 為 Neo4j 的可視化數(shù)展示樣例。

讀者,邊圖,庫(kù)底,圖數(shù)


PersonNode1 FriendNode1Name:AlicaAge:21PerName:Will前一條邊Node1和Node2各自的后一條邊圖 2.5 圖數(shù)據(jù)庫(kù)底層存儲(chǔ)關(guān)系實(shí)驗(yàn)對(duì)比:分別利用 Neo4j 與 Mysql 查詢 uid 為 40117 的讀者所看過(guò)的文章 id,查詢結(jié)別如圖 2.6 和圖 2.7 所示:
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP393.098

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張顯;;基于SMTP協(xié)議的嵌入式郵件通知軟件[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2015年11期

2 李祥池;;基于ELK和Spark Streaming的日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電子科學(xué)技術(shù);2015年06期

3 張建中;黃艷飛;熊擁軍;;基于ElasticSearch的數(shù)字圖書館檢索系統(tǒng)[J];計(jì)算機(jī)與現(xiàn)代化;2015年06期

4 姜洋;彭智勇;彭煜瑋;;基于圖數(shù)據(jù)庫(kù)的在線族譜編錄系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2015年01期

5 陳俊杰;黃國(guó)凡;;應(yīng)用Elasticsearch重構(gòu)圖書館站內(nèi)搜索引擎[J];情報(bào)探索;2014年11期

6 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期

7 王余藍(lán);;圖形數(shù)據(jù)庫(kù)NEO4J與關(guān)系據(jù)庫(kù)的比較研究[J];現(xiàn)代電子技術(shù);2012年20期

8 唐濤;;基于搜索引擎日志分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)方法研究[J];情報(bào)雜志;2012年08期

9 王賀封;;時(shí)空數(shù)據(jù)模型及TGIS研究[J];測(cè)繪與空間地理信息;2006年04期

10 周念念,冉蜀陽(yáng),曾劍宇,鐘響;基于人工免疫的反垃圾郵件系統(tǒng)模型[J];計(jì)算機(jī)應(yīng)用;2005年11期

相關(guān)博士學(xué)位論文 前2條

1 張碩;圖數(shù)據(jù)庫(kù)查詢處理技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2010年

2 王美珍;垃圾郵件行為模式識(shí)別與過(guò)濾方法研究[D];華中科技大學(xué);2009年

相關(guān)碩士學(xué)位論文 前2條

1 張翔;基于Java的郵件收發(fā)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2017年

2 陸鵬;基于Neo4j的大數(shù)據(jù)組織檢索研究與應(yīng)用[D];東南大學(xué);2015年



本文編號(hào):2650121

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2650121.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶204ed***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com