基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究

發(fā)布時間：2017-10-22 04:20

本文關(guān)鍵詞：基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究

更多相關(guān)文章： 敏感詞匹配 告警 中文分詞 Hadoop

【摘要】：隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)開始呈現(xiàn)爆炸式的增長，越來越多的互聯(lián)網(wǎng)用戶被淹沒在數(shù)據(jù)的海洋中。因此，如何從海量郵件中快速檢測到含有敏感信息的郵件已經(jīng)成為目前亟待解決的問題。郵件敏感詞的檢測與告警是指通過制定敏感詞詞庫，將郵件的內(nèi)容信息與敏感詞詞庫進行匹配，從而找出含有敏感信息的非法郵件，并對其進行告警。但是，傳統(tǒng)的郵件敏感詞檢測與告警技術(shù)在具體應(yīng)用中一般都忽略了對附件文本的檢測，檢測算法也不適合處理超大規(guī)模的數(shù)據(jù)量，，并且其告警規(guī)則也簡單粗略、非法郵件的抓取率低，因此存在很多弊端。本文結(jié)合某公司信息安全審計系統(tǒng)實際項目，研究了郵件敏感詞檢測與告警的相關(guān)技術(shù)。本文從研究背景、研究意義和研究現(xiàn)狀入手，分析了敏感詞檢測與告警的相關(guān)技術(shù)及其現(xiàn)狀，總結(jié)了現(xiàn)有檢測算法與告警技術(shù)的不足。在此基礎(chǔ)上，研究了基于中文分詞的敏感詞檢測算法與基于決策樹制定規(guī)則的告警技術(shù)，從而在一定程度上緩解了郵件敏感詞檢測所面臨的主要挑戰(zhàn)。最后，基于MapReduce、Hive、HBase、R等工具，本文在Hadoop平臺上實現(xiàn)了這些算法，并初步構(gòu)建了一個基于敏感詞檢測與告警技術(shù)的郵件安全監(jiān)測原型系統(tǒng)�？偨Y(jié)起來，本文的主要工作內(nèi)容包含了以下幾個方面： 1)針對郵件附件數(shù)據(jù)量龐大而不被檢測的問題，研究了當前主流的中文分詞方法，將數(shù)據(jù)量龐大的附件內(nèi)容劃分成詞語，再讓這些詞語進行敏感詞匹配，從而降低了對郵件進行敏感詞匹配的算法復(fù)雜度。 2)針對傳統(tǒng)告警規(guī)則簡單粗略、非法郵件抓取率低的問題，采用當前主流的決策樹算法制定規(guī)則，并制定了白名單、黑名單及人工檢查的校驗制度，從而更科學(xué)有效地制定出告警的規(guī)則。 3)針對傳統(tǒng)敏感詞檢測的大數(shù)據(jù)處理以及算法的可擴展性問題，本文將敏感詞檢測算法部署到了Hadoop集群上，讓算法并行化處理，進一步提高系統(tǒng)的可擴展性。將郵件內(nèi)容信息放在HBase中，可以解決大規(guī)模數(shù)據(jù)量的存儲問題。將敏感詞檢測結(jié)果放在Hive中，可以高效地對大規(guī)模數(shù)據(jù)進行分析。 4)在MapReduce、HDFS、HBase、Hive、R等的幫助下，設(shè)計并完成了一個郵件敏感詞檢測與告警的原型系統(tǒng)，為下一步的研究奠定基礎(chǔ)。
【關(guān)鍵詞】：敏感詞匹配 告警 中文分詞 Hadoop
【學(xué)位授予單位】：東華大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP393.098;TP391.1
【目錄】：

摘要4-6
ABSTRACT6-10
第一章緒論10-18
1.1 研究背景和意義10-11
1.2 國內(nèi)外研究現(xiàn)狀11-16
1.2.1 簡單模式匹配11-12
1.2.2 簡單貝葉斯12-13
1.2.3 規(guī)則評分13
1.2.4 黑/白名單13-14
1.2.5 SPF14
1.2.6 行為模式識別14-15
1.2.7 告警15
1.2.8 本文提出的算法15-16
1.3 本文的研究內(nèi)容16-17
1.4 本文的組織結(jié)構(gòu)17
1.5 本章小結(jié)17-18
第二章相關(guān)技術(shù)介紹18-27
2.1 串匹配18-19
2.2 中文分詞19-20
2.3 Hadoop20-22
2.3.1 HDFS20-21
2.3.2 MapReduce21-22
2.4 Hbase22-23
2.5 Hive23-24
2.6 Hadoop項目及其結(jié)構(gòu)24-25
2.7 制定告警規(guī)則的技術(shù)25-26
2.8 本章小結(jié)26-27
第三章敏感詞檢測27-40
3.1 郵件敏感詞檢測27-30
3.1.1 郵件信息的獲取27-28
3.1.2 郵件特征28
3.1.3 郵件敏感詞檢測28-30
3.2 超大規(guī)模郵件的處理30-31
3.3 構(gòu)建敏感詞詞庫樹31-32
3.4 對系統(tǒng)可擴展性的改進32-33
3.5 基于Hadoop的敏感詞檢測算法33-36
3.5.1 算法思想33-34
3.5.2 map階段中文分詞算法描述34-35
3.5.3 reduce階段敏感詞匹配算法描述35-36
3.5.4 算法優(yōu)點36
3.6 實驗與分析36-38
3.6.1 實驗環(huán)境和數(shù)據(jù)37
3.6.2 實驗結(jié)果與分析37-38
3.7 本章小結(jié)38-40
第四章基于決策樹的告警40-48
4.1 告警技術(shù)介紹40-42
4.2 檢測結(jié)果42
4.3 告警規(guī)則42-46
4.3.1 添加衍生字段43
4.3.2 添加郵件分類字段43-44
4.3.3 進行決策樹分類44-45
4.3.4 制定規(guī)則45-46
4.4 黑名單/白名單46-47
4.5 本章小結(jié)47-48
第五章郵件敏感詞檢測與告警系統(tǒng)的設(shè)計與實現(xiàn)48-59
5.1 系統(tǒng)結(jié)構(gòu)48-50
5.1.1 系統(tǒng)整體架構(gòu)48-49
5.1.2 系統(tǒng)詳細結(jié)構(gòu)49-50
5.2 黑/白名單檢測子系統(tǒng)50-51
5.3 敏感詞檢測子系統(tǒng)51-56
5.3.1 郵件信息提取模塊51-52
5.3.2 中文分詞模塊52-55
5.3.3 串匹配模塊55-56
5.4 告警子系統(tǒng)56-58
5.4.1 規(guī)則制定模塊56-57
5.4.2 告警模塊57-58
5.5 本章小結(jié)58-59
第六章總結(jié)與展望59-61
6.1 全文總結(jié)59-60
6.2 展望60-61
參考文獻61-63
攻讀學(xué)位期間的研究成果目錄63-64
致謝64

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 汪振林;;網(wǎng)絡(luò)證據(jù)認定問題研究[J];重慶郵電大學(xué)學(xué)報(社會科學(xué)版);2010年01期

2 吳紹忠;李淑華;;互聯(lián)網(wǎng)絡(luò)輿情預(yù)警機制研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2008年03期

3 羅寧;徐俊剛;郭洪韜;;基于Lucene的中文分詞模塊的設(shè)計和實現(xiàn)[J];電子技術(shù);2012年09期

4 馬建光;姜巍;;大數(shù)據(jù)的概念、特征及其應(yīng)用[J];國防科技;2013年02期

5 張慶揚;柴勝;;使用二級索引的中文分詞詞典[J];計算機工程與應(yīng)用;2009年19期

6 陳志賢;;垃圾郵件過濾技術(shù)研究綜述[J];計算機應(yīng)用研究;2009年05期

7 陳矗;任平紅;禹繼國;馬炳先;;一個完善的基于判定鏈表的DFA最小化算法[J];計算機工程與應(yīng)用;2013年06期

8 賈云剛;;垃圾郵件過濾技術(shù)研究[J];通信與信息技術(shù);2009年02期

9 張志華;;反垃圾郵件行為模式識別技術(shù)的應(yīng)用[J];肇慶學(xué)院學(xué)報;2007年05期

10 李玲;;基于雙詞典機制的中文分詞系統(tǒng)設(shè)計[J];機械工程與自動化;2013年01期

本文編號：1076732

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/1076732.html

上一篇：一種云計算環(huán)境下負載均衡敏感的聚類部署方法研究
下一篇：基于蝙蝠算法的云計算資源分配研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究