基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究
本文關(guān)鍵詞:基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究
更多相關(guān)文章: 敏感詞匹配 告警 中文分詞 Hadoop
【摘要】:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)開始呈現(xiàn)爆炸式的增長,越來越多的互聯(lián)網(wǎng)用戶被淹沒在數(shù)據(jù)的海洋中。因此,如何從海量郵件中快速檢測到含有敏感信息的郵件已經(jīng)成為目前亟待解決的問題。郵件敏感詞的檢測與告警是指通過制定敏感詞詞庫,將郵件的內(nèi)容信息與敏感詞詞庫進行匹配,從而找出含有敏感信息的非法郵件,并對其進行告警。但是,傳統(tǒng)的郵件敏感詞檢測與告警技術(shù)在具體應(yīng)用中一般都忽略了對附件文本的檢測,檢測算法也不適合處理超大規(guī)模的數(shù)據(jù)量,,并且其告警規(guī)則也簡單粗略、非法郵件的抓取率低,因此存在很多弊端。 本文結(jié)合某公司信息安全審計系統(tǒng)實際項目,研究了郵件敏感詞檢測與告警的相關(guān)技術(shù)。本文從研究背景、研究意義和研究現(xiàn)狀入手,分析了敏感詞檢測與告警的相關(guān)技術(shù)及其現(xiàn)狀,總結(jié)了現(xiàn)有檢測算法與告警技術(shù)的不足。在此基礎(chǔ)上,研究了基于中文分詞的敏感詞檢測算法與基于決策樹制定規(guī)則的告警技術(shù),從而在一定程度上緩解了郵件敏感詞檢測所面臨的主要挑戰(zhàn)。最后,基于MapReduce、Hive、HBase、R等工具,本文在Hadoop平臺上實現(xiàn)了這些算法,并初步構(gòu)建了一個基于敏感詞檢測與告警技術(shù)的郵件安全監(jiān)測原型系統(tǒng)?偨Y(jié)起來,本文的主要工作內(nèi)容包含了以下幾個方面: 1)針對郵件附件數(shù)據(jù)量龐大而不被檢測的問題,研究了當前主流的中文分詞方法,將數(shù)據(jù)量龐大的附件內(nèi)容劃分成詞語,再讓這些詞語進行敏感詞匹配,從而降低了對郵件進行敏感詞匹配的算法復(fù)雜度。 2)針對傳統(tǒng)告警規(guī)則簡單粗略、非法郵件抓取率低的問題,采用當前主流的決策樹算法制定規(guī)則,并制定了白名單、黑名單及人工檢查的校驗制度,從而更科學(xué)有效地制定出告警的規(guī)則。 3)針對傳統(tǒng)敏感詞檢測的大數(shù)據(jù)處理以及算法的可擴展性問題,本文將敏感詞檢測算法部署到了Hadoop集群上,讓算法并行化處理,進一步提高系統(tǒng)的可擴展性。將郵件內(nèi)容信息放在HBase中,可以解決大規(guī)模數(shù)據(jù)量的存儲問題。將敏感詞檢測結(jié)果放在Hive中,可以高效地對大規(guī)模數(shù)據(jù)進行分析。 4)在MapReduce、HDFS、HBase、Hive、R等的幫助下,設(shè)計并完成了一個郵件敏感詞檢測與告警的原型系統(tǒng),為下一步的研究奠定基礎(chǔ)。
【關(guān)鍵詞】:敏感詞匹配 告警 中文分詞 Hadoop
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.098;TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-18
- 1.1 研究背景和意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-16
- 1.2.1 簡單模式匹配11-12
- 1.2.2 簡單貝葉斯12-13
- 1.2.3 規(guī)則評分13
- 1.2.4 黑/白名單13-14
- 1.2.5 SPF14
- 1.2.6 行為模式識別14-15
- 1.2.7 告警15
- 1.2.8 本文提出的算法15-16
- 1.3 本文的研究內(nèi)容16-17
- 1.4 本文的組織結(jié)構(gòu)17
- 1.5 本章小結(jié)17-18
- 第二章 相關(guān)技術(shù)介紹18-27
- 2.1 串匹配18-19
- 2.2 中文分詞19-20
- 2.3 Hadoop20-22
- 2.3.1 HDFS20-21
- 2.3.2 MapReduce21-22
- 2.4 Hbase22-23
- 2.5 Hive23-24
- 2.6 Hadoop項目及其結(jié)構(gòu)24-25
- 2.7 制定告警規(guī)則的技術(shù)25-26
- 2.8 本章小結(jié)26-27
- 第三章 敏感詞檢測27-40
- 3.1 郵件敏感詞檢測27-30
- 3.1.1 郵件信息的獲取27-28
- 3.1.2 郵件特征28
- 3.1.3 郵件敏感詞檢測28-30
- 3.2 超大規(guī)模郵件的處理30-31
- 3.3 構(gòu)建敏感詞詞庫樹31-32
- 3.4 對系統(tǒng)可擴展性的改進32-33
- 3.5 基于Hadoop的敏感詞檢測算法33-36
- 3.5.1 算法思想33-34
- 3.5.2 map階段中文分詞算法描述34-35
- 3.5.3 reduce階段敏感詞匹配算法描述35-36
- 3.5.4 算法優(yōu)點36
- 3.6 實驗與分析36-38
- 3.6.1 實驗環(huán)境和數(shù)據(jù)37
- 3.6.2 實驗結(jié)果與分析37-38
- 3.7 本章小結(jié)38-40
- 第四章 基于決策樹的告警40-48
- 4.1 告警技術(shù)介紹40-42
- 4.2 檢測結(jié)果42
- 4.3 告警規(guī)則42-46
- 4.3.1 添加衍生字段43
- 4.3.2 添加郵件分類字段43-44
- 4.3.3 進行決策樹分類44-45
- 4.3.4 制定規(guī)則45-46
- 4.4 黑名單/白名單46-47
- 4.5 本章小結(jié)47-48
- 第五章 郵件敏感詞檢測與告警系統(tǒng)的設(shè)計與實現(xiàn)48-59
- 5.1 系統(tǒng)結(jié)構(gòu)48-50
- 5.1.1 系統(tǒng)整體架構(gòu)48-49
- 5.1.2 系統(tǒng)詳細結(jié)構(gòu)49-50
- 5.2 黑/白名單檢測子系統(tǒng)50-51
- 5.3 敏感詞檢測子系統(tǒng)51-56
- 5.3.1 郵件信息提取模塊51-52
- 5.3.2 中文分詞模塊52-55
- 5.3.3 串匹配模塊55-56
- 5.4 告警子系統(tǒng)56-58
- 5.4.1 規(guī)則制定模塊56-57
- 5.4.2 告警模塊57-58
- 5.5 本章小結(jié)58-59
- 第六章 總結(jié)與展望59-61
- 6.1 全文總結(jié)59-60
- 6.2 展望60-61
- 參考文獻61-63
- 攻讀學(xué)位期間的研究成果目錄63-64
- 致謝64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 汪振林;;網(wǎng)絡(luò)證據(jù)認定問題研究[J];重慶郵電大學(xué)學(xué)報(社會科學(xué)版);2010年01期
2 吳紹忠;李淑華;;互聯(lián)網(wǎng)絡(luò)輿情預(yù)警機制研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2008年03期
3 羅寧;徐俊剛;郭洪韜;;基于Lucene的中文分詞模塊的設(shè)計和實現(xiàn)[J];電子技術(shù);2012年09期
4 馬建光;姜巍;;大數(shù)據(jù)的概念、特征及其應(yīng)用[J];國防科技;2013年02期
5 張慶揚;柴勝;;使用二級索引的中文分詞詞典[J];計算機工程與應(yīng)用;2009年19期
6 陳志賢;;垃圾郵件過濾技術(shù)研究綜述[J];計算機應(yīng)用研究;2009年05期
7 陳矗;任平紅;禹繼國;馬炳先;;一個完善的基于判定鏈表的DFA最小化算法[J];計算機工程與應(yīng)用;2013年06期
8 賈云剛;;垃圾郵件過濾技術(shù)研究[J];通信與信息技術(shù);2009年02期
9 張志華;;反垃圾郵件行為模式識別技術(shù)的應(yīng)用[J];肇慶學(xué)院學(xué)報;2007年05期
10 李玲;;基于雙詞典機制的中文分詞系統(tǒng)設(shè)計[J];機械工程與自動化;2013年01期
本文編號:1076732
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1076732.html