天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究

發(fā)布時間:2017-10-22 04:20

  本文關(guān)鍵詞:基于Hadoop的郵件敏感詞檢測與告警技術(shù)研究


  更多相關(guān)文章: 敏感詞匹配 告警 中文分詞 Hadoop


【摘要】:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)開始呈現(xiàn)爆炸式的增長,越來越多的互聯(lián)網(wǎng)用戶被淹沒在數(shù)據(jù)的海洋中。因此,如何從海量郵件中快速檢測到含有敏感信息的郵件已經(jīng)成為目前亟待解決的問題。郵件敏感詞的檢測與告警是指通過制定敏感詞詞庫,將郵件的內(nèi)容信息與敏感詞詞庫進行匹配,從而找出含有敏感信息的非法郵件,并對其進行告警。但是,傳統(tǒng)的郵件敏感詞檢測與告警技術(shù)在具體應(yīng)用中一般都忽略了對附件文本的檢測,檢測算法也不適合處理超大規(guī)模的數(shù)據(jù)量,,并且其告警規(guī)則也簡單粗略、非法郵件的抓取率低,因此存在很多弊端。 本文結(jié)合某公司信息安全審計系統(tǒng)實際項目,研究了郵件敏感詞檢測與告警的相關(guān)技術(shù)。本文從研究背景、研究意義和研究現(xiàn)狀入手,分析了敏感詞檢測與告警的相關(guān)技術(shù)及其現(xiàn)狀,總結(jié)了現(xiàn)有檢測算法與告警技術(shù)的不足。在此基礎(chǔ)上,研究了基于中文分詞的敏感詞檢測算法與基于決策樹制定規(guī)則的告警技術(shù),從而在一定程度上緩解了郵件敏感詞檢測所面臨的主要挑戰(zhàn)。最后,基于MapReduce、Hive、HBase、R等工具,本文在Hadoop平臺上實現(xiàn)了這些算法,并初步構(gòu)建了一個基于敏感詞檢測與告警技術(shù)的郵件安全監(jiān)測原型系統(tǒng)?偨Y(jié)起來,本文的主要工作內(nèi)容包含了以下幾個方面: 1)針對郵件附件數(shù)據(jù)量龐大而不被檢測的問題,研究了當前主流的中文分詞方法,將數(shù)據(jù)量龐大的附件內(nèi)容劃分成詞語,再讓這些詞語進行敏感詞匹配,從而降低了對郵件進行敏感詞匹配的算法復(fù)雜度。 2)針對傳統(tǒng)告警規(guī)則簡單粗略、非法郵件抓取率低的問題,采用當前主流的決策樹算法制定規(guī)則,并制定了白名單、黑名單及人工檢查的校驗制度,從而更科學(xué)有效地制定出告警的規(guī)則。 3)針對傳統(tǒng)敏感詞檢測的大數(shù)據(jù)處理以及算法的可擴展性問題,本文將敏感詞檢測算法部署到了Hadoop集群上,讓算法并行化處理,進一步提高系統(tǒng)的可擴展性。將郵件內(nèi)容信息放在HBase中,可以解決大規(guī)模數(shù)據(jù)量的存儲問題。將敏感詞檢測結(jié)果放在Hive中,可以高效地對大規(guī)模數(shù)據(jù)進行分析。 4)在MapReduce、HDFS、HBase、Hive、R等的幫助下,設(shè)計并完成了一個郵件敏感詞檢測與告警的原型系統(tǒng),為下一步的研究奠定基礎(chǔ)。
【關(guān)鍵詞】:敏感詞匹配 告警 中文分詞 Hadoop
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.098;TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 緒論10-18
  • 1.1 研究背景和意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-16
  • 1.2.1 簡單模式匹配11-12
  • 1.2.2 簡單貝葉斯12-13
  • 1.2.3 規(guī)則評分13
  • 1.2.4 黑/白名單13-14
  • 1.2.5 SPF14
  • 1.2.6 行為模式識別14-15
  • 1.2.7 告警15
  • 1.2.8 本文提出的算法15-16
  • 1.3 本文的研究內(nèi)容16-17
  • 1.4 本文的組織結(jié)構(gòu)17
  • 1.5 本章小結(jié)17-18
  • 第二章 相關(guān)技術(shù)介紹18-27
  • 2.1 串匹配18-19
  • 2.2 中文分詞19-20
  • 2.3 Hadoop20-22
  • 2.3.1 HDFS20-21
  • 2.3.2 MapReduce21-22
  • 2.4 Hbase22-23
  • 2.5 Hive23-24
  • 2.6 Hadoop項目及其結(jié)構(gòu)24-25
  • 2.7 制定告警規(guī)則的技術(shù)25-26
  • 2.8 本章小結(jié)26-27
  • 第三章 敏感詞檢測27-40
  • 3.1 郵件敏感詞檢測27-30
  • 3.1.1 郵件信息的獲取27-28
  • 3.1.2 郵件特征28
  • 3.1.3 郵件敏感詞檢測28-30
  • 3.2 超大規(guī)模郵件的處理30-31
  • 3.3 構(gòu)建敏感詞詞庫樹31-32
  • 3.4 對系統(tǒng)可擴展性的改進32-33
  • 3.5 基于Hadoop的敏感詞檢測算法33-36
  • 3.5.1 算法思想33-34
  • 3.5.2 map階段中文分詞算法描述34-35
  • 3.5.3 reduce階段敏感詞匹配算法描述35-36
  • 3.5.4 算法優(yōu)點36
  • 3.6 實驗與分析36-38
  • 3.6.1 實驗環(huán)境和數(shù)據(jù)37
  • 3.6.2 實驗結(jié)果與分析37-38
  • 3.7 本章小結(jié)38-40
  • 第四章 基于決策樹的告警40-48
  • 4.1 告警技術(shù)介紹40-42
  • 4.2 檢測結(jié)果42
  • 4.3 告警規(guī)則42-46
  • 4.3.1 添加衍生字段43
  • 4.3.2 添加郵件分類字段43-44
  • 4.3.3 進行決策樹分類44-45
  • 4.3.4 制定規(guī)則45-46
  • 4.4 黑名單/白名單46-47
  • 4.5 本章小結(jié)47-48
  • 第五章 郵件敏感詞檢測與告警系統(tǒng)的設(shè)計與實現(xiàn)48-59
  • 5.1 系統(tǒng)結(jié)構(gòu)48-50
  • 5.1.1 系統(tǒng)整體架構(gòu)48-49
  • 5.1.2 系統(tǒng)詳細結(jié)構(gòu)49-50
  • 5.2 黑/白名單檢測子系統(tǒng)50-51
  • 5.3 敏感詞檢測子系統(tǒng)51-56
  • 5.3.1 郵件信息提取模塊51-52
  • 5.3.2 中文分詞模塊52-55
  • 5.3.3 串匹配模塊55-56
  • 5.4 告警子系統(tǒng)56-58
  • 5.4.1 規(guī)則制定模塊56-57
  • 5.4.2 告警模塊57-58
  • 5.5 本章小結(jié)58-59
  • 第六章 總結(jié)與展望59-61
  • 6.1 全文總結(jié)59-60
  • 6.2 展望60-61
  • 參考文獻61-63
  • 攻讀學(xué)位期間的研究成果目錄63-64
  • 致謝64

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 汪振林;;網(wǎng)絡(luò)證據(jù)認定問題研究[J];重慶郵電大學(xué)學(xué)報(社會科學(xué)版);2010年01期

2 吳紹忠;李淑華;;互聯(lián)網(wǎng)絡(luò)輿情預(yù)警機制研究[J];中國人民公安大學(xué)學(xué)報(自然科學(xué)版);2008年03期

3 羅寧;徐俊剛;郭洪韜;;基于Lucene的中文分詞模塊的設(shè)計和實現(xiàn)[J];電子技術(shù);2012年09期

4 馬建光;姜巍;;大數(shù)據(jù)的概念、特征及其應(yīng)用[J];國防科技;2013年02期

5 張慶揚;柴勝;;使用二級索引的中文分詞詞典[J];計算機工程與應(yīng)用;2009年19期

6 陳志賢;;垃圾郵件過濾技術(shù)研究綜述[J];計算機應(yīng)用研究;2009年05期

7 陳矗;任平紅;禹繼國;馬炳先;;一個完善的基于判定鏈表的DFA最小化算法[J];計算機工程與應(yīng)用;2013年06期

8 賈云剛;;垃圾郵件過濾技術(shù)研究[J];通信與信息技術(shù);2009年02期

9 張志華;;反垃圾郵件行為模式識別技術(shù)的應(yīng)用[J];肇慶學(xué)院學(xué)報;2007年05期

10 李玲;;基于雙詞典機制的中文分詞系統(tǒng)設(shè)計[J];機械工程與自動化;2013年01期



本文編號:1076732

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1076732.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ae056***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com