基于Mahout分類器的異常流量檢測技術的研究
本文選題:大數(shù)據(jù)分布式 + 網(wǎng)絡異常流量; 參考:《天津理工大學》2017年碩士論文
【摘要】:近年來,互聯(lián)網(wǎng)帶給人們豐富的共享信息資源,方便了人們的工作與生活,人們越來越離不開網(wǎng)絡,網(wǎng)絡在現(xiàn)代人們的生活中扮演者越來越重要的角色。另一方面,很多人針對網(wǎng)絡進行惡意攻擊,從中獲取利益。對于大部分普通網(wǎng)民來說,網(wǎng)絡環(huán)境日益復雜,人們不僅需要加強自身保護意識,更加需要網(wǎng)絡安全人員對網(wǎng)絡流量進行維護與監(jiān)管,檢測異常網(wǎng)絡流量,從而保證網(wǎng)絡使用者的上網(wǎng)安全。因此,網(wǎng)絡異常流量檢測技術具有重大意義,也是文本的主要研究課題。本文針對網(wǎng)絡中數(shù)據(jù)源多維化的特點,將數(shù)據(jù)源多維數(shù)據(jù)的信息熵投影到不同的分類支撐向量,由于機器學習容易產生過度訓練或訓練不足這些問題,本文對比EWMA、Entropy、K-means、GMM、SVDD等異常流量檢測方法,選擇支持多維數(shù)據(jù)統(tǒng)計的非監(jiān)督式SVDD分類方法,訓練可采用的數(shù)據(jù)集。針對訓練分類器成本消耗大與分類檢測效果佳的沖突問題,本文選擇一種異常實時響應訓練的學習模式,只在有異常檢測點加入時,才進行重新訓練。不僅如此,對于訓練數(shù)據(jù)集中異常點的選取,采用貝葉斯網(wǎng)絡模型推理預測下一節(jié)點的異常概率,隨即判斷是否將異常點加入到訓練集中繼續(xù)訓練,以此整體提高異常流量檢測的效率與精度。本文主要針對的問題以及研究的創(chuàng)新點如下:(1)針對研究過程中,異常數(shù)據(jù)集來源困難、數(shù)據(jù)分析過程復雜的客觀條件,本文選擇大數(shù)據(jù)分布式平臺環(huán)境進行數(shù)據(jù)的處理分析。為分析分類器異常檢測能力的表現(xiàn)效果,本文對比EWMA、Entropy、K-means、GMM、SVDD等主流的異常檢測方法,最終實驗選定在多維信息熵構建支撐向量基礎上,由SVDD方法對異常流量進行檢測,能夠有優(yōu)于其他幾種方法的檢測效果。(2)針對分類器數(shù)據(jù)量、訓練地與實際應用地點的不同,原始的訓練集檢測效果不能很好地檢測新數(shù)據(jù),且當前重新訓練所需要的資源消耗量大等等這些問題,本文采用異常實時響應訓練方法。只有在加入異常點時,才進行訓練集的重訓練,將檢測窗口平行移動至異常點,剔除最開始的檢測點,增加當前適用的檢測點。這種方法既能提高訓練集的適應性與準確率,還能將物質消耗,資源消耗降低。(3)針對檢測統(tǒng)計量時間相關性、異常樣本對精度影響的問題,本文采用貝葉斯網(wǎng)絡模型推理預測該異常節(jié)點可能會出現(xiàn)異常的概率,對檢測精度進行優(yōu)化,重新組織加入訓練集的異常點。針對異常檢測模型檢測出的異常,提出應急響應方法,不僅能夠檢測異常,更加能夠處理異常。
[Abstract]:In recent years, the Internet has brought people a rich share of information resources, convenient for people's work and life, people are becoming more and more inseparable from the network, the network plays a more and more important role in the life of modern people. On the other hand, a lot of people have malicious attacks on the network to gain benefits. For most ordinary netizens, The network environment is increasingly complex, people not only need to strengthen their own awareness of protection, more need network security personnel to maintain and supervise network traffic, detect abnormal network traffic, so as to ensure the network users' Internet security. Therefore, the network anomaly traffic detection technology is of great significance and is also the main research topic of the text. In view of the multi-dimensional characteristics of data sources in the network, the information entropy of data source multidimensional data is projected to different classification support vectors. Because machine learning is easy to produce excessive training or lack of training, this paper compares the abnormal flow detection methods such as EWMA, Entropy, K-means, GMM, SVDD and so on, and chooses the non supervision of multi-dimensional data statistics. SVDD classification method is used to train data set which can be used. Aiming at the conflict between the high cost of training classifier and the better effect of classification detection, this paper selects a learning model of abnormal real-time response training. It is only retrained when the exception detection point is added, not only for the selection of abnormal points in the training data set, but also for the selection of abnormal points in the training data set. The Bayesian network model is used to predict the abnormal probability of the next node, and then to judge whether the anomaly points are added to the training set to continue training to improve the efficiency and accuracy of the anomaly traffic detection. The main problems and the innovation points in this paper are as follows: (1) in the process of research, the number of abnormal data sets is difficult and the number of data is difficult. According to the analysis of the complex objective conditions, this paper selects the large data distributed platform environment for data processing and analysis. In order to analyze the performance effect of the classifier anomaly detection ability, this paper compares the EWMA, Entropy, K-means, GMM, SVDD and other mainstream anomaly detection methods. The final test is selected on the basis of the multidimensional information entropy construction support vector, and the S is based on the support vector. The VDD method is better than the other several methods to detect the abnormal traffic. (2) in view of the classifier's data quantity, the training ground is different from the actual application location, the original training set detection effect can not detect the new data well, and the current retraining needs a large amount of resource consumption and so on. The training method of abnormal real-time response. Only when the exception point is added, the training set is carried out, the detection window is moved parallel to the exception point, and the first detection point is eliminated and the current detection point is increased. This method can not only improve the adaptability and accuracy of the training set, but also reduce the consumption of material and the consumption of resources. (3) (3) In this paper, we use Bayesian network model to predict the abnormal probability of the anomaly node, optimize the detection precision and reorganize the exception points of the training set. The emergency response method is proposed for the anomaly detected by the anomaly detection model. Only to be able to detect exceptions and to be able to handle exceptions more.
【學位授予單位】:天津理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.06
【相似文獻】
相關期刊論文 前10條
1 郭紅玲;程顯毅;;多分類器選擇集成方法[J];計算機工程與應用;2009年13期
2 呂岳,施鵬飛,趙宇明;多分類器組合的投票表決規(guī)則[J];上海交通大學學報;2000年05期
3 韓宏;楊靜宇;;多分類器組合及其應用[J];計算機科學;2000年01期
4 陳剛,戚飛虎;多分類器結合的人臉識別[J];上海交通大學學報;2001年02期
5 韓宏,楊靜宇,婁震;基于層次的分類器組合[J];南京理工大學學報(自然科學版);2002年01期
6 趙誼虹,程國華,史習智;多分類器融合中一種新的加權算法[J];上海交通大學學報;2002年06期
7 王正群,葉暉,孫興華,楊靜宇;模糊多分類器組合[J];小型微型計算機系統(tǒng);2003年01期
8 楊利英,覃征,王向華;多分類器融合實現(xiàn)機型識別[J];計算機工程與應用;2004年15期
9 楊利英,覃征,王衛(wèi)紅;多分類器融合系統(tǒng)設計與應用[J];計算機工程;2005年05期
10 陳湘;;1-范數(shù)軟間隔分類器的風險[J];湖北大學學報(自然科學版);2006年02期
相關會議論文 前10條
1 王占一;徐蔚然;劉東鑫;郭軍;;一種基于兩級分類器的垃圾短信過濾方法[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 翟靜;李海宏;唐常杰;陳敏敏;李智;;可驗證對象集分類器的再訓練演進[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
3 陳繼航;劉家鋒;趙巍;唐降龍;;聯(lián)機手寫識別筆段特征分類器的學習方法[A];黑龍江省計算機學會2009年學術交流年會論文集[C];2010年
4 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
5 彭濤;左萬利;赫楓齡;;基于鏈接上下文的分類器主題爬行技術(英文)[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
6 王嵐;陳珂;遲惠生;;基于多特征組合多分類器的方法用于“與文本無關”的說話人辨認[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
7 謝秋玲;;應用于心電圖分類的KNN-SVM分類器研究[A];2006中國控制與決策學術年會論文集[C];2006年
8 胡瓊;汪榮貴;胡韋偉;孫見青;;基于級聯(lián)分類器的快速人臉檢測方法[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
9 李蘭春;王雙成;杜瑞杰;;認知結構評估的動態(tài)貝葉斯網(wǎng)絡分類器方法[A];2011年中國智能自動化學術會議論文集(第一分冊)[C];2011年
10 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學會第七屆學術交流會論文集(上卷)[C];2004年
相關重要報紙文章 前1條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
相關博士學位論文 前10條
1 張非;對抗逃避攻擊的防守策略研究[D];華南理工大學;2015年
2 張文博;多類別智能分類器方法研究[D];西安電子科技大學;2014年
3 許勁松;智能交通中目標檢測與分類關鍵技術研究[D];南京理工大學;2014年
4 趙作林;基于圖像分析的北京地區(qū)楊樹種類識別研究[D];北京林業(yè)大學;2015年
5 任亞峰;基于標注和未標注數(shù)椐的虛假評論識別研究[D];武漢大學;2015年
6 曹鵬;不均衡數(shù)據(jù)分類方法的研究[D];東北大學;2014年
7 劉明;分類器組合技術研究及其在人機交互系統(tǒng)中的應用[D];北京交通大學;2008年
8 嚴志永;在劃分數(shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學;2011年
9 王U,
本文編號:2027138
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2027138.html