天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機(jī)器學(xué)習(xí)的異常數(shù)據(jù)流量分類

發(fā)布時(shí)間:2020-07-24 21:57
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)使用頻率的提高,網(wǎng)絡(luò)數(shù)據(jù)流量也隨之大量增長(zhǎng),由此出現(xiàn)了許多針對(duì)各種網(wǎng)絡(luò)服務(wù)的攻擊行為,給網(wǎng)絡(luò)安全帶來(lái)了嚴(yán)峻的挑戰(zhàn)。因此,識(shí)別并且分類出數(shù)據(jù)流量中的惡意數(shù)據(jù)包是防御技術(shù)中的一個(gè)研究重點(diǎn)。本文首先介紹了基于端口識(shí)別和基于深度數(shù)據(jù)包解析等技術(shù)的原理過(guò)程,并說(shuō)明其自身的缺陷導(dǎo)致無(wú)法滿足現(xiàn)有網(wǎng)絡(luò)的應(yīng)用需求,以此引出基于機(jī)器學(xué)習(xí)方法的數(shù)據(jù)包分類識(shí)別技術(shù),包括樸素貝葉斯算法、C4.5決策樹(shù)算法、支持向量機(jī)(SVM)算法、K-Means聚類算法等,對(duì)算法的論證過(guò)程進(jìn)行梳理。然后通過(guò)Pcap庫(kù)函數(shù)捕獲原始數(shù)據(jù)包,選取適合機(jī)器學(xué)習(xí)使用的流屬性,作為樣本特征集合。文章采用KDD99經(jīng)典數(shù)據(jù)集,實(shí)驗(yàn)以對(duì)測(cè)試集的分類準(zhǔn)確率為結(jié)果標(biāo)準(zhǔn)。在已有算法的基礎(chǔ)上,文章提出兩種改進(jìn)的策略,分別是對(duì)訓(xùn)練樣本屬性進(jìn)行加權(quán)為基礎(chǔ)的改進(jìn)以及結(jié)合K-Means++聚類和支持向量機(jī)兩種模型優(yōu)點(diǎn)的綜合改進(jìn)。第一種改進(jìn)方法是針對(duì)網(wǎng)絡(luò)數(shù)據(jù)包之間的連續(xù)性和相關(guān)性提出的改進(jìn),數(shù)據(jù)包在網(wǎng)絡(luò)環(huán)境中是以流的形式存在,并非獨(dú)立無(wú)關(guān)的,同種類型數(shù)據(jù)包的某些屬性可能相同,因此,取每一屬性項(xiàng)所屬的類別的數(shù)目占總實(shí)例數(shù)的比例為權(quán)值,將權(quán)值視為一種影響因子,刪除權(quán)值基本為0的屬性,保留取值多元化的屬性,降低訓(xùn)練復(fù)雜度,實(shí)驗(yàn)結(jié)果顯示在分類準(zhǔn)確度基本保持不變的情況下訓(xùn)練的速度明顯提高;第二種改進(jìn)方法是結(jié)合了K-Means++聚類和支持向量機(jī)的綜合模型,將待測(cè)數(shù)據(jù)集經(jīng)過(guò)K-Means++算法聚類處理后,得到若干個(gè)以聚類質(zhì)心為中心的簇,再將經(jīng)過(guò)初始聚類的數(shù)據(jù)集用于訓(xùn)練支持向量機(jī)的分類器,這樣既能夠避免支持向量機(jī)訓(xùn)練時(shí)對(duì)于樣本特征非常耗時(shí)的人工提取階段,又可以利用到無(wú)監(jiān)督聚類算法快速訓(xùn)練的優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果表明這種綜合模型能夠有效的增加支持向量機(jī)算法的分類精度,并且縮短了訓(xùn)練時(shí)間。通過(guò)本文的研究,證明了機(jī)器學(xué)習(xí)方法在流量分類的應(yīng)用中有著良好的效果,同時(shí)本文改進(jìn)的方法也能克服原有機(jī)器學(xué)習(xí)算法的缺點(diǎn),實(shí)現(xiàn)更高效的分類。
【學(xué)位授予單位】:武漢紡織大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.06;TP181
【圖文】:

流程圖,機(jī)器學(xué)習(xí),數(shù)據(jù)流量,流程


圖 1.1 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)流量分類流程分類過(guò)程可以分為三個(gè)階段:是數(shù)據(jù)準(zhǔn)備階段。這一階段是為分類做前期準(zhǔn)備,主要的工作是根性,對(duì)每個(gè)特征屬性進(jìn)行劃分,然后對(duì)整體數(shù)據(jù)集進(jìn)行分類,得到訓(xùn)分類數(shù)據(jù)都作為本階段的數(shù)據(jù)輸入,對(duì)應(yīng)的輸出就是訓(xùn)練樣本集和預(yù)處理過(guò)程是整個(gè)分類過(guò)程中唯一需要人工完成的階段,因此處理器的質(zhì)量主要由特征屬性劃分的質(zhì)量和訓(xùn)練樣本的質(zhì)量共同決定。是分類器的訓(xùn)練階段。該階段的最終目標(biāo)就是為了生成分類器,主本中各種類別的頻率和計(jì)算特征屬性劃分類別的條件概率。它的輸及包含的特征屬性,輸出是分類器。該階段是機(jī)器處理的過(guò)程,由是應(yīng)用測(cè)試階段。此階段的任務(wù)是利用第二階段生成的分類器對(duì)未類,將分類器和待分類集作為整體輸入,則輸出就是待分類集與所階段為機(jī)器學(xué)習(xí)階段,由程序完成。內(nèi)外研究成果

模型圖,決策樹(shù),模型


1-特征屬性 2-類別圖 2.1 決策樹(shù)模型從根節(jié)點(diǎn)開(kāi)始,首先測(cè)試實(shí)例的特征,然后根據(jù)測(cè)試結(jié)果點(diǎn),每個(gè)實(shí)例只能被一個(gè)路徑或者規(guī)則所覆蓋。同時(shí),決即每個(gè)葉節(jié)點(diǎn)上的分類最終表示著屬于該類的概率較大[20]策樹(shù)算法概述由 ID3 算法改進(jìn)而來(lái),ID3 算法主要是通過(guò)遞歸的方式來(lái)D3 算法的基礎(chǔ)上,通過(guò)對(duì)連續(xù)的屬性值的離散化,避免了另外,C4.5 算法的屬性項(xiàng)選擇標(biāo)準(zhǔn)不再是 ID3 算法中的信益率,這樣就避免了在選擇信息增益時(shí)將屬性值偏向更多中減少了對(duì)樣本分布的依賴性[21]。的主要問(wèn)題就是建立節(jié)點(diǎn)的劃分選擇規(guī)則,這也是決策樹(shù).5 算法是根據(jù)信息增益率來(lái)選擇節(jié)點(diǎn)屬性來(lái)進(jìn)行分裂。in Ratio)由信息增益(Information Gain)和分裂信息(Split (2.6)所示:

超平面


),(,),,(,)}1 122nnT xyxy xy訓(xùn)練集線性可分,如圖2.2 所示,有兩類數(shù)據(jù),分類的目標(biāo)是尋找一個(gè)超平面,將兩類數(shù)據(jù)分開(kāi)。在二維平面中,分類超平面就是一條直線,從圖中可以看出,能將訓(xùn)練樣本分開(kāi)的超平面有很多可能(圖中虛線),超平面除了要將訓(xùn)練集中的數(shù)據(jù)分開(kāi),還要有較好的泛化性能,需要把測(cè)試集中的數(shù)據(jù)也劃分開(kāi)。而實(shí)線距離兩類數(shù)據(jù)點(diǎn)均較遠(yuǎn),對(duì)于數(shù)據(jù)局部擾動(dòng)的容忍性較好,能夠以較大的置信度將數(shù)據(jù)進(jìn)行分類,是最好的一個(gè)超平面。圖 2.2 超平面

【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 鄧職潔;王勇;陶曉玲;;基于FPGA的二次加權(quán)NB網(wǎng)絡(luò)流量分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年11期

2 張倩;楊耀權(quán);;基于支持向量機(jī)核函數(shù)的研究[J];電力科學(xué)與工程;2012年05期

3 張立仿;張喜平;柴旭清;閆娟;;基于TAN的網(wǎng)絡(luò)流量分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年12期

4 丁曉劍;趙銀亮;;無(wú)偏置ν-SVM分類優(yōu)化問(wèn)題研究[J];電子與信息學(xué)報(bào);2011年08期

5 朱欣;趙雷;楊季文;;基于CVFDT的網(wǎng)絡(luò)流量分類方法[J];計(jì)算機(jī)工程;2011年12期

6 奉國(guó)和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計(jì)算機(jī)工程與應(yīng)用;2011年03期

7 李鈞濤;楊瑞峰;左紅亮;;統(tǒng)計(jì)機(jī)器學(xué)習(xí)研究[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

8 楊偉;方濤;許剛;;基于樸素貝葉斯的半監(jiān)督學(xué)習(xí)遙感影像分類[J];計(jì)算機(jī)工程;2010年20期

9 王洪春;;貝葉斯公式與貝葉斯統(tǒng)計(jì)[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年03期

相關(guān)碩士學(xué)位論文 前7條

1 尹嘉鵬;支持向量機(jī)核函數(shù)及關(guān)鍵參數(shù)選擇研究[D];哈爾濱工業(yè)大學(xué);2016年

2 楊宜辰;基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類技術(shù)研究與應(yīng)用[D];安徽理工大學(xué);2014年

3 宋永東;支持向量機(jī)參數(shù)選擇的研究[D];華中師范大學(xué);2013年

4 胡婷;基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類方法研究[D];桂林電子科技大學(xué);2011年

5 鄧河;基于機(jī)器學(xué)習(xí)方法的網(wǎng)絡(luò)流量分類研究[D];湖南工業(yè)大學(xué);2009年

6 周龍;基于樸素貝葉斯的分類方法研究[D];安徽大學(xué);2006年

7 謝芳芳;基于支持向量機(jī)的故障診斷方法[D];湖南大學(xué);2006年



本文編號(hào):2769444

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2769444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d7b19***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com