基于自編碼器的未知協(xié)議分類方法
發(fā)布時(shí)間:2022-02-12 09:58
針對(duì)互聯(lián)網(wǎng)中存在的大量未知協(xié)議導(dǎo)致網(wǎng)絡(luò)管理和維護(hù)網(wǎng)絡(luò)安全十分困難的問題,提出了一種未知協(xié)議的分類識(shí)別方法。結(jié)合自編碼器技術(shù)和改進(jìn)的K-means聚類技術(shù)針對(duì)網(wǎng)絡(luò)流量實(shí)現(xiàn)了未知協(xié)議的分類識(shí)別。利用自編碼器對(duì)網(wǎng)絡(luò)流量進(jìn)行降維和特征提取,使用聚類技術(shù)對(duì)降維后數(shù)據(jù)進(jìn)行無監(jiān)督的分類,最終實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量的無監(jiān)督識(shí)別分類。實(shí)驗(yàn)結(jié)果表明,所提方法分類效果優(yōu)于傳統(tǒng)的K-means、DBSCAN、GMM算法,且具有更高的效率。
【文章來源】:通信學(xué)報(bào). 2020,41(06)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
自編碼器模型
網(wǎng)絡(luò)協(xié)議流量數(shù)據(jù)包含鏈路層數(shù)據(jù)、TCP/UDP頭、應(yīng)用層協(xié)議數(shù)據(jù)。本文進(jìn)行協(xié)議識(shí)別主要是關(guān)注應(yīng)用層協(xié)議頭的部分?jǐn)?shù)據(jù),而不是關(guān)注載荷部分?jǐn)?shù)據(jù)。因此只選擇了包含協(xié)議頭部的數(shù)據(jù)分組作為分類的流量數(shù)據(jù)。協(xié)議流量數(shù)據(jù)形式如圖3所示,每一條數(shù)據(jù)都是一幀流量。為了保證輸入數(shù)據(jù)長(zhǎng)度固定,需要將輸入數(shù)據(jù)進(jìn)行截?cái)嗪吞畛洹@,選擇長(zhǎng)度l作為輸入長(zhǎng)度,需要對(duì)長(zhǎng)度短于l的消息數(shù)據(jù)進(jìn)行階段處理,對(duì)其填充0使長(zhǎng)度為l。這樣會(huì)導(dǎo)致數(shù)據(jù)的損失和噪聲的產(chǎn)生。選擇的長(zhǎng)度需要在減少數(shù)據(jù)損失和噪聲產(chǎn)生的基礎(chǔ)上盡可能選取全部有效的控制信息。對(duì)于數(shù)據(jù)集I=(m 1,m 2,m 3,,m n),這里每個(gè)數(shù)據(jù)對(duì)象mi=(m i1,m i2,m i3,,mij,mi mi)為不定長(zhǎng)的消息,其中mij代表消息mi的第j個(gè)字節(jié)。為了保證能夠不損失有效信息并減少填充噪聲,截取長(zhǎng)度l設(shè)定為
其中,t是包括所有控制信息的最短長(zhǎng)度。為了便于數(shù)值計(jì)算,需要將長(zhǎng)度對(duì)齊后的數(shù)據(jù)集從十六進(jìn)制轉(zhuǎn)化為十進(jìn)制。為了便于訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)進(jìn)行矩陣運(yùn)算,需要將向量進(jìn)行歸一化操作,如式(3)所示。4.2 DEC模型
【參考文獻(xiàn)】:
期刊論文
[1]基于連續(xù)特征的未知協(xié)議消息聚類算法[J]. 盧政宇,李光松,申瑩珠,張彬. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2019(05)
本文編號(hào):3621512
【文章來源】:通信學(xué)報(bào). 2020,41(06)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
自編碼器模型
網(wǎng)絡(luò)協(xié)議流量數(shù)據(jù)包含鏈路層數(shù)據(jù)、TCP/UDP頭、應(yīng)用層協(xié)議數(shù)據(jù)。本文進(jìn)行協(xié)議識(shí)別主要是關(guān)注應(yīng)用層協(xié)議頭的部分?jǐn)?shù)據(jù),而不是關(guān)注載荷部分?jǐn)?shù)據(jù)。因此只選擇了包含協(xié)議頭部的數(shù)據(jù)分組作為分類的流量數(shù)據(jù)。協(xié)議流量數(shù)據(jù)形式如圖3所示,每一條數(shù)據(jù)都是一幀流量。為了保證輸入數(shù)據(jù)長(zhǎng)度固定,需要將輸入數(shù)據(jù)進(jìn)行截?cái)嗪吞畛洹@,選擇長(zhǎng)度l作為輸入長(zhǎng)度,需要對(duì)長(zhǎng)度短于l的消息數(shù)據(jù)進(jìn)行階段處理,對(duì)其填充0使長(zhǎng)度為l。這樣會(huì)導(dǎo)致數(shù)據(jù)的損失和噪聲的產(chǎn)生。選擇的長(zhǎng)度需要在減少數(shù)據(jù)損失和噪聲產(chǎn)生的基礎(chǔ)上盡可能選取全部有效的控制信息。對(duì)于數(shù)據(jù)集I=(m 1,m 2,m 3,,m n),這里每個(gè)數(shù)據(jù)對(duì)象mi=(m i1,m i2,m i3,,mij,mi mi)為不定長(zhǎng)的消息,其中mij代表消息mi的第j個(gè)字節(jié)。為了保證能夠不損失有效信息并減少填充噪聲,截取長(zhǎng)度l設(shè)定為
其中,t是包括所有控制信息的最短長(zhǎng)度。為了便于數(shù)值計(jì)算,需要將長(zhǎng)度對(duì)齊后的數(shù)據(jù)集從十六進(jìn)制轉(zhuǎn)化為十進(jìn)制。為了便于訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)進(jìn)行矩陣運(yùn)算,需要將向量進(jìn)行歸一化操作,如式(3)所示。4.2 DEC模型
【參考文獻(xiàn)】:
期刊論文
[1]基于連續(xù)特征的未知協(xié)議消息聚類算法[J]. 盧政宇,李光松,申瑩珠,張彬. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2019(05)
本文編號(hào):3621512
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3621512.html
最近更新
教材專著