天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于離散載荷特征的即時(shí)通訊軟件流量分類方法

發(fā)布時(shí)間:2021-11-09 06:31
  隨著大數(shù)據(jù)時(shí)代到來(lái),海量即時(shí)通訊軟件流量分類成為解決網(wǎng)絡(luò)擁塞、安全監(jiān)管、網(wǎng)絡(luò)異常檢測(cè)等研究的基礎(chǔ)。針對(duì)傳統(tǒng)流量識(shí)別與分類技術(shù)準(zhǔn)確率低、速率慢等問(wèn)題,文章提出一種基于離散載荷特征的即時(shí)通訊軟件流量分類技術(shù)。該技術(shù)通過(guò)對(duì)通訊軟件報(bào)文數(shù)據(jù)進(jìn)行五元組數(shù)據(jù)提純,利用信息熵對(duì)載荷特征進(jìn)行離散化,結(jié)合XGBoost構(gòu)建通訊軟件數(shù)據(jù)報(bào)文的二分類模型,同時(shí)將其效果與隨機(jī)森林、SVM和樸素貝葉斯的方法做對(duì)比試驗(yàn)。結(jié)果表明,這種方法較傳統(tǒng)流量分類方法準(zhǔn)確率提高4.3%,與采用連續(xù)特征分類相比分類準(zhǔn)確率提高2.3%,同時(shí)具有處理速度快、適用性廣泛的特點(diǎn)。 

【文章來(lái)源】:網(wǎng)絡(luò)空間安全. 2020,11(08)

【文章頁(yè)數(shù)】:6 頁(yè)

【部分圖文】:

基于離散載荷特征的即時(shí)通訊軟件流量分類方法


五元組聚類示意圖

示意圖,報(bào)文,示意圖,字節(jié)


為了能充分利用報(bào)文中所有信息,又能準(zhǔn)確提取有價(jià)值數(shù)據(jù)降低數(shù)據(jù)維度,此次提純的方式采用五元組(源IP地址、源端口、目的IP地址、目的端口、傳輸層協(xié)議)識(shí)別的方式進(jìn)行,首先采用五元組對(duì)各流量數(shù)據(jù)進(jìn)行聚類,然后對(duì)于聚類后的數(shù)據(jù),剔除數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層數(shù)據(jù)維度,提取傳輸層有效凈載荷構(gòu)建識(shí)別模型[4~6]。通過(guò)這種方式獲取到的報(bào)文基本只屬于對(duì)應(yīng)的通訊軟件,由此獲得純凈的輸入數(shù)據(jù)。報(bào)文的示意圖如圖1所示。對(duì)每條報(bào)文去除五元組頭部信息,只保留數(shù)據(jù)部分,為了防止心跳報(bào)文等空?qǐng)?bào)文的影響,同時(shí)避免數(shù)據(jù)字段后續(xù)部分無(wú)用信息的影響,只保留每條報(bào)文前50個(gè)字節(jié)長(zhǎng)度的數(shù)據(jù),同時(shí)舍去小于9個(gè)字節(jié)的報(bào)文數(shù)據(jù),對(duì)于大于9個(gè)字節(jié)不足50個(gè)字節(jié)的數(shù)據(jù)設(shè)置缺失值為0。同時(shí)以每條報(bào)文中每個(gè)字節(jié)為一個(gè)特征維度,將每個(gè)十六進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù),對(duì)于每一條報(bào)文數(shù)據(jù),這樣可以得到一個(gè)特征維度為50的輸入向量,每個(gè)特征均為正整數(shù)數(shù)值類型。為避免類別數(shù)量不均衡帶來(lái)不良影響,設(shè)置獲取的每種類別報(bào)文均為10,000條。數(shù)據(jù)準(zhǔn)備過(guò)程示意圖如圖2所示。

示意圖,數(shù)據(jù)準(zhǔn)備,報(bào)文,過(guò)程


對(duì)每條報(bào)文去除五元組頭部信息,只保留數(shù)據(jù)部分,為了防止心跳報(bào)文等空?qǐng)?bào)文的影響,同時(shí)避免數(shù)據(jù)字段后續(xù)部分無(wú)用信息的影響,只保留每條報(bào)文前50個(gè)字節(jié)長(zhǎng)度的數(shù)據(jù),同時(shí)舍去小于9個(gè)字節(jié)的報(bào)文數(shù)據(jù),對(duì)于大于9個(gè)字節(jié)不足50個(gè)字節(jié)的數(shù)據(jù)設(shè)置缺失值為0。同時(shí)以每條報(bào)文中每個(gè)字節(jié)為一個(gè)特征維度,將每個(gè)十六進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù),對(duì)于每一條報(bào)文數(shù)據(jù),這樣可以得到一個(gè)特征維度為50的輸入向量,每個(gè)特征均為正整數(shù)數(shù)值類型。為避免類別數(shù)量不均衡帶來(lái)不良影響,設(shè)置獲取的每種類別報(bào)文均為10,000條。數(shù)據(jù)準(zhǔn)備過(guò)程示意圖如圖2所示。對(duì)所有的原始報(bào)文流數(shù)據(jù),依據(jù)五元組特征對(duì)五元組進(jìn)行聚類,通過(guò)報(bào)文提純的方式對(duì)各五元組提取其中的有效載荷,具體聚類流程如圖3所示。

【參考文獻(xiàn)】:
期刊論文
[1]基于信息熵的溶解氧傳感器數(shù)據(jù)融合處理方法[J]. 高皜,曹琳,熊學(xué)軍.  山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(06)
[2]DPI:運(yùn)營(yíng)商大數(shù)據(jù)安全運(yùn)營(yíng)的基石[J]. 谷紅勛,張霖.  網(wǎng)絡(luò)空間安全. 2016(07)
[3]互聯(lián)網(wǎng)流量識(shí)別研究綜述[J]. 彭立志.  濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[4]基于載荷特征的加密流量快速識(shí)別方法[J]. 陳偉,胡磊,楊龍.  計(jì)算機(jī)工程. 2012(12)
[5]利用流量特征的GIDS報(bào)文分類優(yōu)化算法[J]. 寧卓,孫知信,龔儉,張維維.  電子學(xué)報(bào). 2012(03)
[6]基于信息熵的粗糙集連續(xù)屬性離散化算法[J]. 謝宏,程浩忠,牛東曉.  計(jì)算機(jī)學(xué)報(bào). 2005(09)



本文編號(hào):3484808

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3484808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8ed85***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com