流量的集成學習與重采樣均衡分類方法
發(fā)布時間:2021-10-22 12:10
針對傳統(tǒng)基于機器學習的流量分類方法中數(shù)據(jù)不均衡影響分類效果的問題,提出了一種基于重采樣的梯度增強樹算法。該算法利用流量數(shù)據(jù)的統(tǒng)計特征,通過回溯搜索策略優(yōu)化特征集合并設計適用于流量分類的樹結構參數(shù),構造最優(yōu)模型;利用結合重采樣的LightGBM算法修正數(shù)據(jù)不平衡性并進行分類測試。經(jīng)實驗驗證,該算法提高了不平衡數(shù)據(jù)的分類效果,并且具有性能穩(wěn)定、快速的優(yōu)點。
【文章來源】:計算機工程與應用. 2020,56(06)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
RES-LGBM流量分類過程
機器學習方法通常使用樣本的特征向量作為輸入,并以樣本類別作為輸出,而在流量分類中,可用數(shù)據(jù)均為流量數(shù)據(jù)包,該數(shù)據(jù)無法直接作為算法的輸入,因此需對其進行一定的加工處理。流量分類問題中最有價值的信息為幾乎包含于IP數(shù)據(jù)包的報頭中,其格式如圖2所示。根據(jù)傳輸協(xié)議的工作方式,可以確定源IP地址、目的IP地址、源端口號、目的端口號以及傳輸層協(xié)議均相同的數(shù)據(jù)包屬于同一個流,通過將同一個流中的數(shù)據(jù)包頭信息進行提取、整合和計算,便能得到一系列數(shù)據(jù)特征,作為機器學習算法的輸入。使用這類特征的優(yōu)點在于,在數(shù)據(jù)處理過程中只涉及數(shù)據(jù)包頭,沒有利用數(shù)據(jù)包本身的內(nèi)容,從而避免了侵犯用戶隱私。本文使用的數(shù)據(jù)格式如圖3,每條數(shù)據(jù)代表一個網(wǎng)絡流,共有248種特征。
LightGBM分類原理
【參考文獻】:
期刊論文
[1]基于深度卷積神經(jīng)網(wǎng)絡的網(wǎng)絡流量分類方法[J]. 王勇,周慧怡,俸皓,葉苗,柯文龍. 通信學報. 2018(01)
[2]網(wǎng)絡加密流量識別研究綜述及展望[J]. 潘吳斌,程光,郭曉軍,黃順翔. 通信學報. 2016(09)
[3]面向多類不均衡網(wǎng)絡流量的特征選擇方法[J]. 孫興斌,孫彥贊,鄭小盈,芮赟. 計算機應用研究. 2017(02)
[4]基于Spark的大規(guī)模網(wǎng)絡流量準實時分類方法[J]. 楊晨光,馬永征. 科研信息化技術與應用. 2016(02)
[5]實時網(wǎng)絡流量分類研究綜述[J]. 柏駿,夏靖波,吳吉祥,任高明,趙小歡. 計算機科學. 2013(09)
本文編號:3451072
【文章來源】:計算機工程與應用. 2020,56(06)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
RES-LGBM流量分類過程
機器學習方法通常使用樣本的特征向量作為輸入,并以樣本類別作為輸出,而在流量分類中,可用數(shù)據(jù)均為流量數(shù)據(jù)包,該數(shù)據(jù)無法直接作為算法的輸入,因此需對其進行一定的加工處理。流量分類問題中最有價值的信息為幾乎包含于IP數(shù)據(jù)包的報頭中,其格式如圖2所示。根據(jù)傳輸協(xié)議的工作方式,可以確定源IP地址、目的IP地址、源端口號、目的端口號以及傳輸層協(xié)議均相同的數(shù)據(jù)包屬于同一個流,通過將同一個流中的數(shù)據(jù)包頭信息進行提取、整合和計算,便能得到一系列數(shù)據(jù)特征,作為機器學習算法的輸入。使用這類特征的優(yōu)點在于,在數(shù)據(jù)處理過程中只涉及數(shù)據(jù)包頭,沒有利用數(shù)據(jù)包本身的內(nèi)容,從而避免了侵犯用戶隱私。本文使用的數(shù)據(jù)格式如圖3,每條數(shù)據(jù)代表一個網(wǎng)絡流,共有248種特征。
LightGBM分類原理
【參考文獻】:
期刊論文
[1]基于深度卷積神經(jīng)網(wǎng)絡的網(wǎng)絡流量分類方法[J]. 王勇,周慧怡,俸皓,葉苗,柯文龍. 通信學報. 2018(01)
[2]網(wǎng)絡加密流量識別研究綜述及展望[J]. 潘吳斌,程光,郭曉軍,黃順翔. 通信學報. 2016(09)
[3]面向多類不均衡網(wǎng)絡流量的特征選擇方法[J]. 孫興斌,孫彥贊,鄭小盈,芮赟. 計算機應用研究. 2017(02)
[4]基于Spark的大規(guī)模網(wǎng)絡流量準實時分類方法[J]. 楊晨光,馬永征. 科研信息化技術與應用. 2016(02)
[5]實時網(wǎng)絡流量分類研究綜述[J]. 柏駿,夏靖波,吳吉祥,任高明,趙小歡. 計算機科學. 2013(09)
本文編號:3451072
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3451072.html
最近更新
教材專著