不均衡網(wǎng)絡流量的分類研究
發(fā)布時間:2021-06-14 10:43
隨著網(wǎng)絡科技的飛速發(fā)展,互聯(lián)網(wǎng)中流量數(shù)據(jù)和應用種類也在急劇增長,因此在網(wǎng)絡管理控制中如何有效識別各類型的網(wǎng)絡流量成為了重點問題.識別各類型的網(wǎng)絡流量首先是對網(wǎng)絡流量數(shù)據(jù)的分類,在實際問題中,對網(wǎng)絡流量數(shù)據(jù)進行分類時應注意網(wǎng)絡流量中的應用類型存在不均衡的問題.在不均衡網(wǎng)絡流量中,多數(shù)類網(wǎng)絡流量數(shù)據(jù)一般為用戶使用多的應用類型數(shù)據(jù),網(wǎng)絡流量的精確識別可以幫助網(wǎng)絡運營商提供更好的服務質(zhì)量,少數(shù)類網(wǎng)絡流量的有效識別可以用于發(fā)現(xiàn)設備故障、異常流量的檢測以及病毒入侵和惡意攻擊,以提高網(wǎng)絡的安全性.首先,分析使用不同類型的訓練集對不均衡網(wǎng)絡流量的分類效果.本文使用SMOTE+Tomek Link重抽樣方法對原始數(shù)據(jù)集進行抽樣,構成均衡和不均衡的7個數(shù)據(jù)集作為其訓練集,并使用XGBoost算法對其進行分類,研究不均衡和均衡的訓練集對不均衡網(wǎng)絡流量的分類結果的影響.在測試集和驗證集進行實驗,結果表明同比例的不均衡訓練集得到的分類模型對不均衡網(wǎng)絡流量的分類結果影響不大,均衡的訓練集得到的分類模型在不降低整體分類準確率前提下,可以提高少數(shù)類別的精確率和召回率,分類效果較好.其次,網(wǎng)絡流量數(shù)據(jù)具有較多的特征,為...
【文章來源】:長春理工大學吉林省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
各類與特征A1在二維空間上的分布
第4章基于卡方方法及對稱不確定性的特征選擇方法23第4章基于卡方方法及對稱不確定性的特征選擇方法不均衡網(wǎng)絡流量的不均衡性不僅存在于類別的不均衡中,也存在于網(wǎng)絡流數(shù)據(jù)中,因此本章研究網(wǎng)絡流量中的特征,通過對特征的分析,提出了基于卡方方法及對稱不確定性的特征選擇方法,研究了特征的選擇對不均衡網(wǎng)絡流量的分類研究的影響.4.1相關性分析在對Moore數(shù)據(jù)集直接分類時,由于各類網(wǎng)絡流數(shù)目差異較大,因此在使用有監(jiān)督的分類器對其分類時會使得分類器學習更多的多數(shù)類樣本,進而將樣本更多地分到多數(shù)樣本中去,使得少數(shù)類的分類精確率和召回率降低,因此考慮在特征層面對其進行處理.雖然低維特征空間分布不能完全反應高維特征空間分布特性,但是一些區(qū)分性較強的特征的分布在一定程度上可以表明數(shù)據(jù)的特性.預處理后網(wǎng)絡流量各個類別包含247個特征,觀察各類別在其特征上的空間分布,分析各類別與特征的關系以及特征與特征之間的關系.圖4.1為entry01中各類與特征1A在二維空間上的分布,圖4.2為特征1A與特征97A在二維空間上的分布.圖4.1各類與特征A1在二維空間上的分布圖4.2特征A1與特征A97在二維空間上的分布圖4.1和圖4.2表明了類別與特征以及特征與特征之間可能存在一定的相關關系,
第5章XGBoost模型參數(shù)優(yōu)化34XGBoost分類模型在數(shù)據(jù)集上的表現(xiàn)卻不簡單.XGBoost算法在訓練過程中有很多可以優(yōu)化的參數(shù),為了提高該模型的泛化能力,需要優(yōu)化XGBoost分類模型中的參數(shù),以便更好地對不均衡網(wǎng)絡流量進行分類.5.2.2XGBoost參數(shù)優(yōu)化網(wǎng)格搜索算法(GridSearch,GS)[56],被廣泛地應用于機器學習的算法的參數(shù)優(yōu)化.GS算法的主要思想是:首先對每個參數(shù)進行分割,根據(jù)參數(shù)12ix,i,,,n的取值范圍,按照一定的步長進行分割,其形式為iiiiyyyUxmin,step,max;其次,順著參數(shù)的不同方向生成網(wǎng)格12nUxUxUx,其中的各個網(wǎng)格點即為參數(shù)組;最后,使用交叉驗證的評價方法對每個參數(shù)組下的平均分類準確率進行評價,重復此步驟,最終選取出平均分類準確率最高的參數(shù)組.我們首先進行XGBoost算法中的迭代次數(shù)的優(yōu)化,設置一個較高的學習率eta,學習率相當于XGBoost基分類器在每次迭代時決策樹的權重,分類不同的目標時,最優(yōu)的學習率一般都在0.05至0.3之間.設置初始學習率為0.15,然后根據(jù)實驗去選擇最優(yōu)的迭代的次數(shù),圖5.2為迭代次數(shù)和整體準確率的關系圖.圖5.2迭代次數(shù)與整體準確率的關系從圖5.2中可以看出,XGBoost分類器在迭代過程中,訓練集的總體準確率初始時會跟隨迭代次數(shù)的增加而上升,之后保持穩(wěn)定,最終趨于平穩(wěn),數(shù)據(jù)均衡的測試集的總體準確率在迭代110次后保持平穩(wěn),為了更好地使得模型分類效果和泛化能力較強,在識別不同網(wǎng)絡流量時設置XGBoost算法的迭代次數(shù)為110次.然后進行基分類器參數(shù)的優(yōu)化,即決策樹的深度、最小葉子節(jié)點樣本權重和、決策樹在分裂時特征采樣比例和樣本采樣比例等.通過機器學習庫skikit-learn中網(wǎng)格搜
【參考文獻】:
期刊論文
[1]基于深度學習的網(wǎng)絡流量分類識別研究[J]. 張家穎,楊文軍. 天津理工大學學報. 2019(06)
[2]基于密度峰值的Adaboost算法[J]. 王軍,吳文超,程勇. 計算機工程與設計. 2019(11)
[3]一種針對類別不平衡的代價敏感集成算法[J]. 譚浩,田愛奎,吳志勇. 山東理工大學學報(自然科學版). 2018(06)
[4]基于過欠重采樣的類別不平衡GBDT財務困境預測[J]. 王瑞芳. 中南財經(jīng)政法大學研究生學報. 2018(04)
[5]基于僵尸網(wǎng)絡流量特征的深度學習檢測[J]. 周暢,黃征. 信息技術. 2018(04)
[6]基于非平衡數(shù)據(jù)的隨機森林分類算法改進[J]. 魏正韜,楊有龍,白婧. 重慶大學學報. 2018(04)
[7]P2P應用流量的高效分類方法研究[J]. 陳金富,趙慧,常鵬,張永錚. 計算機應用與軟件. 2017(04)
[8]基于AdaBoost的類不平衡學習算法[J]. 秦孟梅,邱建林,陸鵬程,陳璐璐,趙偉康. 計算機應用研究. 2017(11)
[9]基于二次隨機森林的不平衡數(shù)據(jù)分類算法[J]. 劉學,張素偉. 軟件. 2016(07)
[10]多標簽代價敏感分類集成學習算法[J]. 付忠良. 自動化學報. 2014(06)
博士論文
[1]基于SVM的網(wǎng)絡流量特征降維與分類方法研究[D]. 曹杰.吉林大學 2017
本文編號:3229666
【文章來源】:長春理工大學吉林省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
各類與特征A1在二維空間上的分布
第4章基于卡方方法及對稱不確定性的特征選擇方法23第4章基于卡方方法及對稱不確定性的特征選擇方法不均衡網(wǎng)絡流量的不均衡性不僅存在于類別的不均衡中,也存在于網(wǎng)絡流數(shù)據(jù)中,因此本章研究網(wǎng)絡流量中的特征,通過對特征的分析,提出了基于卡方方法及對稱不確定性的特征選擇方法,研究了特征的選擇對不均衡網(wǎng)絡流量的分類研究的影響.4.1相關性分析在對Moore數(shù)據(jù)集直接分類時,由于各類網(wǎng)絡流數(shù)目差異較大,因此在使用有監(jiān)督的分類器對其分類時會使得分類器學習更多的多數(shù)類樣本,進而將樣本更多地分到多數(shù)樣本中去,使得少數(shù)類的分類精確率和召回率降低,因此考慮在特征層面對其進行處理.雖然低維特征空間分布不能完全反應高維特征空間分布特性,但是一些區(qū)分性較強的特征的分布在一定程度上可以表明數(shù)據(jù)的特性.預處理后網(wǎng)絡流量各個類別包含247個特征,觀察各類別在其特征上的空間分布,分析各類別與特征的關系以及特征與特征之間的關系.圖4.1為entry01中各類與特征1A在二維空間上的分布,圖4.2為特征1A與特征97A在二維空間上的分布.圖4.1各類與特征A1在二維空間上的分布圖4.2特征A1與特征A97在二維空間上的分布圖4.1和圖4.2表明了類別與特征以及特征與特征之間可能存在一定的相關關系,
第5章XGBoost模型參數(shù)優(yōu)化34XGBoost分類模型在數(shù)據(jù)集上的表現(xiàn)卻不簡單.XGBoost算法在訓練過程中有很多可以優(yōu)化的參數(shù),為了提高該模型的泛化能力,需要優(yōu)化XGBoost分類模型中的參數(shù),以便更好地對不均衡網(wǎng)絡流量進行分類.5.2.2XGBoost參數(shù)優(yōu)化網(wǎng)格搜索算法(GridSearch,GS)[56],被廣泛地應用于機器學習的算法的參數(shù)優(yōu)化.GS算法的主要思想是:首先對每個參數(shù)進行分割,根據(jù)參數(shù)12ix,i,,,n的取值范圍,按照一定的步長進行分割,其形式為iiiiyyyUxmin,step,max;其次,順著參數(shù)的不同方向生成網(wǎng)格12nUxUxUx,其中的各個網(wǎng)格點即為參數(shù)組;最后,使用交叉驗證的評價方法對每個參數(shù)組下的平均分類準確率進行評價,重復此步驟,最終選取出平均分類準確率最高的參數(shù)組.我們首先進行XGBoost算法中的迭代次數(shù)的優(yōu)化,設置一個較高的學習率eta,學習率相當于XGBoost基分類器在每次迭代時決策樹的權重,分類不同的目標時,最優(yōu)的學習率一般都在0.05至0.3之間.設置初始學習率為0.15,然后根據(jù)實驗去選擇最優(yōu)的迭代的次數(shù),圖5.2為迭代次數(shù)和整體準確率的關系圖.圖5.2迭代次數(shù)與整體準確率的關系從圖5.2中可以看出,XGBoost分類器在迭代過程中,訓練集的總體準確率初始時會跟隨迭代次數(shù)的增加而上升,之后保持穩(wěn)定,最終趨于平穩(wěn),數(shù)據(jù)均衡的測試集的總體準確率在迭代110次后保持平穩(wěn),為了更好地使得模型分類效果和泛化能力較強,在識別不同網(wǎng)絡流量時設置XGBoost算法的迭代次數(shù)為110次.然后進行基分類器參數(shù)的優(yōu)化,即決策樹的深度、最小葉子節(jié)點樣本權重和、決策樹在分裂時特征采樣比例和樣本采樣比例等.通過機器學習庫skikit-learn中網(wǎng)格搜
【參考文獻】:
期刊論文
[1]基于深度學習的網(wǎng)絡流量分類識別研究[J]. 張家穎,楊文軍. 天津理工大學學報. 2019(06)
[2]基于密度峰值的Adaboost算法[J]. 王軍,吳文超,程勇. 計算機工程與設計. 2019(11)
[3]一種針對類別不平衡的代價敏感集成算法[J]. 譚浩,田愛奎,吳志勇. 山東理工大學學報(自然科學版). 2018(06)
[4]基于過欠重采樣的類別不平衡GBDT財務困境預測[J]. 王瑞芳. 中南財經(jīng)政法大學研究生學報. 2018(04)
[5]基于僵尸網(wǎng)絡流量特征的深度學習檢測[J]. 周暢,黃征. 信息技術. 2018(04)
[6]基于非平衡數(shù)據(jù)的隨機森林分類算法改進[J]. 魏正韜,楊有龍,白婧. 重慶大學學報. 2018(04)
[7]P2P應用流量的高效分類方法研究[J]. 陳金富,趙慧,常鵬,張永錚. 計算機應用與軟件. 2017(04)
[8]基于AdaBoost的類不平衡學習算法[J]. 秦孟梅,邱建林,陸鵬程,陳璐璐,趙偉康. 計算機應用研究. 2017(11)
[9]基于二次隨機森林的不平衡數(shù)據(jù)分類算法[J]. 劉學,張素偉. 軟件. 2016(07)
[10]多標簽代價敏感分類集成學習算法[J]. 付忠良. 自動化學報. 2014(06)
博士論文
[1]基于SVM的網(wǎng)絡流量特征降維與分類方法研究[D]. 曹杰.吉林大學 2017
本文編號:3229666
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3229666.html