天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不均衡網(wǎng)絡(luò)流量的分類研究

發(fā)布時(shí)間:2021-06-14 10:43
  隨著網(wǎng)絡(luò)科技的飛速發(fā)展,互聯(lián)網(wǎng)中流量數(shù)據(jù)和應(yīng)用種類也在急劇增長,因此在網(wǎng)絡(luò)管理控制中如何有效識(shí)別各類型的網(wǎng)絡(luò)流量成為了重點(diǎn)問題.識(shí)別各類型的網(wǎng)絡(luò)流量首先是對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)的分類,在實(shí)際問題中,對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分類時(shí)應(yīng)注意網(wǎng)絡(luò)流量中的應(yīng)用類型存在不均衡的問題.在不均衡網(wǎng)絡(luò)流量中,多數(shù)類網(wǎng)絡(luò)流量數(shù)據(jù)一般為用戶使用多的應(yīng)用類型數(shù)據(jù),網(wǎng)絡(luò)流量的精確識(shí)別可以幫助網(wǎng)絡(luò)運(yùn)營商提供更好的服務(wù)質(zhì)量,少數(shù)類網(wǎng)絡(luò)流量的有效識(shí)別可以用于發(fā)現(xiàn)設(shè)備故障、異常流量的檢測以及病毒入侵和惡意攻擊,以提高網(wǎng)絡(luò)的安全性.首先,分析使用不同類型的訓(xùn)練集對(duì)不均衡網(wǎng)絡(luò)流量的分類效果.本文使用SMOTE+Tomek Link重抽樣方法對(duì)原始數(shù)據(jù)集進(jìn)行抽樣,構(gòu)成均衡和不均衡的7個(gè)數(shù)據(jù)集作為其訓(xùn)練集,并使用XGBoost算法對(duì)其進(jìn)行分類,研究不均衡和均衡的訓(xùn)練集對(duì)不均衡網(wǎng)絡(luò)流量的分類結(jié)果的影響.在測試集和驗(yàn)證集進(jìn)行實(shí)驗(yàn),結(jié)果表明同比例的不均衡訓(xùn)練集得到的分類模型對(duì)不均衡網(wǎng)絡(luò)流量的分類結(jié)果影響不大,均衡的訓(xùn)練集得到的分類模型在不降低整體分類準(zhǔn)確率前提下,可以提高少數(shù)類別的精確率和召回率,分類效果較好.其次,網(wǎng)絡(luò)流量數(shù)據(jù)具有較多的特征,為... 

【文章來源】:長春理工大學(xué)吉林省

【文章頁數(shù)】:62 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

不均衡網(wǎng)絡(luò)流量的分類研究


各類與特征A1在二維空間上的分布

二維空間


第4章基于卡方方法及對(duì)稱不確定性的特征選擇方法23第4章基于卡方方法及對(duì)稱不確定性的特征選擇方法不均衡網(wǎng)絡(luò)流量的不均衡性不僅存在于類別的不均衡中,也存在于網(wǎng)絡(luò)流數(shù)據(jù)中,因此本章研究網(wǎng)絡(luò)流量中的特征,通過對(duì)特征的分析,提出了基于卡方方法及對(duì)稱不確定性的特征選擇方法,研究了特征的選擇對(duì)不均衡網(wǎng)絡(luò)流量的分類研究的影響.4.1相關(guān)性分析在對(duì)Moore數(shù)據(jù)集直接分類時(shí),由于各類網(wǎng)絡(luò)流數(shù)目差異較大,因此在使用有監(jiān)督的分類器對(duì)其分類時(shí)會(huì)使得分類器學(xué)習(xí)更多的多數(shù)類樣本,進(jìn)而將樣本更多地分到多數(shù)樣本中去,使得少數(shù)類的分類精確率和召回率降低,因此考慮在特征層面對(duì)其進(jìn)行處理.雖然低維特征空間分布不能完全反應(yīng)高維特征空間分布特性,但是一些區(qū)分性較強(qiáng)的特征的分布在一定程度上可以表明數(shù)據(jù)的特性.預(yù)處理后網(wǎng)絡(luò)流量各個(gè)類別包含247個(gè)特征,觀察各類別在其特征上的空間分布,分析各類別與特征的關(guān)系以及特征與特征之間的關(guān)系.圖4.1為entry01中各類與特征1A在二維空間上的分布,圖4.2為特征1A與特征97A在二維空間上的分布.圖4.1各類與特征A1在二維空間上的分布圖4.2特征A1與特征A97在二維空間上的分布圖4.1和圖4.2表明了類別與特征以及特征與特征之間可能存在一定的相關(guān)關(guān)系,

關(guān)系圖,準(zhǔn)確率,迭代次數(shù)


第5章XGBoost模型參數(shù)優(yōu)化34XGBoost分類模型在數(shù)據(jù)集上的表現(xiàn)卻不簡單.XGBoost算法在訓(xùn)練過程中有很多可以優(yōu)化的參數(shù),為了提高該模型的泛化能力,需要優(yōu)化XGBoost分類模型中的參數(shù),以便更好地對(duì)不均衡網(wǎng)絡(luò)流量進(jìn)行分類.5.2.2XGBoost參數(shù)優(yōu)化網(wǎng)格搜索算法(GridSearch,GS)[56],被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)的算法的參數(shù)優(yōu)化.GS算法的主要思想是:首先對(duì)每個(gè)參數(shù)進(jìn)行分割,根據(jù)參數(shù)12ix,i,,,n的取值范圍,按照一定的步長進(jìn)行分割,其形式為iiiiyyyUxmin,step,max;其次,順著參數(shù)的不同方向生成網(wǎng)格12nUxUxUx,其中的各個(gè)網(wǎng)格點(diǎn)即為參數(shù)組;最后,使用交叉驗(yàn)證的評(píng)價(jià)方法對(duì)每個(gè)參數(shù)組下的平均分類準(zhǔn)確率進(jìn)行評(píng)價(jià),重復(fù)此步驟,最終選取出平均分類準(zhǔn)確率最高的參數(shù)組.我們首先進(jìn)行XGBoost算法中的迭代次數(shù)的優(yōu)化,設(shè)置一個(gè)較高的學(xué)習(xí)率eta,學(xué)習(xí)率相當(dāng)于XGBoost基分類器在每次迭代時(shí)決策樹的權(quán)重,分類不同的目標(biāo)時(shí),最優(yōu)的學(xué)習(xí)率一般都在0.05至0.3之間.設(shè)置初始學(xué)習(xí)率為0.15,然后根據(jù)實(shí)驗(yàn)去選擇最優(yōu)的迭代的次數(shù),圖5.2為迭代次數(shù)和整體準(zhǔn)確率的關(guān)系圖.圖5.2迭代次數(shù)與整體準(zhǔn)確率的關(guān)系從圖5.2中可以看出,XGBoost分類器在迭代過程中,訓(xùn)練集的總體準(zhǔn)確率初始時(shí)會(huì)跟隨迭代次數(shù)的增加而上升,之后保持穩(wěn)定,最終趨于平穩(wěn),數(shù)據(jù)均衡的測試集的總體準(zhǔn)確率在迭代110次后保持平穩(wěn),為了更好地使得模型分類效果和泛化能力較強(qiáng),在識(shí)別不同網(wǎng)絡(luò)流量時(shí)設(shè)置XGBoost算法的迭代次數(shù)為110次.然后進(jìn)行基分類器參數(shù)的優(yōu)化,即決策樹的深度、最小葉子節(jié)點(diǎn)樣本權(quán)重和、決策樹在分裂時(shí)特征采樣比例和樣本采樣比例等.通過機(jī)器學(xué)習(xí)庫skikit-learn中網(wǎng)格搜

【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量分類識(shí)別研究[J]. 張家穎,楊文軍.  天津理工大學(xué)學(xué)報(bào). 2019(06)
[2]基于密度峰值的Adaboost算法[J]. 王軍,吳文超,程勇.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(11)
[3]一種針對(duì)類別不平衡的代價(jià)敏感集成算法[J]. 譚浩,田愛奎,吳志勇.  山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[4]基于過欠重采樣的類別不平衡GBDT財(cái)務(wù)困境預(yù)測[J]. 王瑞芳.  中南財(cái)經(jīng)政法大學(xué)研究生學(xué)報(bào). 2018(04)
[5]基于僵尸網(wǎng)絡(luò)流量特征的深度學(xué)習(xí)檢測[J]. 周暢,黃征.  信息技術(shù). 2018(04)
[6]基于非平衡數(shù)據(jù)的隨機(jī)森林分類算法改進(jìn)[J]. 魏正韜,楊有龍,白婧.  重慶大學(xué)學(xué)報(bào). 2018(04)
[7]P2P應(yīng)用流量的高效分類方法研究[J]. 陳金富,趙慧,常鵬,張永錚.  計(jì)算機(jī)應(yīng)用與軟件. 2017(04)
[8]基于AdaBoost的類不平衡學(xué)習(xí)算法[J]. 秦孟梅,邱建林,陸鵬程,陳璐璐,趙偉康.  計(jì)算機(jī)應(yīng)用研究. 2017(11)
[9]基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法[J]. 劉學(xué),張素偉.  軟件. 2016(07)
[10]多標(biāo)簽代價(jià)敏感分類集成學(xué)習(xí)算法[J]. 付忠良.  自動(dòng)化學(xué)報(bào). 2014(06)

博士論文
[1]基于SVM的網(wǎng)絡(luò)流量特征降維與分類方法研究[D]. 曹杰.吉林大學(xué) 2017



本文編號(hào):3229666

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3229666.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c106***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com