當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

基于聚類(lèi)和有噪聲數(shù)據(jù)的網(wǎng)絡(luò)流量分類(lèi)

發(fā)布時(shí)間：2021-11-14 16:29

　　準(zhǔn)確的網(wǎng)絡(luò)流量分類(lèi)在網(wǎng)絡(luò)安全領(lǐng)域中至關(guān)重要,有很多應(yīng)用程序使用動(dòng)態(tài)端口和加密算法來(lái)規(guī)避檢測(cè),而諸如基于端口和基于載荷的分類(lèi)方式存在很大的不足。后續(xù)又出現(xiàn)了將機(jī)器學(xué)習(xí)算法運(yùn)用到流量分類(lèi)領(lǐng)域。以往的流量分類(lèi)只是單獨(dú)的對(duì)數(shù)據(jù)做聚類(lèi)或者分類(lèi)分析,對(duì)于聚類(lèi)的結(jié)果并沒(méi)有研究如何實(shí)現(xiàn)快速有效標(biāo)記。同時(shí)對(duì)流量分類(lèi)進(jìn)行有監(jiān)督方法時(shí),大家研究的焦點(diǎn)主要集中在如何提高分類(lèi)算法準(zhǔn)確率上面,對(duì)于訓(xùn)練集本身缺乏關(guān)注。目前對(duì)訓(xùn)練集的選擇主要使用權(quán)威數(shù)據(jù)集或者自身采集,然而無(wú)論哪種方法都需要耗費(fèi)大量的人工去標(biāo)記數(shù)據(jù),降低了研究的效率。所以針對(duì)以上問(wèn)題我們提出了將無(wú)監(jiān)督方法和有監(jiān)督方法相結(jié)合的基于聚類(lèi)和有噪聲數(shù)據(jù)的網(wǎng)絡(luò)流量分類(lèi)方法。針對(duì)聚類(lèi)問(wèn)題,為進(jìn)一步研究降維給數(shù)據(jù)帶來(lái)的影響,本文使用PCA線性變換和GainRatio特征變換算法對(duì)原數(shù)據(jù)集進(jìn)行降維處理,并采用K-Means、Canopy、FarthestFirst三種硬聚類(lèi)算法對(duì)降維的數(shù)據(jù)進(jìn)行聚類(lèi),以研究數(shù)據(jù)降維對(duì)聚類(lèi)算法產(chǎn)生的影響。針對(duì)自動(dòng)標(biāo)注問(wèn)題,本文首先提出使用Resample抽樣算法對(duì)聚類(lèi)結(jié)果進(jìn)行極小化抽樣的方法給聚類(lèi)各個(gè)簇進(jìn)行有噪聲標(biāo)記,并實(shí)時(shí)將抽樣準(zhǔn)確率...

【文章來(lái)源】：廣州大學(xué)廣東省

【文章頁(yè)數(shù)】：62 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

無(wú)監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程

過(guò)程圖,監(jiān)督學(xué)習(xí),流量,過(guò)程

廣州大學(xué)碩士畢業(yè)論文10圖3-2有監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程3.2抽樣標(biāo)記分類(lèi)模型設(shè)計(jì)傳統(tǒng)流量分類(lèi)模型的兩個(gè)階段跳過(guò)了一個(gè)很重要的環(huán)節(jié)，對(duì)第二步的簇標(biāo)記過(guò)程沒(méi)有深入研究，目前僅為純?nèi)斯?biāo)記。有監(jiān)督分類(lèi)過(guò)程并未真正解決訓(xùn)練集的來(lái)源問(wèn)題，目前訓(xùn)練集均來(lái)自知名數(shù)據(jù)集或者人工逐條標(biāo)記數(shù)據(jù)集，這部分會(huì)消耗大量的人力物力。如今的網(wǎng)絡(luò)變換萬(wàn)千，我們迫切希望能在真實(shí)網(wǎng)絡(luò)環(huán)境中截取流量包，并以最小的人工代價(jià)對(duì)獲取的數(shù)據(jù)流進(jìn)行標(biāo)記。本模型是將無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)分類(lèi)結(jié)合，首先使用無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方式生成簇，然后采用抽樣方式對(duì)簇進(jìn)行標(biāo)記產(chǎn)生有噪聲分類(lèi)數(shù)據(jù)，最后使用有監(jiān)督模型評(píng)估有噪聲數(shù)據(jù)，形成完整的數(shù)據(jù)集、標(biāo)記、訓(xùn)練分類(lèi)器、預(yù)測(cè)未知數(shù)據(jù)的流量分類(lèi)閉環(huán)。如圖3-3所示。該模型主要分為如下幾個(gè)階段。圖3-3抽樣標(biāo)記分類(lèi)模型1、基于主成分分析降維方法進(jìn)行流量聚類(lèi)。主成分分析（PrincipalComponentsAnalysis）方法將MOORE數(shù)據(jù)集屬性從248個(gè)減少到30個(gè)，同時(shí)WIDE08的數(shù)據(jù)集從21個(gè)減少到15個(gè)，并使用信息增益率（GainRatio）特征變換和全特征集作為比較。最后運(yùn)用多種聚類(lèi)算法來(lái)比較降維前后聚類(lèi)準(zhǔn)確率的變化。聚類(lèi)算法主要分為硬聚類(lèi)和軟聚類(lèi)兩種類(lèi)型。本文主要探討K-Means、Canopy和FarthestFirst三種硬聚類(lèi)算法在數(shù)據(jù)進(jìn)行降維處理后聚類(lèi)準(zhǔn)確率的變化，其中Canopy也是首次運(yùn)用到流量聚類(lèi)當(dāng)中。第4

模型圖,模型,聚類(lèi),數(shù)據(jù)集

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3494970.html

上一篇：塔防模塊在ARPG中的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：發(fā)布/訂閱模式下信息倉(cāng)庫(kù)聯(lián)邦數(shù)據(jù)同步機(jī)制的研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于聚類(lèi)和有噪聲數(shù)據(jù)的網(wǎng)絡(luò)流量分類(lèi)