基于聚類(lèi)和有噪聲數(shù)據(jù)的網(wǎng)絡(luò)流量分類(lèi)
發(fā)布時(shí)間:2021-11-14 16:29
準(zhǔn)確的網(wǎng)絡(luò)流量分類(lèi)在網(wǎng)絡(luò)安全領(lǐng)域中至關(guān)重要,有很多應(yīng)用程序使用動(dòng)態(tài)端口和加密算法來(lái)規(guī)避檢測(cè),而諸如基于端口和基于載荷的分類(lèi)方式存在很大的不足。后續(xù)又出現(xiàn)了將機(jī)器學(xué)習(xí)算法運(yùn)用到流量分類(lèi)領(lǐng)域。以往的流量分類(lèi)只是單獨(dú)的對(duì)數(shù)據(jù)做聚類(lèi)或者分類(lèi)分析,對(duì)于聚類(lèi)的結(jié)果并沒(méi)有研究如何實(shí)現(xiàn)快速有效標(biāo)記。同時(shí)對(duì)流量分類(lèi)進(jìn)行有監(jiān)督方法時(shí),大家研究的焦點(diǎn)主要集中在如何提高分類(lèi)算法準(zhǔn)確率上面,對(duì)于訓(xùn)練集本身缺乏關(guān)注。目前對(duì)訓(xùn)練集的選擇主要使用權(quán)威數(shù)據(jù)集或者自身采集,然而無(wú)論哪種方法都需要耗費(fèi)大量的人工去標(biāo)記數(shù)據(jù),降低了研究的效率。所以針對(duì)以上問(wèn)題我們提出了將無(wú)監(jiān)督方法和有監(jiān)督方法相結(jié)合的基于聚類(lèi)和有噪聲數(shù)據(jù)的網(wǎng)絡(luò)流量分類(lèi)方法。針對(duì)聚類(lèi)問(wèn)題,為進(jìn)一步研究降維給數(shù)據(jù)帶來(lái)的影響,本文使用PCA線性變換和GainRatio特征變換算法對(duì)原數(shù)據(jù)集進(jìn)行降維處理,并采用K-Means、Canopy、FarthestFirst三種硬聚類(lèi)算法對(duì)降維的數(shù)據(jù)進(jìn)行聚類(lèi),以研究數(shù)據(jù)降維對(duì)聚類(lèi)算法產(chǎn)生的影響。針對(duì)自動(dòng)標(biāo)注問(wèn)題,本文首先提出使用Resample抽樣算法對(duì)聚類(lèi)結(jié)果進(jìn)行極小化抽樣的方法給聚類(lèi)各個(gè)簇進(jìn)行有噪聲標(biāo)記,并實(shí)時(shí)將抽樣準(zhǔn)確率...
【文章來(lái)源】:廣州大學(xué)廣東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
無(wú)監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程
廣州大學(xué)碩士畢業(yè)論文10圖3-2有監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程3.2抽樣標(biāo)記分類(lèi)模型設(shè)計(jì)傳統(tǒng)流量分類(lèi)模型的兩個(gè)階段跳過(guò)了一個(gè)很重要的環(huán)節(jié),對(duì)第二步的簇標(biāo)記過(guò)程沒(méi)有深入研究,目前僅為純?nèi)斯?biāo)記。有監(jiān)督分類(lèi)過(guò)程并未真正解決訓(xùn)練集的來(lái)源問(wèn)題,目前訓(xùn)練集均來(lái)自知名數(shù)據(jù)集或者人工逐條標(biāo)記數(shù)據(jù)集,這部分會(huì)消耗大量的人力物力。如今的網(wǎng)絡(luò)變換萬(wàn)千,我們迫切希望能在真實(shí)網(wǎng)絡(luò)環(huán)境中截取流量包,并以最小的人工代價(jià)對(duì)獲取的數(shù)據(jù)流進(jìn)行標(biāo)記。本模型是將無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)分類(lèi)結(jié)合,首先使用無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方式生成簇,然后采用抽樣方式對(duì)簇進(jìn)行標(biāo)記產(chǎn)生有噪聲分類(lèi)數(shù)據(jù),最后使用有監(jiān)督模型評(píng)估有噪聲數(shù)據(jù),形成完整的數(shù)據(jù)集、標(biāo)記、訓(xùn)練分類(lèi)器、預(yù)測(cè)未知數(shù)據(jù)的流量分類(lèi)閉環(huán)。如圖3-3所示。該模型主要分為如下幾個(gè)階段。圖3-3抽樣標(biāo)記分類(lèi)模型1、基于主成分分析降維方法進(jìn)行流量聚類(lèi)。主成分分析(PrincipalComponentsAnalysis)方法將MOORE數(shù)據(jù)集屬性從248個(gè)減少到30個(gè),同時(shí)WIDE08的數(shù)據(jù)集從21個(gè)減少到15個(gè),并使用信息增益率(GainRatio)特征變換和全特征集作為比較。最后運(yùn)用多種聚類(lèi)算法來(lái)比較降維前后聚類(lèi)準(zhǔn)確率的變化。聚類(lèi)算法主要分為硬聚類(lèi)和軟聚類(lèi)兩種類(lèi)型。本文主要探討K-Means、Canopy和FarthestFirst三種硬聚類(lèi)算法在數(shù)據(jù)進(jìn)行降維處理后聚類(lèi)準(zhǔn)確率的變化,其中Canopy也是首次運(yùn)用到流量聚類(lèi)當(dāng)中。第4
廣州大學(xué)碩士畢業(yè)論文10圖3-2有監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程3.2抽樣標(biāo)記分類(lèi)模型設(shè)計(jì)傳統(tǒng)流量分類(lèi)模型的兩個(gè)階段跳過(guò)了一個(gè)很重要的環(huán)節(jié),對(duì)第二步的簇標(biāo)記過(guò)程沒(méi)有深入研究,目前僅為純?nèi)斯?biāo)記。有監(jiān)督分類(lèi)過(guò)程并未真正解決訓(xùn)練集的來(lái)源問(wèn)題,目前訓(xùn)練集均來(lái)自知名數(shù)據(jù)集或者人工逐條標(biāo)記數(shù)據(jù)集,這部分會(huì)消耗大量的人力物力。如今的網(wǎng)絡(luò)變換萬(wàn)千,我們迫切希望能在真實(shí)網(wǎng)絡(luò)環(huán)境中截取流量包,并以最小的人工代價(jià)對(duì)獲取的數(shù)據(jù)流進(jìn)行標(biāo)記。本模型是將無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)分類(lèi)結(jié)合,首先使用無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方式生成簇,然后采用抽樣方式對(duì)簇進(jìn)行標(biāo)記產(chǎn)生有噪聲分類(lèi)數(shù)據(jù),最后使用有監(jiān)督模型評(píng)估有噪聲數(shù)據(jù),形成完整的數(shù)據(jù)集、標(biāo)記、訓(xùn)練分類(lèi)器、預(yù)測(cè)未知數(shù)據(jù)的流量分類(lèi)閉環(huán)。如圖3-3所示。該模型主要分為如下幾個(gè)階段。圖3-3抽樣標(biāo)記分類(lèi)模型1、基于主成分分析降維方法進(jìn)行流量聚類(lèi)。主成分分析(PrincipalComponentsAnalysis)方法將MOORE數(shù)據(jù)集屬性從248個(gè)減少到30個(gè),同時(shí)WIDE08的數(shù)據(jù)集從21個(gè)減少到15個(gè),并使用信息增益率(GainRatio)特征變換和全特征集作為比較。最后運(yùn)用多種聚類(lèi)算法來(lái)比較降維前后聚類(lèi)準(zhǔn)確率的變化。聚類(lèi)算法主要分為硬聚類(lèi)和軟聚類(lèi)兩種類(lèi)型。本文主要探討K-Means、Canopy和FarthestFirst三種硬聚類(lèi)算法在數(shù)據(jù)進(jìn)行降維處理后聚類(lèi)準(zhǔn)確率的變化,其中Canopy也是首次運(yùn)用到流量聚類(lèi)當(dāng)中。第4
【參考文獻(xiàn)】:
期刊論文
[1]特征選擇方法與算法的研究[J]. 李敏,卡米力·木依丁. 計(jì)算機(jī)技術(shù)與發(fā)展. 2013(12)
[2]P2P流量識(shí)別技術(shù)綜述[J]. 劉三民,孫知信. 計(jì)算機(jī)科學(xué). 2011(10)
本文編號(hào):3494970
【文章來(lái)源】:廣州大學(xué)廣東省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
無(wú)監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程
廣州大學(xué)碩士畢業(yè)論文10圖3-2有監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程3.2抽樣標(biāo)記分類(lèi)模型設(shè)計(jì)傳統(tǒng)流量分類(lèi)模型的兩個(gè)階段跳過(guò)了一個(gè)很重要的環(huán)節(jié),對(duì)第二步的簇標(biāo)記過(guò)程沒(méi)有深入研究,目前僅為純?nèi)斯?biāo)記。有監(jiān)督分類(lèi)過(guò)程并未真正解決訓(xùn)練集的來(lái)源問(wèn)題,目前訓(xùn)練集均來(lái)自知名數(shù)據(jù)集或者人工逐條標(biāo)記數(shù)據(jù)集,這部分會(huì)消耗大量的人力物力。如今的網(wǎng)絡(luò)變換萬(wàn)千,我們迫切希望能在真實(shí)網(wǎng)絡(luò)環(huán)境中截取流量包,并以最小的人工代價(jià)對(duì)獲取的數(shù)據(jù)流進(jìn)行標(biāo)記。本模型是將無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)分類(lèi)結(jié)合,首先使用無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方式生成簇,然后采用抽樣方式對(duì)簇進(jìn)行標(biāo)記產(chǎn)生有噪聲分類(lèi)數(shù)據(jù),最后使用有監(jiān)督模型評(píng)估有噪聲數(shù)據(jù),形成完整的數(shù)據(jù)集、標(biāo)記、訓(xùn)練分類(lèi)器、預(yù)測(cè)未知數(shù)據(jù)的流量分類(lèi)閉環(huán)。如圖3-3所示。該模型主要分為如下幾個(gè)階段。圖3-3抽樣標(biāo)記分類(lèi)模型1、基于主成分分析降維方法進(jìn)行流量聚類(lèi)。主成分分析(PrincipalComponentsAnalysis)方法將MOORE數(shù)據(jù)集屬性從248個(gè)減少到30個(gè),同時(shí)WIDE08的數(shù)據(jù)集從21個(gè)減少到15個(gè),并使用信息增益率(GainRatio)特征變換和全特征集作為比較。最后運(yùn)用多種聚類(lèi)算法來(lái)比較降維前后聚類(lèi)準(zhǔn)確率的變化。聚類(lèi)算法主要分為硬聚類(lèi)和軟聚類(lèi)兩種類(lèi)型。本文主要探討K-Means、Canopy和FarthestFirst三種硬聚類(lèi)算法在數(shù)據(jù)進(jìn)行降維處理后聚類(lèi)準(zhǔn)確率的變化,其中Canopy也是首次運(yùn)用到流量聚類(lèi)當(dāng)中。第4
廣州大學(xué)碩士畢業(yè)論文10圖3-2有監(jiān)督學(xué)習(xí)流量分類(lèi)過(guò)程3.2抽樣標(biāo)記分類(lèi)模型設(shè)計(jì)傳統(tǒng)流量分類(lèi)模型的兩個(gè)階段跳過(guò)了一個(gè)很重要的環(huán)節(jié),對(duì)第二步的簇標(biāo)記過(guò)程沒(méi)有深入研究,目前僅為純?nèi)斯?biāo)記。有監(jiān)督分類(lèi)過(guò)程并未真正解決訓(xùn)練集的來(lái)源問(wèn)題,目前訓(xùn)練集均來(lái)自知名數(shù)據(jù)集或者人工逐條標(biāo)記數(shù)據(jù)集,這部分會(huì)消耗大量的人力物力。如今的網(wǎng)絡(luò)變換萬(wàn)千,我們迫切希望能在真實(shí)網(wǎng)絡(luò)環(huán)境中截取流量包,并以最小的人工代價(jià)對(duì)獲取的數(shù)據(jù)流進(jìn)行標(biāo)記。本模型是將無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)分類(lèi)結(jié)合,首先使用無(wú)監(jiān)督學(xué)習(xí)分類(lèi)方式生成簇,然后采用抽樣方式對(duì)簇進(jìn)行標(biāo)記產(chǎn)生有噪聲分類(lèi)數(shù)據(jù),最后使用有監(jiān)督模型評(píng)估有噪聲數(shù)據(jù),形成完整的數(shù)據(jù)集、標(biāo)記、訓(xùn)練分類(lèi)器、預(yù)測(cè)未知數(shù)據(jù)的流量分類(lèi)閉環(huán)。如圖3-3所示。該模型主要分為如下幾個(gè)階段。圖3-3抽樣標(biāo)記分類(lèi)模型1、基于主成分分析降維方法進(jìn)行流量聚類(lèi)。主成分分析(PrincipalComponentsAnalysis)方法將MOORE數(shù)據(jù)集屬性從248個(gè)減少到30個(gè),同時(shí)WIDE08的數(shù)據(jù)集從21個(gè)減少到15個(gè),并使用信息增益率(GainRatio)特征變換和全特征集作為比較。最后運(yùn)用多種聚類(lèi)算法來(lái)比較降維前后聚類(lèi)準(zhǔn)確率的變化。聚類(lèi)算法主要分為硬聚類(lèi)和軟聚類(lèi)兩種類(lèi)型。本文主要探討K-Means、Canopy和FarthestFirst三種硬聚類(lèi)算法在數(shù)據(jù)進(jìn)行降維處理后聚類(lèi)準(zhǔn)確率的變化,其中Canopy也是首次運(yùn)用到流量聚類(lèi)當(dāng)中。第4
【參考文獻(xiàn)】:
期刊論文
[1]特征選擇方法與算法的研究[J]. 李敏,卡米力·木依丁. 計(jì)算機(jī)技術(shù)與發(fā)展. 2013(12)
[2]P2P流量識(shí)別技術(shù)綜述[J]. 劉三民,孫知信. 計(jì)算機(jī)科學(xué). 2011(10)
本文編號(hào):3494970
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3494970.html
最近更新
教材專(zhuān)著