基于機(jī)器學(xué)習(xí)的流量分類算法研究
發(fā)布時間:2021-07-04 15:02
網(wǎng)絡(luò)流量分類有助于網(wǎng)絡(luò)服務(wù)提供商優(yōu)化網(wǎng)絡(luò)帶寬、提高網(wǎng)絡(luò)服務(wù)質(zhì)量、對特定的應(yīng)用進(jìn)行計費(fèi),以及監(jiān)測惡意流量,確保網(wǎng)絡(luò)安全等。目前流量分類技術(shù)主要面臨兩個挑戰(zhàn):一是,越來越多的網(wǎng)絡(luò)應(yīng)用使用隨機(jī)端口和負(fù)載加密技術(shù)躲避流量監(jiān)測,這給流量分類算法的準(zhǔn)確率提出了新的挑戰(zhàn)。二是,網(wǎng)絡(luò)出口吞吐量的飛速增長給流量分類算法的實(shí)時性提出了更高的要求。本文采用機(jī)器學(xué)習(xí)技術(shù)以解決流量分類領(lǐng)域面臨的主要問題,從優(yōu)化特征選擇和改進(jìn)分類算法兩個角度來提高流量分類的準(zhǔn)確性、穩(wěn)定性和實(shí)時性。全文首先系統(tǒng)地介紹了網(wǎng)絡(luò)流量分類的主要技術(shù)及其特點(diǎn),總結(jié)了流量分類面臨的主要困難和研究現(xiàn)狀。然后本文以解決類別不平衡問題、流量統(tǒng)計特征的偏置問題以及負(fù)載特征自動提取問題為行文脈絡(luò),以提高流量分類的準(zhǔn)確性、穩(wěn)定性及實(shí)時性為研究目標(biāo),針對性地提出了若干改進(jìn)網(wǎng)絡(luò)流量分類的算法,具體分為以下幾個方面。(1)協(xié)議分布的不平衡性使機(jī)器學(xué)習(xí)流量分類算法識別小類別(small class)的檢全率低;大類別(large class)產(chǎn)生的數(shù)據(jù)流的動態(tài)變化又會使分類算法的總體準(zhǔn)確率不穩(wěn)定且隨著時間的推移逐漸下降。為此,本文提出了改進(jìn)的Bagging算法。...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:129 頁
【學(xué)位級別】:博士
【部分圖文】:
章節(jié)組織結(jié)構(gòu)
圖 2-2 每個數(shù)據(jù)集中各協(xié)議流所占的字節(jié)比例Fig.2-2 Byte proportion of protocol samples in each data set各種協(xié)議流量所占的字節(jié)比例如圖 2-2 所示。由圖 2-1 和圖 2-2 對比,我們發(fā)現(xiàn) dump4、dump5 數(shù)據(jù)集中,http 流比例雖然很大,但字節(jié)比例卻不是最大- 24 -
性也在逐漸下降,如圖 2-5 所示。因此,在本次實(shí)驗中,新協(xié)議流量的出現(xiàn)不是造成分類算法流準(zhǔn)確性下降的主要原因。本節(jié)進(jìn)一步分析了每個分類算法的流準(zhǔn)確率與分類算法識別 http 檢全率之間的關(guān)系(如圖 2-6 所示)。可見,流準(zhǔn)確率與識別 http 的檢全率有相同的變化趨勢。從圖 2-1(如 2.4.2 節(jié)所示)可見,http 協(xié)議流的樣本數(shù)所占的比例是最大的,可認(rèn)為是大類別。因此,在協(xié)議分- 30 -
【參考文獻(xiàn)】:
期刊論文
[1]基于C4.5決策樹的流量分類方法[J]. 徐鵬,林森. 軟件學(xué)報. 2009(10)
[2]P2P網(wǎng)絡(luò)中Churn問題研究[J]. 張宇翔,楊冬,張宏科. 軟件學(xué)報. 2009(05)
[3]基于支持向量機(jī)的Internet流量分類研究[J]. 徐鵬,劉瓊,林森. 計算機(jī)研究與發(fā)展. 2009(03)
[4]基于Apriori算法的流量識別特征自動提取方法[J]. 劉興彬,楊建華,謝高崗,胡玥. 通信學(xué)報. 2008(12)
[5]基于復(fù)合特征的P2P業(yè)務(wù)識別系統(tǒng)的研究與實(shí)現(xiàn)[J]. 陳慶章,邵奔,陳超. 東南大學(xué)學(xué)報(自然科學(xué)版). 2008(S1)
[6]面向流量識別系統(tǒng)的聚類算法的比較與分析[J]. 蘇欣,楊建華,張大方,謝高崗. 計算技術(shù)與自動化. 2008(03)
[7]改進(jìn)的對等網(wǎng)絡(luò)流量傳輸層識別方法[J]. 徐鵬,劉瓊,林森. 計算機(jī)研究與發(fā)展. 2008(05)
[8]應(yīng)用于高速網(wǎng)絡(luò)的基于報文采樣和應(yīng)用簽名的BitTorrent流量識別算法[J]. 郭振濱,裘正定. 計算機(jī)研究與發(fā)展. 2008(02)
[9]多模式匹配算法及硬件實(shí)現(xiàn)[J]. 李偉男,鄂躍鵬,葛敬國,錢華林. 軟件學(xué)報. 2006(12)
博士論文
[1]骨干網(wǎng)流監(jiān)測關(guān)鍵技術(shù)研究[D]. 張玉.哈爾濱工業(yè)大學(xué) 2010
[2]P2P流媒體識別方法的研究[D]. 周麗娟.華中科技大學(xué) 2008
[3]串匹配算法及其在網(wǎng)絡(luò)內(nèi)容分析中的應(yīng)用[D]. 譚建龍.中國科學(xué)院研究生院(計算技術(shù)研究所) 2003
碩士論文
[1]基于特征串的P2P流量識別研究與實(shí)現(xiàn)[D]. 趙瑞.電子科技大學(xué) 2009
本文編號:3265009
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:129 頁
【學(xué)位級別】:博士
【部分圖文】:
章節(jié)組織結(jié)構(gòu)
圖 2-2 每個數(shù)據(jù)集中各協(xié)議流所占的字節(jié)比例Fig.2-2 Byte proportion of protocol samples in each data set各種協(xié)議流量所占的字節(jié)比例如圖 2-2 所示。由圖 2-1 和圖 2-2 對比,我們發(fā)現(xiàn) dump4、dump5 數(shù)據(jù)集中,http 流比例雖然很大,但字節(jié)比例卻不是最大- 24 -
性也在逐漸下降,如圖 2-5 所示。因此,在本次實(shí)驗中,新協(xié)議流量的出現(xiàn)不是造成分類算法流準(zhǔn)確性下降的主要原因。本節(jié)進(jìn)一步分析了每個分類算法的流準(zhǔn)確率與分類算法識別 http 檢全率之間的關(guān)系(如圖 2-6 所示)。可見,流準(zhǔn)確率與識別 http 的檢全率有相同的變化趨勢。從圖 2-1(如 2.4.2 節(jié)所示)可見,http 協(xié)議流的樣本數(shù)所占的比例是最大的,可認(rèn)為是大類別。因此,在協(xié)議分- 30 -
【參考文獻(xiàn)】:
期刊論文
[1]基于C4.5決策樹的流量分類方法[J]. 徐鵬,林森. 軟件學(xué)報. 2009(10)
[2]P2P網(wǎng)絡(luò)中Churn問題研究[J]. 張宇翔,楊冬,張宏科. 軟件學(xué)報. 2009(05)
[3]基于支持向量機(jī)的Internet流量分類研究[J]. 徐鵬,劉瓊,林森. 計算機(jī)研究與發(fā)展. 2009(03)
[4]基于Apriori算法的流量識別特征自動提取方法[J]. 劉興彬,楊建華,謝高崗,胡玥. 通信學(xué)報. 2008(12)
[5]基于復(fù)合特征的P2P業(yè)務(wù)識別系統(tǒng)的研究與實(shí)現(xiàn)[J]. 陳慶章,邵奔,陳超. 東南大學(xué)學(xué)報(自然科學(xué)版). 2008(S1)
[6]面向流量識別系統(tǒng)的聚類算法的比較與分析[J]. 蘇欣,楊建華,張大方,謝高崗. 計算技術(shù)與自動化. 2008(03)
[7]改進(jìn)的對等網(wǎng)絡(luò)流量傳輸層識別方法[J]. 徐鵬,劉瓊,林森. 計算機(jī)研究與發(fā)展. 2008(05)
[8]應(yīng)用于高速網(wǎng)絡(luò)的基于報文采樣和應(yīng)用簽名的BitTorrent流量識別算法[J]. 郭振濱,裘正定. 計算機(jī)研究與發(fā)展. 2008(02)
[9]多模式匹配算法及硬件實(shí)現(xiàn)[J]. 李偉男,鄂躍鵬,葛敬國,錢華林. 軟件學(xué)報. 2006(12)
博士論文
[1]骨干網(wǎng)流監(jiān)測關(guān)鍵技術(shù)研究[D]. 張玉.哈爾濱工業(yè)大學(xué) 2010
[2]P2P流媒體識別方法的研究[D]. 周麗娟.華中科技大學(xué) 2008
[3]串匹配算法及其在網(wǎng)絡(luò)內(nèi)容分析中的應(yīng)用[D]. 譚建龍.中國科學(xué)院研究生院(計算技術(shù)研究所) 2003
碩士論文
[1]基于特征串的P2P流量識別研究與實(shí)現(xiàn)[D]. 趙瑞.電子科技大學(xué) 2009
本文編號:3265009
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3265009.html
最近更新
教材專著