天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

互聯(lián)網(wǎng)中基于用戶連接圖的流量分類機(jī)制

發(fā)布時間:2019-08-19 10:08
【摘要】:針對機(jī)器學(xué)習(xí)分類算法的"概念漂移"現(xiàn)象,該文提出了一種基于用戶連接圖的(Host Connection Graph,HCG)流量分類機(jī)制。算法將{IP Address,Port}作為用戶唯一標(biāo)識,構(gòu)建了用戶連接圖,提出了"用戶相似度"的概念;應(yīng)用"圖挖掘"理論將用戶連接圖劃分為互不相交的行為子簇,使得用戶之間的相互通信抽象為一種"社會團(tuán)體";通過定義基于信息熵的"用戶行為模式"(UBM),分析了各個行為子簇背后表現(xiàn)出的業(yè)務(wù)特征,并使用"UBM+Port"對用戶行為子簇進(jìn)行了業(yè)務(wù)標(biāo)簽映射,實(shí)現(xiàn)了流量分類的目的。仿真實(shí)驗(yàn)表明:在不犧牲識別準(zhǔn)確率的前提下,算法不僅能克服"概念漂移"問題,還能有效降低算法的計算復(fù)雜度。
【圖文】:

示意圖,相似度,示意圖


,3v相連,則定義用戶iv的相鄰用戶集合為{}123,,iU=vvv。定義2用戶相似度(usersimilarity)若用戶iv與jv為相鄰用戶,則定義iv與jv的用戶相似度為無窮大¥(即兩個用戶具有共同的業(yè)務(wù)應(yīng)用);若iv與jv不相鄰,且iv,jv對應(yīng)的相鄰用戶集合為iU和jU,則iv與jv的用戶相似度定義為兩個相鄰集合共享用戶的個數(shù)||ijUU。用戶相似度從用戶的周圍連接環(huán)境出發(fā),不僅僅孤立地計算單一用戶對之間的關(guān)聯(lián),而是引入了以“用戶之間共享最近鄰”為指標(biāo)的相似性度量。如圖1所示,用戶A和B之間共享4個用戶連接,根據(jù)用戶相似度的定義,A和B之間的相似度為4。用戶相似度基于如下原理:若用戶1v與用戶iv直接相連,用戶nv和用戶iv直接相連,則認(rèn)定1v與nv具有較高的業(yè)務(wù)相似度。譜聚類的過程是基于數(shù)據(jù)點(diǎn)的相似度矩陣進(jìn)行的,HCG算法則是以“用戶相似度”來度量用戶之間的業(yè)務(wù)交互行為,并基于譜聚類將用戶連接圖G(V,E)進(jìn)行行為子簇的劃分。表1給出了基于譜聚類的用戶行為子簇劃分的詳細(xì)流程。圖1用戶相似度示意圖4基于信息熵的用戶行為分析4.1基于信息熵的行為定義在用戶連接圖G(V,E)中,用{SrcIP,SrcPort,DstIP,DstPort}4維元素來標(biāo)識一條用戶連接。若固定SrcIP,則{SrcIP,SrcPort,*,*}、{SrcIP,*,DstIP,*}、{SrcIP,*,*,DstPort}的連接數(shù)會呈現(xiàn)不同值,其中“*”代表任意值。分別計算相對熵R(SrcIP,SrcPort,*,*)、R(SrcIP,*,DstIP,*)、R(SrcIP,*,*,DstPort)。為方便描述,特將R(SrcIP,SrcPort,*,*)簡寫為R(SrcPort),其它依次類比。由于R(SrcPort)表示在某一SrcIP下,以SrcPort為變量的相對熵值,所以R(SrcPort)實(shí)質(zhì)上體現(xiàn)了SrcPort平均不確定性;诖

連接圖,行為,結(jié)點(diǎn),度數(shù)


第4期張震等:互聯(lián)網(wǎng)中基于用戶連接圖的流量分類機(jī)制961Scan病毒。IPScan病毒表現(xiàn)的行為特征是用戶使用設(shè)定的目的端口與受害者通信;PortScan病毒則對固定的用戶地址進(jìn)行端口掃面。4.2行為子簇的業(yè)務(wù)標(biāo)簽映射基于譜聚類的方法將樣本集合劃分為不同的子簇1{,,}qC=CC,流量分類需要根據(jù)用戶行為模式進(jìn)一步確定任意子簇對應(yīng)的業(yè)務(wù)標(biāo)簽iL,iLL1{,,}m=LL。其中,業(yè)務(wù)標(biāo)簽為樣本集合的所屬類別。如圖2所示,HCG算法對行為子簇進(jìn)行標(biāo)簽映射的核心步驟如下:圖2對用戶結(jié)點(diǎn)進(jìn)行標(biāo)注步驟1尋求行為子簇中度數(shù)最大的用戶結(jié)點(diǎn)uiHCG算法按照行為子簇中用戶的度數(shù)大小進(jìn)行標(biāo)注:一方面,在用戶連接圖中,用戶結(jié)點(diǎn)的度數(shù)越大表明其相鄰用戶越多,作為服務(wù)器的可能性也就越大;另一方面,若連接度數(shù)最大的用戶結(jié)點(diǎn)被標(biāo)注,則與其直接相連的用戶也相應(yīng)地得到了識別,從而能有效降低算法的計算復(fù)雜度。步驟2應(yīng)用“用戶行為模式+端口號”標(biāo)注結(jié)點(diǎn)uiHCG算法使用“用戶行為模式+端口號”的方式對用戶結(jié)點(diǎn)ui進(jìn)行類型標(biāo)注。根據(jù)定義3,首先計算ui的行為模式,然后結(jié)合熟知端口號進(jìn)行識別:(1)對于Server行為,結(jié)合熟知端口號進(jìn)行業(yè)務(wù)識別,如:FTP,DNS,HTTP,Email,Telnet等;非熟知端口業(yè)務(wù)結(jié)合固定端口號識別,如:游戲(如“魔獸世界”對應(yīng)端口3424)、數(shù)據(jù)庫服務(wù)(如Mysql服務(wù)對應(yīng)端口3306)等。(2)對于P2P業(yè)務(wù),若某用戶的行為模式滿足M(SrcIP)={A,B,C},其中A<2,B<2,C<2,則該用戶被定義為“疑似P2P用戶”。如果行為子簇中存在大于T個疑似P2P用戶,則該子簇表現(xiàn)為P2P行為,,并將所有“疑似P2P用戶”標(biāo)注為P2P用戶。(3)只需分析用戶行為模式M(SrcIP)={0,2,0},{2,2,0},{0,0,2},{2,0,2},即可判定病毒型?
【作者單位】: 國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心;
【基金】:國家973規(guī)劃項目(2012CB312901,2012CB312905) 國家863計劃項目(2011AA01A103)資助課題
【分類號】:TP393.06

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 李先通;李建中;高宏;;一種高效頻繁子圖挖掘算法[J];軟件學(xué)報;2007年10期

2 魯剛;張宏莉;葉麟;;P2P流量識別[J];軟件學(xué)報;2011年06期

【共引文獻(xiàn)】

相關(guān)期刊論文 前4條

1 張碩;李建中;高宏;鄒兆年;;一種多到一子圖同構(gòu)檢測方法[J];軟件學(xué)報;2010年03期

2 薄拾;葛寧;林孝康;;一種高效的凸連通子圖枚舉算法[J];軟件學(xué)報;2010年12期

3 劉榮輝;鄭建國;王翔;;采用最小DFS的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取[J];圖書情報工作;2010年14期

4 鄧偉鋒;程紹銀;蔣凡;呂秀全;;應(yīng)用層負(fù)載特征定義及自動提取方法[J];通信技術(shù);2012年07期

相關(guān)會議論文 前1條

1 郭景峰;陳曉;趙麗;鄒曉紅;;一種改進(jìn)的閉圖挖掘算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

相關(guān)博士學(xué)位論文 前5條

1 彭佳揚(yáng);代謝網(wǎng)絡(luò)中功能模塊挖掘和進(jìn)化分析研究[D];中南大學(xué);2011年

2 鄒曉紅;用于圖分類的頻繁子結(jié)構(gòu)挖掘算法研究[D];燕山大學(xué);2011年

3 鄒磊;圖數(shù)據(jù)庫中的子圖查詢算法研究[D];華中科技大學(xué);2009年

4 馬露杰;三維CAD模型形狀結(jié)構(gòu)分析方法[D];華中科技大學(xué);2009年

5 張世棟;對等網(wǎng)絡(luò)文件共享服務(wù)的優(yōu)化技術(shù)研究[D];北京郵電大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 方霞;代碼逆向分析中的語句恢復(fù)與算法識別技術(shù)研究[D];解放軍信息工程大學(xué);2009年

2 沈亮;基于粒子群算法的聚類及圖聚類研究[D];山西財經(jīng)大學(xué);2011年

3 李甲;基于特征索引的圖查詢研究[D];燕山大學(xué);2011年

4 張偉;頻繁子圖挖掘算法的研究[D];燕山大學(xué);2011年

5 柴然;最大頻繁子圖挖掘算法研究[D];燕山大學(xué);2010年

6 鄭超;大規(guī)模圖集的頻繁子圖挖掘算法研究[D];燕山大學(xué);2010年

7 梁敏;基于統(tǒng)計行為的P2P文件共享加密流量識別技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2011年

8 陳立寧;頻繁子圖挖掘算法的研究[D];長沙理工大學(xué);2011年

9 張小敏;基于DPI的P2P流量識別方法研究[D];南京郵電大學(xué);2012年

10 史嶺峰;基于社交網(wǎng)絡(luò)好友關(guān)系的圖查詢算法研究與應(yīng)用[D];南京理工大學(xué);2012年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 李偉男;鄂躍鵬;葛敬國;錢華林;;多模式匹配算法及硬件實(shí)現(xiàn)[J];軟件學(xué)報;2006年12期

2 張宇翔;楊冬;張宏科;;P2P網(wǎng)絡(luò)中Churn問題研究[J];軟件學(xué)報;2009年05期

3 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學(xué)報;2009年10期

4 劉興彬;楊建華;謝高崗;胡s

本文編號:2528180


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2528180.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d723***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com