基于FP-Growth的網(wǎng)絡(luò)流量識(shí)別技術(shù)研究
發(fā)布時(shí)間:2021-11-04 11:13
基于當(dāng)前我國(guó)的網(wǎng)絡(luò)環(huán)境以及流量識(shí)別和分類的基本需求,本文詳盡地闡釋了關(guān)聯(lián)規(guī)則匹配算法的原理以及其中的代表——FP-Growth算法在分類應(yīng)用中的原理,在此基礎(chǔ)上將原始流量進(jìn)行分層處理,并建立了基于改進(jìn)的FP-Growth算法的網(wǎng)絡(luò)流量識(shí)別模型,最后在"KDDcup99"數(shù)據(jù)集上進(jìn)行仿真分析,從而進(jìn)一步推算出了最優(yōu)化模型的參數(shù)。從R語(yǔ)言的模擬結(jié)果來(lái)看,本文提出的FP-Growth分類算法可以實(shí)現(xiàn)對(duì)常規(guī)類型網(wǎng)絡(luò)流量的分類和識(shí)別。
【文章來(lái)源】:北京印刷學(xué)院學(xué)報(bào). 2020,28(S1)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
改進(jìn)的FP-Growth算法思路
繼而在Spark平臺(tái)上應(yīng)用改進(jìn)前后的FP-Growth算法來(lái)對(duì)上述數(shù)據(jù)集進(jìn)行處理,對(duì)每組實(shí)驗(yàn)都配置同樣的支持度。按照數(shù)據(jù)容量由小到大的順序來(lái)分四次實(shí)驗(yàn)處理表1中的數(shù)據(jù)集,在支持度為3%的時(shí)候,隨著處理數(shù)據(jù)的容量從D1增長(zhǎng)到D4。FP-Growth算法與改進(jìn)算法在挖掘這些數(shù)據(jù)集時(shí)所用時(shí)間的對(duì)比得到的實(shí)驗(yàn)結(jié)果,如圖3所示。從圖3中的實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),在算法進(jìn)行改進(jìn)以后,其運(yùn)行效率相較于以前的FP-Growth算法明顯有了提高和進(jìn)步,究其原因,主要是因?yàn)閷?duì)算法進(jìn)行的改進(jìn)是基于Spark平臺(tái)的,而這樣改進(jìn)后的方式只需要對(duì)事務(wù)數(shù)據(jù)集掃描一次就可以完成,相較于改進(jìn)以前的算法,它不需要反復(fù)地進(jìn)行數(shù)據(jù)集掃描,這樣就能夠在一定程度上縮短執(zhí)行的時(shí)間,能夠明顯提高效率。與此同時(shí),Apriori算法不需要對(duì)統(tǒng)計(jì)支持?jǐn)?shù)組進(jìn)行二次或多次定位,而是能夠直接有效定位到二進(jìn)制數(shù)組并進(jìn)行求和,這樣一來(lái)不僅其精準(zhǔn)性有所提高,算法的效率也能夠得到明顯的提高。
與Apriori相比,FP-Growth方法對(duì)頻繁集特征進(jìn)行統(tǒng)計(jì)的時(shí)候不需經(jīng)歷候選集的生成過(guò)程,而應(yīng)用了頻繁挖掘增長(zhǎng)的方法來(lái)計(jì)算頻繁規(guī)則。在FP-Growth計(jì)算流程之中,通常僅會(huì)遍歷一次對(duì)象數(shù)據(jù)集合:首先對(duì)數(shù)據(jù)集合進(jìn)行總覽,獲得頻繁1-項(xiàng)集;此后在遍歷數(shù)據(jù)集合的行為中,重點(diǎn)使用頻繁1-項(xiàng)集的support值來(lái)對(duì)非頻繁項(xiàng)進(jìn)行排序,此后基于這一排序來(lái)構(gòu)建FP-tree。最后,執(zhí)FP-Growth算法,該算法首先搜索FP-tree,搜索對(duì)應(yīng)項(xiàng)集的條件模式,繼而構(gòu)筑FP-tree,并且根據(jù)挖掘條件FP-tree再不斷的迭代FP-Growth算法,迭代運(yùn)行的時(shí)候能夠創(chuàng)造全部的頻繁項(xiàng)集。FP-Growth算法的示例圖,如圖1所示。如圖1所示,FP-Growth先將對(duì)目標(biāo)數(shù)據(jù)集合進(jìn)行一次遍歷,從而獲得頻繁1項(xiàng)集{f:4,c:4,a:3,b:3,m:3,p:3}。在項(xiàng)集的基礎(chǔ)之上,使用頻繁1-項(xiàng)集的support值來(lái)對(duì)非頻繁項(xiàng)進(jìn)行排序,此后基于這一排序來(lái)構(gòu)建FP-tree。FP-tree的結(jié)構(gòu)主要包含頭表和前綴樹(shù),其中,頭表等同于1項(xiàng)集,前綴樹(shù)則是排序之后數(shù)據(jù)集的樹(shù)狀模型。此后,挑選頭表之中的任意一個(gè)項(xiàng),這里以圖1之中的P項(xiàng)集進(jìn)行舉例,之后對(duì)P在FP-tree模型之中的全部路徑進(jìn)行掃描,得到結(jié)果為{f,c,a,m:2}和{c,b:l},故而能夠確定P的條件模式為{f,c,a,m:2}/{c,b:1}。將這些條件模式看作是一個(gè)獨(dú)立的數(shù)據(jù)集合,基于該數(shù)據(jù)集合則可以繼續(xù)執(zhí)行FP-tree的構(gòu)造及頻繁項(xiàng)集的控掘。重復(fù)上述流程到不再有條件模式基出現(xiàn)為止,這樣便可以挖掘出以P為前綴的全部頻繁項(xiàng)集。
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車(chē)牌字符識(shí)別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報(bào). 2010(03)
[2]增長(zhǎng)式卷積神經(jīng)網(wǎng)絡(luò)及其在人臉檢測(cè)中的應(yīng)用[J]. 顧佳玲,彭宏京. 系統(tǒng)仿真學(xué)報(bào). 2009(08)
[3]結(jié)合進(jìn)化計(jì)算的神經(jīng)認(rèn)知機(jī)[J]. 石大明,劉海濤,舒文豪. 計(jì)算機(jī)學(xué)報(bào). 2001(05)
[4]Neocognitron學(xué)習(xí)算法分析[J]. 洪家榮,李星原. 軟件學(xué)報(bào). 1994(04)
本文編號(hào):3475610
【文章來(lái)源】:北京印刷學(xué)院學(xué)報(bào). 2020,28(S1)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
改進(jìn)的FP-Growth算法思路
繼而在Spark平臺(tái)上應(yīng)用改進(jìn)前后的FP-Growth算法來(lái)對(duì)上述數(shù)據(jù)集進(jìn)行處理,對(duì)每組實(shí)驗(yàn)都配置同樣的支持度。按照數(shù)據(jù)容量由小到大的順序來(lái)分四次實(shí)驗(yàn)處理表1中的數(shù)據(jù)集,在支持度為3%的時(shí)候,隨著處理數(shù)據(jù)的容量從D1增長(zhǎng)到D4。FP-Growth算法與改進(jìn)算法在挖掘這些數(shù)據(jù)集時(shí)所用時(shí)間的對(duì)比得到的實(shí)驗(yàn)結(jié)果,如圖3所示。從圖3中的實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),在算法進(jìn)行改進(jìn)以后,其運(yùn)行效率相較于以前的FP-Growth算法明顯有了提高和進(jìn)步,究其原因,主要是因?yàn)閷?duì)算法進(jìn)行的改進(jìn)是基于Spark平臺(tái)的,而這樣改進(jìn)后的方式只需要對(duì)事務(wù)數(shù)據(jù)集掃描一次就可以完成,相較于改進(jìn)以前的算法,它不需要反復(fù)地進(jìn)行數(shù)據(jù)集掃描,這樣就能夠在一定程度上縮短執(zhí)行的時(shí)間,能夠明顯提高效率。與此同時(shí),Apriori算法不需要對(duì)統(tǒng)計(jì)支持?jǐn)?shù)組進(jìn)行二次或多次定位,而是能夠直接有效定位到二進(jìn)制數(shù)組并進(jìn)行求和,這樣一來(lái)不僅其精準(zhǔn)性有所提高,算法的效率也能夠得到明顯的提高。
與Apriori相比,FP-Growth方法對(duì)頻繁集特征進(jìn)行統(tǒng)計(jì)的時(shí)候不需經(jīng)歷候選集的生成過(guò)程,而應(yīng)用了頻繁挖掘增長(zhǎng)的方法來(lái)計(jì)算頻繁規(guī)則。在FP-Growth計(jì)算流程之中,通常僅會(huì)遍歷一次對(duì)象數(shù)據(jù)集合:首先對(duì)數(shù)據(jù)集合進(jìn)行總覽,獲得頻繁1-項(xiàng)集;此后在遍歷數(shù)據(jù)集合的行為中,重點(diǎn)使用頻繁1-項(xiàng)集的support值來(lái)對(duì)非頻繁項(xiàng)進(jìn)行排序,此后基于這一排序來(lái)構(gòu)建FP-tree。最后,執(zhí)FP-Growth算法,該算法首先搜索FP-tree,搜索對(duì)應(yīng)項(xiàng)集的條件模式,繼而構(gòu)筑FP-tree,并且根據(jù)挖掘條件FP-tree再不斷的迭代FP-Growth算法,迭代運(yùn)行的時(shí)候能夠創(chuàng)造全部的頻繁項(xiàng)集。FP-Growth算法的示例圖,如圖1所示。如圖1所示,FP-Growth先將對(duì)目標(biāo)數(shù)據(jù)集合進(jìn)行一次遍歷,從而獲得頻繁1項(xiàng)集{f:4,c:4,a:3,b:3,m:3,p:3}。在項(xiàng)集的基礎(chǔ)之上,使用頻繁1-項(xiàng)集的support值來(lái)對(duì)非頻繁項(xiàng)進(jìn)行排序,此后基于這一排序來(lái)構(gòu)建FP-tree。FP-tree的結(jié)構(gòu)主要包含頭表和前綴樹(shù),其中,頭表等同于1項(xiàng)集,前綴樹(shù)則是排序之后數(shù)據(jù)集的樹(shù)狀模型。此后,挑選頭表之中的任意一個(gè)項(xiàng),這里以圖1之中的P項(xiàng)集進(jìn)行舉例,之后對(duì)P在FP-tree模型之中的全部路徑進(jìn)行掃描,得到結(jié)果為{f,c,a,m:2}和{c,b:l},故而能夠確定P的條件模式為{f,c,a,m:2}/{c,b:1}。將這些條件模式看作是一個(gè)獨(dú)立的數(shù)據(jù)集合,基于該數(shù)據(jù)集合則可以繼續(xù)執(zhí)行FP-tree的構(gòu)造及頻繁項(xiàng)集的控掘。重復(fù)上述流程到不再有條件模式基出現(xiàn)為止,這樣便可以挖掘出以P為前綴的全部頻繁項(xiàng)集。
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車(chē)牌字符識(shí)別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報(bào). 2010(03)
[2]增長(zhǎng)式卷積神經(jīng)網(wǎng)絡(luò)及其在人臉檢測(cè)中的應(yīng)用[J]. 顧佳玲,彭宏京. 系統(tǒng)仿真學(xué)報(bào). 2009(08)
[3]結(jié)合進(jìn)化計(jì)算的神經(jīng)認(rèn)知機(jī)[J]. 石大明,劉海濤,舒文豪. 計(jì)算機(jī)學(xué)報(bào). 2001(05)
[4]Neocognitron學(xué)習(xí)算法分析[J]. 洪家榮,李星原. 軟件學(xué)報(bào). 1994(04)
本文編號(hào):3475610
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3475610.html
最近更新
教材專著