基于FP-Growth的網絡流量識別技術研究
發(fā)布時間:2021-11-04 11:13
基于當前我國的網絡環(huán)境以及流量識別和分類的基本需求,本文詳盡地闡釋了關聯規(guī)則匹配算法的原理以及其中的代表——FP-Growth算法在分類應用中的原理,在此基礎上將原始流量進行分層處理,并建立了基于改進的FP-Growth算法的網絡流量識別模型,最后在"KDDcup99"數據集上進行仿真分析,從而進一步推算出了最優(yōu)化模型的參數。從R語言的模擬結果來看,本文提出的FP-Growth分類算法可以實現對常規(guī)類型網絡流量的分類和識別。
【文章來源】:北京印刷學院學報. 2020,28(S1)
【文章頁數】:5 頁
【部分圖文】:
改進的FP-Growth算法思路
繼而在Spark平臺上應用改進前后的FP-Growth算法來對上述數據集進行處理,對每組實驗都配置同樣的支持度。按照數據容量由小到大的順序來分四次實驗處理表1中的數據集,在支持度為3%的時候,隨著處理數據的容量從D1增長到D4。FP-Growth算法與改進算法在挖掘這些數據集時所用時間的對比得到的實驗結果,如圖3所示。從圖3中的實驗結果不難發(fā)現,在算法進行改進以后,其運行效率相較于以前的FP-Growth算法明顯有了提高和進步,究其原因,主要是因為對算法進行的改進是基于Spark平臺的,而這樣改進后的方式只需要對事務數據集掃描一次就可以完成,相較于改進以前的算法,它不需要反復地進行數據集掃描,這樣就能夠在一定程度上縮短執(zhí)行的時間,能夠明顯提高效率。與此同時,Apriori算法不需要對統(tǒng)計支持數組進行二次或多次定位,而是能夠直接有效定位到二進制數組并進行求和,這樣一來不僅其精準性有所提高,算法的效率也能夠得到明顯的提高。
與Apriori相比,FP-Growth方法對頻繁集特征進行統(tǒng)計的時候不需經歷候選集的生成過程,而應用了頻繁挖掘增長的方法來計算頻繁規(guī)則。在FP-Growth計算流程之中,通常僅會遍歷一次對象數據集合:首先對數據集合進行總覽,獲得頻繁1-項集;此后在遍歷數據集合的行為中,重點使用頻繁1-項集的support值來對非頻繁項進行排序,此后基于這一排序來構建FP-tree。最后,執(zhí)FP-Growth算法,該算法首先搜索FP-tree,搜索對應項集的條件模式,繼而構筑FP-tree,并且根據挖掘條件FP-tree再不斷的迭代FP-Growth算法,迭代運行的時候能夠創(chuàng)造全部的頻繁項集。FP-Growth算法的示例圖,如圖1所示。如圖1所示,FP-Growth先將對目標數據集合進行一次遍歷,從而獲得頻繁1項集{f:4,c:4,a:3,b:3,m:3,p:3}。在項集的基礎之上,使用頻繁1-項集的support值來對非頻繁項進行排序,此后基于這一排序來構建FP-tree。FP-tree的結構主要包含頭表和前綴樹,其中,頭表等同于1項集,前綴樹則是排序之后數據集的樹狀模型。此后,挑選頭表之中的任意一個項,這里以圖1之中的P項集進行舉例,之后對P在FP-tree模型之中的全部路徑進行掃描,得到結果為{f,c,a,m:2}和{c,b:l},故而能夠確定P的條件模式為{f,c,a,m:2}/{c,b:1}。將這些條件模式看作是一個獨立的數據集合,基于該數據集合則可以繼續(xù)執(zhí)行FP-tree的構造及頻繁項集的控掘。重復上述流程到不再有條件模式基出現為止,這樣便可以挖掘出以P為前綴的全部頻繁項集。
【參考文獻】:
期刊論文
[1]基于卷積神經網絡LeNet-5的車牌字符識別研究[J]. 趙志宏,楊紹普,馬增強. 系統(tǒng)仿真學報. 2010(03)
[2]增長式卷積神經網絡及其在人臉檢測中的應用[J]. 顧佳玲,彭宏京. 系統(tǒng)仿真學報. 2009(08)
[3]結合進化計算的神經認知機[J]. 石大明,劉海濤,舒文豪. 計算機學報. 2001(05)
[4]Neocognitron學習算法分析[J]. 洪家榮,李星原. 軟件學報. 1994(04)
本文編號:3475610
【文章來源】:北京印刷學院學報. 2020,28(S1)
【文章頁數】:5 頁
【部分圖文】:
改進的FP-Growth算法思路
繼而在Spark平臺上應用改進前后的FP-Growth算法來對上述數據集進行處理,對每組實驗都配置同樣的支持度。按照數據容量由小到大的順序來分四次實驗處理表1中的數據集,在支持度為3%的時候,隨著處理數據的容量從D1增長到D4。FP-Growth算法與改進算法在挖掘這些數據集時所用時間的對比得到的實驗結果,如圖3所示。從圖3中的實驗結果不難發(fā)現,在算法進行改進以后,其運行效率相較于以前的FP-Growth算法明顯有了提高和進步,究其原因,主要是因為對算法進行的改進是基于Spark平臺的,而這樣改進后的方式只需要對事務數據集掃描一次就可以完成,相較于改進以前的算法,它不需要反復地進行數據集掃描,這樣就能夠在一定程度上縮短執(zhí)行的時間,能夠明顯提高效率。與此同時,Apriori算法不需要對統(tǒng)計支持數組進行二次或多次定位,而是能夠直接有效定位到二進制數組并進行求和,這樣一來不僅其精準性有所提高,算法的效率也能夠得到明顯的提高。
與Apriori相比,FP-Growth方法對頻繁集特征進行統(tǒng)計的時候不需經歷候選集的生成過程,而應用了頻繁挖掘增長的方法來計算頻繁規(guī)則。在FP-Growth計算流程之中,通常僅會遍歷一次對象數據集合:首先對數據集合進行總覽,獲得頻繁1-項集;此后在遍歷數據集合的行為中,重點使用頻繁1-項集的support值來對非頻繁項進行排序,此后基于這一排序來構建FP-tree。最后,執(zhí)FP-Growth算法,該算法首先搜索FP-tree,搜索對應項集的條件模式,繼而構筑FP-tree,并且根據挖掘條件FP-tree再不斷的迭代FP-Growth算法,迭代運行的時候能夠創(chuàng)造全部的頻繁項集。FP-Growth算法的示例圖,如圖1所示。如圖1所示,FP-Growth先將對目標數據集合進行一次遍歷,從而獲得頻繁1項集{f:4,c:4,a:3,b:3,m:3,p:3}。在項集的基礎之上,使用頻繁1-項集的support值來對非頻繁項進行排序,此后基于這一排序來構建FP-tree。FP-tree的結構主要包含頭表和前綴樹,其中,頭表等同于1項集,前綴樹則是排序之后數據集的樹狀模型。此后,挑選頭表之中的任意一個項,這里以圖1之中的P項集進行舉例,之后對P在FP-tree模型之中的全部路徑進行掃描,得到結果為{f,c,a,m:2}和{c,b:l},故而能夠確定P的條件模式為{f,c,a,m:2}/{c,b:1}。將這些條件模式看作是一個獨立的數據集合,基于該數據集合則可以繼續(xù)執(zhí)行FP-tree的構造及頻繁項集的控掘。重復上述流程到不再有條件模式基出現為止,這樣便可以挖掘出以P為前綴的全部頻繁項集。
【參考文獻】:
期刊論文
[1]基于卷積神經網絡LeNet-5的車牌字符識別研究[J]. 趙志宏,楊紹普,馬增強. 系統(tǒng)仿真學報. 2010(03)
[2]增長式卷積神經網絡及其在人臉檢測中的應用[J]. 顧佳玲,彭宏京. 系統(tǒng)仿真學報. 2009(08)
[3]結合進化計算的神經認知機[J]. 石大明,劉海濤,舒文豪. 計算機學報. 2001(05)
[4]Neocognitron學習算法分析[J]. 洪家榮,李星原. 軟件學報. 1994(04)
本文編號:3475610
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3475610.html
最近更新
教材專著