基于數(shù)據(jù)挖掘的工業(yè)互聯(lián)網(wǎng)入侵檢測方法研究
發(fā)布時間:2021-11-20 03:53
隨著互聯(lián)網(wǎng)技術(shù)與現(xiàn)代工業(yè)生產(chǎn)逐步融合,網(wǎng)絡(luò)在使生產(chǎn)制造更加智能高效的同時,也使工業(yè)互聯(lián)網(wǎng)面臨更多的安全威脅。因此,保護(hù)網(wǎng)絡(luò)信息安全,及時發(fā)現(xiàn)和處理異常訪問數(shù)據(jù),對于保障工業(yè)互聯(lián)網(wǎng)安全穩(wěn)健地運(yùn)行至關(guān)重要。入侵檢測系統(tǒng)作為網(wǎng)絡(luò)安全防御工具,能夠快速檢測和識別惡意入侵并做出應(yīng)急響應(yīng)。在基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測中,入侵檢測系統(tǒng)需要處理的數(shù)據(jù)以靜態(tài)數(shù)據(jù)集或動態(tài)數(shù)據(jù)流的形式存在。面向靜態(tài)數(shù)據(jù)集的入侵檢測,極易因?yàn)閿?shù)據(jù)冗余造成數(shù)據(jù)挖掘算法效果不佳,并且消耗大量計算和儲存資源;面向動態(tài)數(shù)據(jù)流的入侵檢測,因?yàn)橛^察樣本有限,可能導(dǎo)致建立的數(shù)據(jù)挖掘模型不能很好地適應(yīng)數(shù)據(jù)流的動態(tài)變化。基于上述問題,本文做出如下工作:1.論文基于經(jīng)典決策樹算法的基本概念、核心算法和實(shí)現(xiàn)過程,分析了在靜態(tài)數(shù)據(jù)集和網(wǎng)絡(luò)數(shù)據(jù)流環(huán)境下,決策樹算法在設(shè)計原理、實(shí)現(xiàn)細(xì)節(jié)、和主要訴求上的聯(lián)系與區(qū)別。2.針對面向靜態(tài)數(shù)據(jù)集的入侵檢測中數(shù)據(jù)冗余影響數(shù)據(jù)挖掘算法效果的問題,論文提出了一種基于樹模型的數(shù)據(jù)約簡方法。該方法作為一種數(shù)據(jù)預(yù)處理手段,結(jié)合子群發(fā)現(xiàn)技術(shù)對數(shù)據(jù)集進(jìn)行數(shù)據(jù)篩選,減小數(shù)據(jù)集規(guī)模、合理劃分?jǐn)?shù)據(jù)集,從而減少后續(xù)數(shù)據(jù)挖掘算法的計算開銷...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹模型在數(shù)據(jù)集上的應(yīng)用實(shí)例;(a)原始數(shù)據(jù)集的散點(diǎn)圖;(b)決策樹模型
第二章入侵檢測系統(tǒng)與決策樹算法19公式(2-10)闡明了對于取值范圍為的任意隨機(jī)變量,在經(jīng)過n次獨(dú)立重復(fù)試驗(yàn)后,觀察得到的經(jīng)驗(yàn)均值與真實(shí)均值()之間的誤差上界,能夠在1δ的置信水平下認(rèn)為不超過ε。公式(2-10)也給出了在已知隨機(jī)變量的取值范圍時,在置信水平1δ的條件下樣本量與ε之間的關(guān)系,如公式(2-11)所示。圖2-2展示了在公式(2-11)中δ,,n三者之間的關(guān)系,當(dāng)參數(shù)一定時,隨著樣本觀測數(shù)的增大,迅速減小并無限趨近于零;當(dāng)一定時,參數(shù)越大,所需要的樣本觀測數(shù)就越大。22Pr(())nRXEXe(2-10)2ln(1/)2Rn(2-11)公式(2-11)就是在動態(tài)數(shù)據(jù)流環(huán)境下建立霍夫丁樹所需要的Hoeffding邊界條件。此時隨機(jī)變量指的是信息增益或Gini系數(shù),所以表示信息增益或Gini系數(shù)的取值范圍。傳統(tǒng)決策樹與公式(2-11)的結(jié)合,就可以使得利用有限樣本量去估算樣本量無限時可接受的最優(yōu)分裂屬性成為可能。圖2-2Hoeffding邊界條件中δ,,n三者之間的關(guān)系霍夫丁樹與面向數(shù)據(jù)集的傳統(tǒng)決策樹結(jié)構(gòu)相同,同樣由根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)、葉子節(jié)點(diǎn)和有向邊構(gòu)成,各元素的作用與傳統(tǒng)決策樹一致,屬性測試條件可選用信息增益或Gini系數(shù)。以Gini系數(shù)為例,霍夫丁樹算法的實(shí)現(xiàn)過程如下所示:步驟1:如果沒有根節(jié)點(diǎn),則創(chuàng)建霍夫丁樹的根節(jié)點(diǎn),將每一個新樣本輸送到根節(jié)點(diǎn)。如果存在其他葉子節(jié)點(diǎn),則將每一個新樣本輸送到相應(yīng)的葉子節(jié)點(diǎn);步驟2:接收到新樣本后,節(jié)點(diǎn)處的統(tǒng)計信息將會被更新,包括數(shù)據(jù)量、每個屬性取值下的類標(biāo)簽頻率等;
第三章面向靜態(tài)數(shù)據(jù)集的數(shù)據(jù)約簡方法研究23(a)(b)(c)圖3-1屬性變量局部取值與類變量的三種純度關(guān)系。(a)一點(diǎn)可分(Onesplitpoint);(b)多點(diǎn)可分(Multiplesplitpoints);(c)完全不可分(Mixedstate)圖3-1展示了從KDDCUP1999數(shù)據(jù)集中選取的三個特征變量在等寬離散化為十個子區(qū)間后,每個子區(qū)間(標(biāo)號為0到9)的純度情況。為了便于可視化觀察,在Weka軟件上繪制以上散點(diǎn)圖,圖中的橫縱坐標(biāo)設(shè)置為特征變量本身,所以樣本點(diǎn)呈對角線分布。此外,調(diào)整增大了點(diǎn)間距,以使更多的點(diǎn)可以被觀察到。點(diǎn)根據(jù)所屬類別{正常,異常}進(jìn)行著色,其中紅色代表正常,藍(lán)色代表異常。從圖3-1(a)至3-1(c)可以觀察到,在圖3-1(a)和3-1(b)中存在顏色非常統(tǒng)一的子區(qū)間(在圖中用方框圈出),這些子區(qū)間只覆蓋了特征變量值域上的局部范圍,但是子區(qū)間內(nèi)的樣本點(diǎn)幾乎都屬于同一種顏色,這表明子區(qū)間的純度很高,子區(qū)間代表的特征取值與類標(biāo)簽具有強(qiáng)相關(guān)性。將只包含這種與類標(biāo)簽存在強(qiáng)相關(guān)性的特征取值的樣本子集稱為高純度子集,這些高純度子集能夠從原數(shù)據(jù)集中提取出來,是可以被有效劃分的。為了進(jìn)一步量化特征取值與類變量的相關(guān)性,引入條件熵這一指標(biāo)作為對純度的衡量。信息熵和條件熵的定義在第二章已經(jīng)進(jìn)行闡述,熵是用來衡量系統(tǒng)信息或隨機(jī)變量不確定性的通用指標(biāo)。假設(shè)從數(shù)據(jù)集中給定有限取值的離散型特征變量,的值域?yàn)閧1,2,…,,},滿足=的樣本組成子集,數(shù)據(jù)集的信息熵為:(,)=∑(,)=12(,)(3-1)(,)表示了類變量在子集中的不純度。需要注意的是,(,)表示滿足=,=的樣本在數(shù)據(jù)集中所占的比例,而并非滿足=的樣本在子集中所占的比例。下面給出三種純度關(guān)系的數(shù)學(xué)表達(dá)式:(1)一點(diǎn)可分
【參考文獻(xiàn)】:
期刊論文
[1]基于多維數(shù)據(jù)集的異常子群發(fā)現(xiàn)技術(shù)[J]. 張靜恬,伍賽,陳剛,壽黎但,陳珂. 計算機(jī)學(xué)報. 2019(08)
[2]基于長短時記憶網(wǎng)絡(luò)的工業(yè)控制系統(tǒng)入侵檢測[J]. 於幫兵,王華忠,顏秉勇. 信息與控制. 2018(01)
[3]極端頻率情形下二項(xiàng)分布比例置信區(qū)間的比較[J]. 張學(xué)新. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[4]基于專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)入侵檢測系統(tǒng)[J]. 張人上. 計算機(jī)仿真. 2012(09)
[5]基于遺傳算法的入侵檢測特征選擇[J]. 朱紅萍,鞏青歌,雷戰(zhàn)波. 計算機(jī)應(yīng)用研究. 2012(04)
博士論文
[1]基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D]. 郭春.北京郵電大學(xué) 2014
本文編號:3506514
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策樹模型在數(shù)據(jù)集上的應(yīng)用實(shí)例;(a)原始數(shù)據(jù)集的散點(diǎn)圖;(b)決策樹模型
第二章入侵檢測系統(tǒng)與決策樹算法19公式(2-10)闡明了對于取值范圍為的任意隨機(jī)變量,在經(jīng)過n次獨(dú)立重復(fù)試驗(yàn)后,觀察得到的經(jīng)驗(yàn)均值與真實(shí)均值()之間的誤差上界,能夠在1δ的置信水平下認(rèn)為不超過ε。公式(2-10)也給出了在已知隨機(jī)變量的取值范圍時,在置信水平1δ的條件下樣本量與ε之間的關(guān)系,如公式(2-11)所示。圖2-2展示了在公式(2-11)中δ,,n三者之間的關(guān)系,當(dāng)參數(shù)一定時,隨著樣本觀測數(shù)的增大,迅速減小并無限趨近于零;當(dāng)一定時,參數(shù)越大,所需要的樣本觀測數(shù)就越大。22Pr(())nRXEXe(2-10)2ln(1/)2Rn(2-11)公式(2-11)就是在動態(tài)數(shù)據(jù)流環(huán)境下建立霍夫丁樹所需要的Hoeffding邊界條件。此時隨機(jī)變量指的是信息增益或Gini系數(shù),所以表示信息增益或Gini系數(shù)的取值范圍。傳統(tǒng)決策樹與公式(2-11)的結(jié)合,就可以使得利用有限樣本量去估算樣本量無限時可接受的最優(yōu)分裂屬性成為可能。圖2-2Hoeffding邊界條件中δ,,n三者之間的關(guān)系霍夫丁樹與面向數(shù)據(jù)集的傳統(tǒng)決策樹結(jié)構(gòu)相同,同樣由根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)、葉子節(jié)點(diǎn)和有向邊構(gòu)成,各元素的作用與傳統(tǒng)決策樹一致,屬性測試條件可選用信息增益或Gini系數(shù)。以Gini系數(shù)為例,霍夫丁樹算法的實(shí)現(xiàn)過程如下所示:步驟1:如果沒有根節(jié)點(diǎn),則創(chuàng)建霍夫丁樹的根節(jié)點(diǎn),將每一個新樣本輸送到根節(jié)點(diǎn)。如果存在其他葉子節(jié)點(diǎn),則將每一個新樣本輸送到相應(yīng)的葉子節(jié)點(diǎn);步驟2:接收到新樣本后,節(jié)點(diǎn)處的統(tǒng)計信息將會被更新,包括數(shù)據(jù)量、每個屬性取值下的類標(biāo)簽頻率等;
第三章面向靜態(tài)數(shù)據(jù)集的數(shù)據(jù)約簡方法研究23(a)(b)(c)圖3-1屬性變量局部取值與類變量的三種純度關(guān)系。(a)一點(diǎn)可分(Onesplitpoint);(b)多點(diǎn)可分(Multiplesplitpoints);(c)完全不可分(Mixedstate)圖3-1展示了從KDDCUP1999數(shù)據(jù)集中選取的三個特征變量在等寬離散化為十個子區(qū)間后,每個子區(qū)間(標(biāo)號為0到9)的純度情況。為了便于可視化觀察,在Weka軟件上繪制以上散點(diǎn)圖,圖中的橫縱坐標(biāo)設(shè)置為特征變量本身,所以樣本點(diǎn)呈對角線分布。此外,調(diào)整增大了點(diǎn)間距,以使更多的點(diǎn)可以被觀察到。點(diǎn)根據(jù)所屬類別{正常,異常}進(jìn)行著色,其中紅色代表正常,藍(lán)色代表異常。從圖3-1(a)至3-1(c)可以觀察到,在圖3-1(a)和3-1(b)中存在顏色非常統(tǒng)一的子區(qū)間(在圖中用方框圈出),這些子區(qū)間只覆蓋了特征變量值域上的局部范圍,但是子區(qū)間內(nèi)的樣本點(diǎn)幾乎都屬于同一種顏色,這表明子區(qū)間的純度很高,子區(qū)間代表的特征取值與類標(biāo)簽具有強(qiáng)相關(guān)性。將只包含這種與類標(biāo)簽存在強(qiáng)相關(guān)性的特征取值的樣本子集稱為高純度子集,這些高純度子集能夠從原數(shù)據(jù)集中提取出來,是可以被有效劃分的。為了進(jìn)一步量化特征取值與類變量的相關(guān)性,引入條件熵這一指標(biāo)作為對純度的衡量。信息熵和條件熵的定義在第二章已經(jīng)進(jìn)行闡述,熵是用來衡量系統(tǒng)信息或隨機(jī)變量不確定性的通用指標(biāo)。假設(shè)從數(shù)據(jù)集中給定有限取值的離散型特征變量,的值域?yàn)閧1,2,…,,},滿足=的樣本組成子集,數(shù)據(jù)集的信息熵為:(,)=∑(,)=12(,)(3-1)(,)表示了類變量在子集中的不純度。需要注意的是,(,)表示滿足=,=的樣本在數(shù)據(jù)集中所占的比例,而并非滿足=的樣本在子集中所占的比例。下面給出三種純度關(guān)系的數(shù)學(xué)表達(dá)式:(1)一點(diǎn)可分
【參考文獻(xiàn)】:
期刊論文
[1]基于多維數(shù)據(jù)集的異常子群發(fā)現(xiàn)技術(shù)[J]. 張靜恬,伍賽,陳剛,壽黎但,陳珂. 計算機(jī)學(xué)報. 2019(08)
[2]基于長短時記憶網(wǎng)絡(luò)的工業(yè)控制系統(tǒng)入侵檢測[J]. 於幫兵,王華忠,顏秉勇. 信息與控制. 2018(01)
[3]極端頻率情形下二項(xiàng)分布比例置信區(qū)間的比較[J]. 張學(xué)新. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2016(03)
[4]基于專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)入侵檢測系統(tǒng)[J]. 張人上. 計算機(jī)仿真. 2012(09)
[5]基于遺傳算法的入侵檢測特征選擇[J]. 朱紅萍,鞏青歌,雷戰(zhàn)波. 計算機(jī)應(yīng)用研究. 2012(04)
博士論文
[1]基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D]. 郭春.北京郵電大學(xué) 2014
本文編號:3506514
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3506514.html
最近更新
教材專著