基于主動學習的網(wǎng)絡入侵檢測算法研究
發(fā)布時間:2020-10-15 12:48
隨著因特網(wǎng)的快速普及,網(wǎng)絡已經(jīng)滲透到了人們日常生活的方方面面,在為生活提供便捷的同時,也帶來了各種安全威脅。入侵檢測技術能在網(wǎng)絡攻擊造成廣泛破壞前檢測到網(wǎng)絡異常行為,對用戶發(fā)出警告或直接阻止入侵行為,從而提高使用網(wǎng)絡的安全性。隨著網(wǎng)絡規(guī)模的不斷擴大,各種網(wǎng)絡攻擊手段層出不窮,對入侵檢測系統(tǒng)的性能提出更高的要求。近些年來,入侵檢測系統(tǒng)中數(shù)據(jù)量大、數(shù)據(jù)維度過高、檢測攻擊類型未知等問題仍是國內外研究所面臨的嚴峻考驗。針對上述問題,本文提出了兩種網(wǎng)絡入侵檢測算法,其主要研究內容如下:(1)提出基于經(jīng)驗小波變換與AR模型的入侵檢測算法。本算法針對靜態(tài)數(shù)據(jù),使用經(jīng)驗小波變換對數(shù)據(jù)進行分解,選取前兩層包含信息較多的數(shù)據(jù)序列作為實驗數(shù)據(jù),利用AR模型對每一序列進行系數(shù)計算形成特征集。用KNN、隨機森林、貝葉斯、BP神經(jīng)網(wǎng)絡四個分類器對特征集中的樣本進行分類預測。實驗采用十則交叉驗證的方法驗證算法的穩(wěn)定性。實驗結果表明,由于本算法利用經(jīng)驗小波變換對數(shù)據(jù)特征進行提取,更具有發(fā)現(xiàn)數(shù)據(jù)隱藏模式的能力,對已知攻擊類型有很好的檢測效果。(2)提出了一個基于改進的ReliefF與主動學習相結合的網(wǎng)絡入侵檢測算法RALDM(ReliefF and Active Learning Detection Method,RALDM)。本算法針對動態(tài)數(shù)據(jù),使用ReliefF算法對訓練集中各個屬性進行權重計算,并對其進行權重排序,對后續(xù)到達的數(shù)據(jù)按當前權重排序進行特征提取,利用基于委員會投票的方法判斷是否發(fā)生概念漂移。對發(fā)生概念漂移的數(shù)據(jù)塊,使用專家標注的方法對數(shù)據(jù)標簽進行標注,更新訓練集并重新對屬性權重進行排序,以不斷適應數(shù)據(jù)流中的概念漂移。實驗采用ReliefF算法對數(shù)據(jù)進行特征提取,消除了大量冗余,提高了數(shù)據(jù)利用率,同時使用主動學習的方式適應概念漂移,大大降低了人工標注標簽的成本。實驗結果表明,本算法對數(shù)據(jù)流中的概念漂移有很好的檢測結果。
【學位單位】:遼寧師范大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP393.08
【部分圖文】:
圖3.1隨機森林對數(shù)據(jù)的F-valne檢測結果??Fig.?3.1?Random?forest?analysis?of?F-value?results??
圖4.1主動學習過程示意圖??Fig.?4.1?Active?learning?process?diagram??在主動學習的過程中,一個關鍵問題就是查詢策略函數(shù)G如何從無選取合適的樣本進行標注,當前主動學習中選取樣本的準則主要有三緣的方法、基于不確定性的方法和查詢專家委員會方法。??(1)基于邊緣的方法??最常使用的是邊緣采樣法,邊緣采樣法是針對SVM分類器的特點提習的方法,通過計算樣本點到分類超平面的距離選擇位于當前SVM點,將超平面記為(w.?6),則樣本空間中任意點x到超平面(w,幻的距(llwll?v樣本點到超平面的距離代表該點在當前分類器下的確信度。距離越大器對該點分類越確定;距離越小說明該分類器對該點分類不確定,則確定分類信息可能性較大。當本次迭代中所有輸入的無標簽數(shù)據(jù)與超計算完畢后,對其進行升序排序,選擇部分樣本交由專家進行標記。很容易由于有標簽數(shù)據(jù)過少而導致生成的超平面與真實的分類邊界
4.4實驗結果與分析??為了驗證本算法有效性,分別在NSL-KDD與UNSW-NB15數(shù)據(jù)集上進行實??驗,同時與其他算法進行對比。取改進的ReliefT的特征權重比值閾值參數(shù)P為??0.85,對于主動學習的查詢專家委員會設置三個分類器,分別為兩個KNN分類??器和一個隨機森林分類器,KNN中々取值分別為2、5,隨機森林A取值為50,??對于主動學習的查詢函數(shù),本實驗設定由查詢專家委員會投票產生樣本預測標簽,??當有分類器與投票標簽不一致時,我們認為對于該樣本成員分類器產生的分歧度??較高,說明該樣本有尚未被委員會學習到的信息,因此將該數(shù)據(jù)進行專家標注,??并放入訓練集,當需要標注的樣本超過5000條時,將專家新標注的樣本放入原??始訓練集并更新分類器。??4.?4.?1基于NSL-KDD數(shù)據(jù)集的實驗結果??對NSL-KDD數(shù)據(jù)集的5種數(shù)據(jù)類型,每種隨機抽。保埃埃皸l形成5000條平??衡訓練集,數(shù)據(jù)塊大小為block=3000。根據(jù)算法在該數(shù)據(jù)集上的表現(xiàn),分類器更??新了兩次,分別于第1丨塊、31塊需要標注的樣本超過5000條,對分類器進行??
【參考文獻】
本文編號:2842192
【學位單位】:遼寧師范大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP393.08
【部分圖文】:
圖3.1隨機森林對數(shù)據(jù)的F-valne檢測結果??Fig.?3.1?Random?forest?analysis?of?F-value?results??
圖4.1主動學習過程示意圖??Fig.?4.1?Active?learning?process?diagram??在主動學習的過程中,一個關鍵問題就是查詢策略函數(shù)G如何從無選取合適的樣本進行標注,當前主動學習中選取樣本的準則主要有三緣的方法、基于不確定性的方法和查詢專家委員會方法。??(1)基于邊緣的方法??最常使用的是邊緣采樣法,邊緣采樣法是針對SVM分類器的特點提習的方法,通過計算樣本點到分類超平面的距離選擇位于當前SVM點,將超平面記為(w.?6),則樣本空間中任意點x到超平面(w,幻的距(llwll?v樣本點到超平面的距離代表該點在當前分類器下的確信度。距離越大器對該點分類越確定;距離越小說明該分類器對該點分類不確定,則確定分類信息可能性較大。當本次迭代中所有輸入的無標簽數(shù)據(jù)與超計算完畢后,對其進行升序排序,選擇部分樣本交由專家進行標記。很容易由于有標簽數(shù)據(jù)過少而導致生成的超平面與真實的分類邊界
4.4實驗結果與分析??為了驗證本算法有效性,分別在NSL-KDD與UNSW-NB15數(shù)據(jù)集上進行實??驗,同時與其他算法進行對比。取改進的ReliefT的特征權重比值閾值參數(shù)P為??0.85,對于主動學習的查詢專家委員會設置三個分類器,分別為兩個KNN分類??器和一個隨機森林分類器,KNN中々取值分別為2、5,隨機森林A取值為50,??對于主動學習的查詢函數(shù),本實驗設定由查詢專家委員會投票產生樣本預測標簽,??當有分類器與投票標簽不一致時,我們認為對于該樣本成員分類器產生的分歧度??較高,說明該樣本有尚未被委員會學習到的信息,因此將該數(shù)據(jù)進行專家標注,??并放入訓練集,當需要標注的樣本超過5000條時,將專家新標注的樣本放入原??始訓練集并更新分類器。??4.?4.?1基于NSL-KDD數(shù)據(jù)集的實驗結果??對NSL-KDD數(shù)據(jù)集的5種數(shù)據(jù)類型,每種隨機抽。保埃埃皸l形成5000條平??衡訓練集,數(shù)據(jù)塊大小為block=3000。根據(jù)算法在該數(shù)據(jù)集上的表現(xiàn),分類器更??新了兩次,分別于第1丨塊、31塊需要標注的樣本超過5000條,對分類器進行??
【參考文獻】
相關期刊論文 前2條
1 李永忠;王汝山;張念貴;王玉雷;;基于半監(jiān)督模糊聚類的入侵檢測技術[J];江蘇科技大學學報(自然科學版);2010年04期
2 姚文俊;;自相關法和Burg法在AR模型功率譜估計中的仿真研究[J];計算機與數(shù)字工程;2007年10期
本文編號:2842192
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2842192.html
最近更新
教材專著