基于非平衡數(shù)據(jù)分類方法的網(wǎng)站入侵檢測
發(fā)布時間:2021-12-29 08:18
網(wǎng)站在日常辦公中的日益普及,一方面給我們的生活帶來了便捷,另一方面也需要我們預(yù)防形形色色的網(wǎng)站入侵行為。而IIS網(wǎng)站日志記錄著訪客的每一次訪問行為,其中就隱藏著非法入侵行為的蛛絲馬跡。通過日志分析可疑行為已成為網(wǎng)站入侵檢測的一個重要環(huán)節(jié)。目前研究人員已將數(shù)據(jù)挖掘技術(shù)運(yùn)用其中,取得了不少進(jìn)展。從網(wǎng)站日常的訪問情況來看,正常訪問量明顯多于非法訪問量,為典型的非平衡數(shù)據(jù)集。如何通過分類算法,將占少數(shù)的非法訪問記錄從海量記錄中分離出來成為關(guān)鍵。因此,利用非平衡數(shù)據(jù)分類方法對網(wǎng)站日志進(jìn)行分析,發(fā)現(xiàn)網(wǎng)站運(yùn)行中的非法入侵者,并對新的訪問者身份進(jìn)行分類預(yù)測,對于提升網(wǎng)站的安全性能,優(yōu)化網(wǎng)絡(luò)環(huán)境,保障網(wǎng)站的正常使用具有重要的意義。本論文將非平衡數(shù)據(jù)分類方法應(yīng)用于入侵檢測中,日志記錄被分為兩類(非法訪問記錄,正常訪問記錄),通過對不同分類方法和檢測效果的比較分析,設(shè)計并實(shí)現(xiàn)了基于IIS(Internet Information Server)日志的入侵檢測系統(tǒng)。本文主要工作如下:(1)根據(jù)IIS日志特點(diǎn)和入侵關(guān)鍵字,利用數(shù)據(jù)庫技術(shù)完成數(shù)據(jù)屬性選擇,本文將8種采樣算法(隨機(jī)欠采樣、SOMTE、Tomek l...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
某數(shù)據(jù)集樣本分布
豐富樣本屬性,多數(shù)情況下分類性圖 2.1 某數(shù)據(jù)集樣本分布個數(shù)據(jù)集的分布,其中多數(shù)類(方塊)個數(shù)為 2:1。采用 SMOTE 采樣算法,首先需要求得每再利用插值公式(2.1)求得合成數(shù)據(jù) Xnew,(YXnew= X + rand(0,1) × (Yi X)
圖 2.3 SMOTE 插值原理 圖 2.4 SMOTE 過采樣結(jié)果將 s1插入到樣本空間對應(yīng)的位置,如圖 2.3 三角形即為新生成的少數(shù)類樣本照該 SMOTE 插值原理,依次循環(huán)完成對所有少數(shù)類樣本點(diǎn)的插值操作。圖 2了一個非平衡數(shù)據(jù)集經(jīng) SMOTE 過采樣的最終樣本分布結(jié)果。.1.2 Tomek links 欠采樣Tomek links 采樣的思想是,遍歷并計算所有少數(shù)類到每一多數(shù)類的距離, 為任一少數(shù)類,b 為任一多數(shù)類,distance(a,b)為 a,b 兩者的距離。若少數(shù)類在一個 c,使 distance(c,b) <distance(a,b),多數(shù)類中不存在一個 d,使 distance) <distance(a,b),則 a,b 兩樣本可能為噪聲樣本,或者其處于樣本臨界區(qū)域多數(shù)類樣本 b。依據(jù)此思想,完成對多數(shù)類樣本的檢查與刪減。圖 2.5 中黑色方塊混合在圓圈中,經(jīng) Tomek links 采樣后,這些樣本點(diǎn)將會,最終形成圖 2.6 所示的樣本分布。
【參考文獻(xiàn)】:
期刊論文
[1]IIS服務(wù)器的攻擊與防御方式[J]. 趙剛. 信息與電腦(理論版). 2015(15)
[2]基于IIS日志的Web攻擊檢測系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 范春榮,張戰(zhàn)勇,董麗娟. 煤炭技術(shù). 2013(09)
[3]入侵檢測數(shù)據(jù)集KDD CUP99研究[J]. 張新有,曾華燊,賈磊. 計算機(jī)工程與設(shè)計. 2010(22)
[4]入侵異常檢測研究綜述[J]. 楊宏宇,朱丹,謝豐,謝麗霞. 電子科技大學(xué)學(xué)報. 2009(05)
[5]基于數(shù)據(jù)挖掘的入侵檢測技術(shù)研究[J]. 徐興元,傅和平,熊中朝. 微計算機(jī)信息. 2007(09)
[6]一種新的機(jī)器學(xué)習(xí)算法:Support Vector Machines[J]. 陶卿,姚穗,范勁松,方廷健. 模式識別與人工智能. 2000(03)
碩士論文
[1]不平衡數(shù)據(jù)集分類問題研究[D]. 孫曉燕.山東師范大學(xué) 2012
本文編號:3555749
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
某數(shù)據(jù)集樣本分布
豐富樣本屬性,多數(shù)情況下分類性圖 2.1 某數(shù)據(jù)集樣本分布個數(shù)據(jù)集的分布,其中多數(shù)類(方塊)個數(shù)為 2:1。采用 SMOTE 采樣算法,首先需要求得每再利用插值公式(2.1)求得合成數(shù)據(jù) Xnew,(YXnew= X + rand(0,1) × (Yi X)
圖 2.3 SMOTE 插值原理 圖 2.4 SMOTE 過采樣結(jié)果將 s1插入到樣本空間對應(yīng)的位置,如圖 2.3 三角形即為新生成的少數(shù)類樣本照該 SMOTE 插值原理,依次循環(huán)完成對所有少數(shù)類樣本點(diǎn)的插值操作。圖 2了一個非平衡數(shù)據(jù)集經(jīng) SMOTE 過采樣的最終樣本分布結(jié)果。.1.2 Tomek links 欠采樣Tomek links 采樣的思想是,遍歷并計算所有少數(shù)類到每一多數(shù)類的距離, 為任一少數(shù)類,b 為任一多數(shù)類,distance(a,b)為 a,b 兩者的距離。若少數(shù)類在一個 c,使 distance(c,b) <distance(a,b),多數(shù)類中不存在一個 d,使 distance) <distance(a,b),則 a,b 兩樣本可能為噪聲樣本,或者其處于樣本臨界區(qū)域多數(shù)類樣本 b。依據(jù)此思想,完成對多數(shù)類樣本的檢查與刪減。圖 2.5 中黑色方塊混合在圓圈中,經(jīng) Tomek links 采樣后,這些樣本點(diǎn)將會,最終形成圖 2.6 所示的樣本分布。
【參考文獻(xiàn)】:
期刊論文
[1]IIS服務(wù)器的攻擊與防御方式[J]. 趙剛. 信息與電腦(理論版). 2015(15)
[2]基于IIS日志的Web攻擊檢測系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 范春榮,張戰(zhàn)勇,董麗娟. 煤炭技術(shù). 2013(09)
[3]入侵檢測數(shù)據(jù)集KDD CUP99研究[J]. 張新有,曾華燊,賈磊. 計算機(jī)工程與設(shè)計. 2010(22)
[4]入侵異常檢測研究綜述[J]. 楊宏宇,朱丹,謝豐,謝麗霞. 電子科技大學(xué)學(xué)報. 2009(05)
[5]基于數(shù)據(jù)挖掘的入侵檢測技術(shù)研究[J]. 徐興元,傅和平,熊中朝. 微計算機(jī)信息. 2007(09)
[6]一種新的機(jī)器學(xué)習(xí)算法:Support Vector Machines[J]. 陶卿,姚穗,范勁松,方廷健. 模式識別與人工智能. 2000(03)
碩士論文
[1]不平衡數(shù)據(jù)集分類問題研究[D]. 孫曉燕.山東師范大學(xué) 2012
本文編號:3555749
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3555749.html
最近更新
教材專著