基于行為特征的可疑APT數(shù)據(jù)預處理和檢測
發(fā)布時間:2021-11-13 02:24
高級持續(xù)性威脅(APT)這一典型的復雜網(wǎng)絡攻擊,因其針對性強、隱蔽性好以及破壞性大,逐漸引起人們的重視。學者們結(jié)合實際提出了惡意代碼檢測、異常流量檢測、全流量回溯分析等諸多檢測方法。已有的研究表明,對DNS數(shù)據(jù)進行檢測,能夠有效地發(fā)現(xiàn)網(wǎng)絡流量中的異常,進而發(fā)現(xiàn)APT攻擊。針對DNS數(shù)據(jù)處理問題,選取合理的DNS行為特征,通過正常行為特征來檢測出所有合法域名,進而排除絕大多數(shù)的正常DNS數(shù)據(jù),暴露可疑數(shù)據(jù)集,可以為進一步的APT攻擊檢測提供數(shù)據(jù)支持。本文提出一種利用DNS數(shù)據(jù)正常行為特征的數(shù)據(jù)處理方法,通過本方法能夠有效區(qū)分可疑數(shù)據(jù)和正常數(shù)據(jù)。本方法包括數(shù)據(jù)預處理和數(shù)據(jù)檢測兩個步驟。數(shù)據(jù)預處理部分首先對原始DNS數(shù)據(jù)進行處理,使用白名單、訪問主機數(shù)、單位時間內(nèi)總訪問次數(shù)這3項規(guī)則進行數(shù)據(jù)縮減。數(shù)據(jù)檢測部分對經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)進行特征提取和可疑數(shù)據(jù)檢測。使用域名解析正確率、IP地址相似率等8項正常行為特征對數(shù)據(jù)進行特征量化,計算出數(shù)據(jù)的各項特征值。然后,利用機器學習中的孤立森林算法對數(shù)據(jù)進行了檢測,通過對比設(shè)定的閾值,區(qū)分出了待檢測數(shù)據(jù)集中的正常DNS數(shù)據(jù)和含有仿真攻擊的數(shù)據(jù)集。本文利...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
APT攻擊過程
數(shù)據(jù)檢測部分將對經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)進行特征提取和可疑數(shù)據(jù)檢測。將仿真攻擊混入到待檢測數(shù)據(jù)集后,使用域名解析正確率、IP地址相似率等8項正常行為特征對數(shù)據(jù)進行特征量化,計算出數(shù)據(jù)的各項特征值。然后采用機器學習中的孤立森林算法對特征提取后的數(shù)據(jù)集進行檢測,進而將數(shù)據(jù)進行區(qū)分。圖3.1為整體檢測流程。3.3 數(shù)據(jù)預處理
為了保證實驗數(shù)據(jù)的充足和真實,本文所使用的數(shù)據(jù)來自大型校園網(wǎng)100天時間的DNS流量,規(guī)模達到上十億。根據(jù)以往研究,在這種大型網(wǎng)絡中,絕大部分的數(shù)據(jù)都應該是正常的訪問流量,只有很小的一部分需要有針對性地進行檢測。因此,實用有效的數(shù)據(jù)預處理算法是關(guān)鍵,Wang[36]采用了去掉非常流行的域名請求記錄規(guī)則,其沒有考慮白名單中域名的時間因素。Zhong[30]在進行數(shù)據(jù)處理中,由于數(shù)據(jù)匿名化處理后域名不可見,因此只采用定義域名流行度的方法,既認為某一域名如果被大量內(nèi)部主機訪問,則判斷該域名可靠。本文則結(jié)合以往的研究,提出了3項數(shù)據(jù)縮減規(guī)則,以期達到更好更準確的數(shù)據(jù)預處理能力。圖3.2為數(shù)據(jù)預處理的流程。具體的數(shù)據(jù)縮減過程,共設(shè)定了3項規(guī)則用來處理數(shù)據(jù)信息。
本文編號:3492124
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
APT攻擊過程
數(shù)據(jù)檢測部分將對經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)進行特征提取和可疑數(shù)據(jù)檢測。將仿真攻擊混入到待檢測數(shù)據(jù)集后,使用域名解析正確率、IP地址相似率等8項正常行為特征對數(shù)據(jù)進行特征量化,計算出數(shù)據(jù)的各項特征值。然后采用機器學習中的孤立森林算法對特征提取后的數(shù)據(jù)集進行檢測,進而將數(shù)據(jù)進行區(qū)分。圖3.1為整體檢測流程。3.3 數(shù)據(jù)預處理
為了保證實驗數(shù)據(jù)的充足和真實,本文所使用的數(shù)據(jù)來自大型校園網(wǎng)100天時間的DNS流量,規(guī)模達到上十億。根據(jù)以往研究,在這種大型網(wǎng)絡中,絕大部分的數(shù)據(jù)都應該是正常的訪問流量,只有很小的一部分需要有針對性地進行檢測。因此,實用有效的數(shù)據(jù)預處理算法是關(guān)鍵,Wang[36]采用了去掉非常流行的域名請求記錄規(guī)則,其沒有考慮白名單中域名的時間因素。Zhong[30]在進行數(shù)據(jù)處理中,由于數(shù)據(jù)匿名化處理后域名不可見,因此只采用定義域名流行度的方法,既認為某一域名如果被大量內(nèi)部主機訪問,則判斷該域名可靠。本文則結(jié)合以往的研究,提出了3項數(shù)據(jù)縮減規(guī)則,以期達到更好更準確的數(shù)據(jù)預處理能力。圖3.2為數(shù)據(jù)預處理的流程。具體的數(shù)據(jù)縮減過程,共設(shè)定了3項規(guī)則用來處理數(shù)據(jù)信息。
本文編號:3492124
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3492124.html
最近更新
教材專著