基于深度學(xué)習(xí)的DGA域名檢測
發(fā)布時間:2021-02-20 12:51
近幾年人工智能、大數(shù)據(jù)等移動互聯(lián)網(wǎng)新一代技術(shù)的發(fā)展和興起,使得人們的生活也走進(jìn)了智能化的時代。移動互聯(lián)網(wǎng)技術(shù)給生活帶來便利的同時,也帶來新的挑戰(zhàn),僵尸網(wǎng)絡(luò)、惡意軟件是當(dāng)前網(wǎng)絡(luò)安全所面臨的重要難題。它們大部分都使用了Domain-Flux技術(shù),其主要應(yīng)用的技術(shù)是一種惡意域名的生成算法DGA(Domain Generation Algorithm)。網(wǎng)絡(luò)攻擊者通過使用DGA域名去連接和控制受感染機器去進(jìn)行非法行為,所以對于DGA域名的檢測尤為重要。本文針對DGA域名的檢測,對不同類型的DGA域名實現(xiàn)了三種不同的算法。首先是基于人工提取特征的GBDT算法,這種算法需要人工預(yù)先對域名數(shù)據(jù)進(jìn)行特征工程,選擇相關(guān)性高的特征再使用GBDT算法進(jìn)行識別和分類。然后是基于LSTM的DGA域名檢測算法,這種方法無需人工預(yù)先提取特征,對域名進(jìn)行簡單序列化之后即可建模。最后是基于BERT模型的DGA域名檢測算法,這種算法結(jié)合自然語言處理領(lǐng)域非常優(yōu)秀的BERT模型,針對Wordlist-based的單詞級DGA域名有比較好的效果。本文研究發(fā)現(xiàn),無論是基于人工特征的GBDT算法,還是基于LSTM的DGA檢測算法針...
【文章來源】:廣州大學(xué)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
DGA實現(xiàn)圖
廣州大學(xué)碩士學(xué)位論文10Matsnu來自兩個預(yù)定義詞典的2~3個單詞的組合focus-buddy-damage.compoundexpect-glove.com2.2GBDT決策樹(decisiontree)[36]是一種結(jié)構(gòu)簡單容易實現(xiàn)并且具有強解釋性的模型,可以用于分類和回歸問題,而本文主要討論用于分類的決策樹。決策樹是基于樹形結(jié)構(gòu)的模型,在面對分類問題時,每個內(nèi)部節(jié)點針對一個特征屬性對實例進(jìn)行分類。它的每個分支可以看作是針對某一特征屬性判斷結(jié)果的輸出,而最底層的葉子節(jié)點看作是一個個分類結(jié)果的輸出。這種模型的主要優(yōu)點是可讀性強,容易實現(xiàn),并且分類效率高;跊Q策樹的機器學(xué)習(xí)過程通常包括三個步驟:特征選擇,決策樹的建模和決策樹的剪枝。GDBT(GradientBoostingDecisionTree)[37]是一種基于決策樹的迭代型算法,該算法由多組基本的決策樹模型構(gòu)成,所有樹的結(jié)果結(jié)合起來得出模型最終的輸出。它與傳統(tǒng)的SVM算法一樣是具有較強泛化能力(generalization)的算法。近年來更是因為常被使用于搜索排序的機器學(xué)習(xí)模型而引起較為廣泛關(guān)注。目前GBDT是一種被眾多模型廣泛應(yīng)用的算法,不僅僅可以用來做分類,還可以應(yīng)用到回歸問題中。在很多模型或者數(shù)據(jù)集上有表現(xiàn)出非常不錯的效果。圖2-2GBDT算法原理GBDT的訓(xùn)練需要經(jīng)過多輪迭代,每一輪的迭代都會產(chǎn)生一個弱分類器,而每一個分類器的訓(xùn)練都是使用在上一輪分類器訓(xùn)練所得的殘差。對弱分類器選擇的要求一般具有三個屬性,結(jié)構(gòu)足夠簡單、低方差和高偏差的。弱分類器一般會選擇為CARTTREE(也就是分類回歸樹)[38],這樣每
廣州大學(xué)碩士學(xué)位論文12Hochreiter&Schmidhuber(1997)引入,并有許多人對其進(jìn)行了改進(jìn)和普及。他們的工作被用來解決了各種各樣的問題,直到目前還被廣泛應(yīng)用。LSTM網(wǎng)絡(luò)在普通RNN網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計出來的,解決梯度消失問題是長短期記憶網(wǎng)絡(luò)(LSTM)應(yīng)用的一個關(guān)鍵動機[40]。LSTM網(wǎng)絡(luò)在隱藏層各神經(jīng)單元中增加了記憶單元,從而達(dá)到控制在時間序列上流轉(zhuǎn)的記憶信息,并且在很大程度上解決了梯度消失問題。它通過控制幾個門的流傳信息,控制之前的歷史信息和當(dāng)前信息的記憶和遺忘程度,從而使RNN網(wǎng)絡(luò)具備了長期記憶功能。LSTM的核心是神經(jīng)網(wǎng)絡(luò)中的細(xì)胞狀態(tài),細(xì)胞狀態(tài)像水平線一樣貫穿整個細(xì)胞,像一條傳送帶一樣。它貫穿整個細(xì)胞,卻只有比較少的分支線路,這樣能夠保證信息不變并且流過整個RNN。因為sigmoid層[41]的輸出是0-1區(qū)間的值,這代表有多少信息能夠流過sigmoid層。0表示所有信息都丟棄,1表示所有信息都保留。LSTM通過三個門來控制細(xì)胞狀態(tài),這三個門分別稱為遺忘門、輸入門和輸出門。圖2-3LSTM結(jié)構(gòu)圖1)遺忘門(forgetgate):負(fù)責(zé)上一個細(xì)胞輸出的長時記憶和當(dāng)前細(xì)胞長時記憶之間的控制,即有多少歷史信息需要保留或者丟棄。2)輸入門(inputgate):負(fù)責(zé)當(dāng)前細(xì)胞的短時記憶和長時記憶的控制,即有多少新的信息可以加入到長時記憶中。
【參考文獻(xiàn)】:
期刊論文
[1]采用深度學(xué)習(xí)的DGA域名檢測模型比較[J]. 裴蘭珍,趙英俊,王哲,羅赟騫. 計算機科學(xué). 2019(05)
[2]基于BiLstm神經(jīng)網(wǎng)絡(luò)的DGA域名檢測方法[J]. 林思明,陳騰躍,梁煜麓. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2019(01)
[3]基于深度學(xué)習(xí)的集成DGA域名檢測方法[J]. 羅赟騫,鄔江,王艷偉,楊鶴. 信息技術(shù)與網(wǎng)絡(luò)安全. 2018(10)
本文編號:3042797
【文章來源】:廣州大學(xué)廣東省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
DGA實現(xiàn)圖
廣州大學(xué)碩士學(xué)位論文10Matsnu來自兩個預(yù)定義詞典的2~3個單詞的組合focus-buddy-damage.compoundexpect-glove.com2.2GBDT決策樹(decisiontree)[36]是一種結(jié)構(gòu)簡單容易實現(xiàn)并且具有強解釋性的模型,可以用于分類和回歸問題,而本文主要討論用于分類的決策樹。決策樹是基于樹形結(jié)構(gòu)的模型,在面對分類問題時,每個內(nèi)部節(jié)點針對一個特征屬性對實例進(jìn)行分類。它的每個分支可以看作是針對某一特征屬性判斷結(jié)果的輸出,而最底層的葉子節(jié)點看作是一個個分類結(jié)果的輸出。這種模型的主要優(yōu)點是可讀性強,容易實現(xiàn),并且分類效率高;跊Q策樹的機器學(xué)習(xí)過程通常包括三個步驟:特征選擇,決策樹的建模和決策樹的剪枝。GDBT(GradientBoostingDecisionTree)[37]是一種基于決策樹的迭代型算法,該算法由多組基本的決策樹模型構(gòu)成,所有樹的結(jié)果結(jié)合起來得出模型最終的輸出。它與傳統(tǒng)的SVM算法一樣是具有較強泛化能力(generalization)的算法。近年來更是因為常被使用于搜索排序的機器學(xué)習(xí)模型而引起較為廣泛關(guān)注。目前GBDT是一種被眾多模型廣泛應(yīng)用的算法,不僅僅可以用來做分類,還可以應(yīng)用到回歸問題中。在很多模型或者數(shù)據(jù)集上有表現(xiàn)出非常不錯的效果。圖2-2GBDT算法原理GBDT的訓(xùn)練需要經(jīng)過多輪迭代,每一輪的迭代都會產(chǎn)生一個弱分類器,而每一個分類器的訓(xùn)練都是使用在上一輪分類器訓(xùn)練所得的殘差。對弱分類器選擇的要求一般具有三個屬性,結(jié)構(gòu)足夠簡單、低方差和高偏差的。弱分類器一般會選擇為CARTTREE(也就是分類回歸樹)[38],這樣每
廣州大學(xué)碩士學(xué)位論文12Hochreiter&Schmidhuber(1997)引入,并有許多人對其進(jìn)行了改進(jìn)和普及。他們的工作被用來解決了各種各樣的問題,直到目前還被廣泛應(yīng)用。LSTM網(wǎng)絡(luò)在普通RNN網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計出來的,解決梯度消失問題是長短期記憶網(wǎng)絡(luò)(LSTM)應(yīng)用的一個關(guān)鍵動機[40]。LSTM網(wǎng)絡(luò)在隱藏層各神經(jīng)單元中增加了記憶單元,從而達(dá)到控制在時間序列上流轉(zhuǎn)的記憶信息,并且在很大程度上解決了梯度消失問題。它通過控制幾個門的流傳信息,控制之前的歷史信息和當(dāng)前信息的記憶和遺忘程度,從而使RNN網(wǎng)絡(luò)具備了長期記憶功能。LSTM的核心是神經(jīng)網(wǎng)絡(luò)中的細(xì)胞狀態(tài),細(xì)胞狀態(tài)像水平線一樣貫穿整個細(xì)胞,像一條傳送帶一樣。它貫穿整個細(xì)胞,卻只有比較少的分支線路,這樣能夠保證信息不變并且流過整個RNN。因為sigmoid層[41]的輸出是0-1區(qū)間的值,這代表有多少信息能夠流過sigmoid層。0表示所有信息都丟棄,1表示所有信息都保留。LSTM通過三個門來控制細(xì)胞狀態(tài),這三個門分別稱為遺忘門、輸入門和輸出門。圖2-3LSTM結(jié)構(gòu)圖1)遺忘門(forgetgate):負(fù)責(zé)上一個細(xì)胞輸出的長時記憶和當(dāng)前細(xì)胞長時記憶之間的控制,即有多少歷史信息需要保留或者丟棄。2)輸入門(inputgate):負(fù)責(zé)當(dāng)前細(xì)胞的短時記憶和長時記憶的控制,即有多少新的信息可以加入到長時記憶中。
【參考文獻(xiàn)】:
期刊論文
[1]采用深度學(xué)習(xí)的DGA域名檢測模型比較[J]. 裴蘭珍,趙英俊,王哲,羅赟騫. 計算機科學(xué). 2019(05)
[2]基于BiLstm神經(jīng)網(wǎng)絡(luò)的DGA域名檢測方法[J]. 林思明,陳騰躍,梁煜麓. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2019(01)
[3]基于深度學(xué)習(xí)的集成DGA域名檢測方法[J]. 羅赟騫,鄔江,王艷偉,楊鶴. 信息技術(shù)與網(wǎng)絡(luò)安全. 2018(10)
本文編號:3042797
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3042797.html
最近更新
教材專著