基于機(jī)器學(xué)習(xí)的惡意網(wǎng)址識(shí)別方法的研究與發(fā)現(xiàn)
發(fā)布時(shí)間:2021-01-10 07:03
隨著互聯(lián)網(wǎng)的快速發(fā)展以及網(wǎng)民數(shù)量的不斷攀升,信息在高速與頻繁的交換過程中木馬注入、網(wǎng)絡(luò)釣魚、分布式攻擊等網(wǎng)絡(luò)攻擊不斷涌現(xiàn),嚴(yán)重威脅個(gè)人用戶的隱私、網(wǎng)絡(luò)環(huán)境的生態(tài)及國(guó)家信息財(cái)產(chǎn)安全。許多網(wǎng)絡(luò)攻擊借助傳播惡意URLs來實(shí)現(xiàn)。本文針對(duì)惡意URLs的檢測(cè)問題進(jìn)行了相關(guān)研究。針對(duì)基于黑名單機(jī)制只能檢測(cè)識(shí)別已發(fā)現(xiàn)的惡意URLs,無法預(yù)測(cè)新近出現(xiàn)及未標(biāo)記的惡意網(wǎng)址的問題,本文對(duì)大量URLs進(jìn)行統(tǒng)計(jì)分析,設(shè)計(jì)并提出具有高檢出率的惡意URLs檢測(cè)特征空間,包含基于時(shí)間、元輔音比等34維特征。為驗(yàn)證比較特征有效性,結(jié)合機(jī)器學(xué)習(xí)及深度學(xué)習(xí)算法進(jìn)行檢測(cè)實(shí)驗(yàn),證明對(duì)惡意URLs檢測(cè)識(shí)別具有良好的區(qū)分能力,檢測(cè)準(zhǔn)確率高達(dá)99.5%。通過對(duì)特征集的對(duì)比分析發(fā)現(xiàn):時(shí)間、子路徑最大長(zhǎng)度、URLs中元組在負(fù)向數(shù)據(jù)集概率和、URLs中元組在正向數(shù)據(jù)集概率和、域名最長(zhǎng)字串占域名比例、域名中不同種類的字符占域名比例等15維特征在先前研究中未被使用或較少被使用,但在本特征集中起關(guān)鍵性區(qū)分作用。針對(duì)人工設(shè)計(jì)特征規(guī)則過程中會(huì)引入不相關(guān)、冗余、噪聲特征等問題,本文提出一種發(fā)現(xiàn)綜合特征空間的方法,主要采用隨機(jī)森林、J48、貝葉斯等機(jī)器學(xué)...
【文章來源】:北京建筑大學(xué)北京市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ID3和C4.5算法流程圖
第 2 章 相關(guān)研究特征組合作為特征選擇的結(jié)果。2.5 深度學(xué)習(xí)算法2.5.1 卷積神經(jīng)網(wǎng)絡(luò)由于人工智能的發(fā)展推進(jìn)與 AlphaGo 的驚人表現(xiàn),使得近期深度學(xué)習(xí)算法受到廣泛關(guān)注,其優(yōu)良的智能計(jì)算學(xué)習(xí)能力也被人贊賞。目前深度學(xué)習(xí)網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等主要算法被重點(diǎn)應(yīng)用,主要應(yīng)用于圖像數(shù)據(jù)的相關(guān)處理,同時(shí)少量研究是基于信號(hào)數(shù)據(jù)[53],字符串?dāng)?shù)據(jù)進(jìn)行處理的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在特征提取方面具有良好的表現(xiàn),通過 CNN 可以完成輸入中多種特征的識(shí)別。因此,在此基礎(chǔ)上嘗試以 CNN 對(duì) URLs進(jìn)行學(xué)習(xí)分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet-5 結(jié)構(gòu),其中包括 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為池化層,第六層為全連接層,第七層為輸出層,具體如圖 2-3 所示。
CNN 可以完成輸入中多種特征的識(shí)別。因此,在此基礎(chǔ)上嘗試以 CNN分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為全連接層,第七層為輸出層,具體如圖 2-3 所示。圖 2-3 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)Fig 2-3 LeNet-5 Convolutional neural network積神經(jīng)網(wǎng)絡(luò)中卷積層的主要功能是特征提取,通過卷積核將輸入數(shù)據(jù),強(qiáng)化特征輸出。圖 2-4 所示是卷積的具體過程,設(shè)定 2×2 的卷積陣,以步長(zhǎng)為 2 進(jìn)行運(yùn)算轉(zhuǎn)化后輸出,實(shí)現(xiàn)原信號(hào)特征增強(qiáng),并且降
【參考文獻(xiàn)】:
期刊論文
[1]面向惡意網(wǎng)址檢測(cè)的廣譜特征選擇與評(píng)估[J]. 張慧,錢麗萍,汪立東,袁辰,張婷. 現(xiàn)代電子技術(shù). 2019(09)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計(jì)算機(jī)應(yīng)用. 2017(09)
[3]網(wǎng)絡(luò)數(shù)據(jù)特征選擇的優(yōu)化方法研究與仿真[J]. 張浩. 計(jì)算機(jī)仿真. 2017(02)
[4]基于多維度特征的不良網(wǎng)站檢測(cè)[J]. 田雙柱,陳勇,延志偉,李曉東. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(02)
[5]采用機(jī)器學(xué)習(xí)的聚類模型特征選擇方法比較[J]. 趙瑋. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[6]基于集成學(xué)習(xí)的釣魚網(wǎng)頁(yè)深度檢測(cè)系統(tǒng)[J]. 馮慶,連一峰,張穎君. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(10)
[7]基于信息熵的網(wǎng)絡(luò)安全研究[J]. 宣宇才,楊海軍,李論. 學(xué)術(shù)探索. 2016(09)
[8]基于改進(jìn)正則表達(dá)式規(guī)則分組的內(nèi)網(wǎng)行為審計(jì)方案[J]. 俞藝涵,付鈺,吳曉平. 計(jì)算機(jī)應(yīng)用. 2016(08)
[9]基于SVM和TF-IDF的惡意URL識(shí)別分析與研究[J]. 甘宏,潘丹. 計(jì)算機(jī)與現(xiàn)代化. 2016(07)
[10]基于多元屬性特征的惡意域名檢測(cè)[J]. 張洋,柳廳文,沙泓州,時(shí)金橋. 計(jì)算機(jī)應(yīng)用. 2016(04)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測(cè)及人臉識(shí)別方法研究[D]. 丁春輝.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]機(jī)器學(xué)習(xí)中特征選問題研究[D]. 孫鑫.吉林大學(xué) 2013
碩士論文
[1]高混淆掛馬網(wǎng)頁(yè)的分析與檢測(cè)系統(tǒng)[D]. 楊明.上海交通大學(xué) 2014
[2]基于DNS流量的惡意軟件域名挖掘[D]. 章思宇.上海交通大學(xué) 2014
本文編號(hào):2968281
【文章來源】:北京建筑大學(xué)北京市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ID3和C4.5算法流程圖
第 2 章 相關(guān)研究特征組合作為特征選擇的結(jié)果。2.5 深度學(xué)習(xí)算法2.5.1 卷積神經(jīng)網(wǎng)絡(luò)由于人工智能的發(fā)展推進(jìn)與 AlphaGo 的驚人表現(xiàn),使得近期深度學(xué)習(xí)算法受到廣泛關(guān)注,其優(yōu)良的智能計(jì)算學(xué)習(xí)能力也被人贊賞。目前深度學(xué)習(xí)網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等主要算法被重點(diǎn)應(yīng)用,主要應(yīng)用于圖像數(shù)據(jù)的相關(guān)處理,同時(shí)少量研究是基于信號(hào)數(shù)據(jù)[53],字符串?dāng)?shù)據(jù)進(jìn)行處理的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在特征提取方面具有良好的表現(xiàn),通過 CNN 可以完成輸入中多種特征的識(shí)別。因此,在此基礎(chǔ)上嘗試以 CNN 對(duì) URLs進(jìn)行學(xué)習(xí)分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet-5 結(jié)構(gòu),其中包括 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為池化層,第六層為全連接層,第七層為輸出層,具體如圖 2-3 所示。
CNN 可以完成輸入中多種特征的識(shí)別。因此,在此基礎(chǔ)上嘗試以 CNN分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為全連接層,第七層為輸出層,具體如圖 2-3 所示。圖 2-3 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)Fig 2-3 LeNet-5 Convolutional neural network積神經(jīng)網(wǎng)絡(luò)中卷積層的主要功能是特征提取,通過卷積核將輸入數(shù)據(jù),強(qiáng)化特征輸出。圖 2-4 所示是卷積的具體過程,設(shè)定 2×2 的卷積陣,以步長(zhǎng)為 2 進(jìn)行運(yùn)算轉(zhuǎn)化后輸出,實(shí)現(xiàn)原信號(hào)特征增強(qiáng),并且降
【參考文獻(xiàn)】:
期刊論文
[1]面向惡意網(wǎng)址檢測(cè)的廣譜特征選擇與評(píng)估[J]. 張慧,錢麗萍,汪立東,袁辰,張婷. 現(xiàn)代電子技術(shù). 2019(09)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計(jì)算機(jī)應(yīng)用. 2017(09)
[3]網(wǎng)絡(luò)數(shù)據(jù)特征選擇的優(yōu)化方法研究與仿真[J]. 張浩. 計(jì)算機(jī)仿真. 2017(02)
[4]基于多維度特征的不良網(wǎng)站檢測(cè)[J]. 田雙柱,陳勇,延志偉,李曉東. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(02)
[5]采用機(jī)器學(xué)習(xí)的聚類模型特征選擇方法比較[J]. 趙瑋. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[6]基于集成學(xué)習(xí)的釣魚網(wǎng)頁(yè)深度檢測(cè)系統(tǒng)[J]. 馮慶,連一峰,張穎君. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(10)
[7]基于信息熵的網(wǎng)絡(luò)安全研究[J]. 宣宇才,楊海軍,李論. 學(xué)術(shù)探索. 2016(09)
[8]基于改進(jìn)正則表達(dá)式規(guī)則分組的內(nèi)網(wǎng)行為審計(jì)方案[J]. 俞藝涵,付鈺,吳曉平. 計(jì)算機(jī)應(yīng)用. 2016(08)
[9]基于SVM和TF-IDF的惡意URL識(shí)別分析與研究[J]. 甘宏,潘丹. 計(jì)算機(jī)與現(xiàn)代化. 2016(07)
[10]基于多元屬性特征的惡意域名檢測(cè)[J]. 張洋,柳廳文,沙泓州,時(shí)金橋. 計(jì)算機(jī)應(yīng)用. 2016(04)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測(cè)及人臉識(shí)別方法研究[D]. 丁春輝.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]機(jī)器學(xué)習(xí)中特征選問題研究[D]. 孫鑫.吉林大學(xué) 2013
碩士論文
[1]高混淆掛馬網(wǎng)頁(yè)的分析與檢測(cè)系統(tǒng)[D]. 楊明.上海交通大學(xué) 2014
[2]基于DNS流量的惡意軟件域名挖掘[D]. 章思宇.上海交通大學(xué) 2014
本文編號(hào):2968281
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2968281.html
最近更新
教材專著