基于多層卷積模型的惡意URL特征自動(dòng)提取
發(fā)布時(shí)間:2021-08-16 09:57
針對(duì)惡意仿冒URL的有效識(shí)別問(wèn)題,提出一種基于skip-gram和連續(xù)多層卷積層的模型相結(jié)合的網(wǎng)絡(luò)模型完成對(duì)惡意仿冒URL進(jìn)行特征提取并檢測(cè)。根據(jù)URL結(jié)構(gòu)特性將其切分為5個(gè)部分,使用skip-gram對(duì)字符進(jìn)行稠密編碼將URL數(shù)據(jù)信息進(jìn)行轉(zhuǎn)化;使用連續(xù)多個(gè)卷積層的CNN模型針對(duì)URL的每個(gè)部分完成獨(dú)立特征提取,將特征提取結(jié)果進(jìn)行整合;使用貝葉斯、隨機(jī)森林等多種分類器對(duì)模型提取特征空間進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法能夠快速有效地對(duì)惡意仿冒URL進(jìn)行檢測(cè),檢測(cè)準(zhǔn)確率可達(dá)97%,效果優(yōu)于典型的eXpose多核卷積模型。
【文章來(lái)源】:計(jì)算機(jī)工程與設(shè)計(jì). 2020,41(07)北大核心
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
http協(xié)議形式
skip-gram模型旨在將字符轉(zhuǎn)換為占用空間更小的稠密向量。本文以URL為處理單位,選擇其最細(xì)粒度———字符,作為最小語(yǔ)義單元,統(tǒng)計(jì)正、負(fù)數(shù)據(jù)集中的最小語(yǔ)義單元的頻次,并按降序排列,結(jié)果如圖2所示。橫坐標(biāo)為字符降序排列的序號(hào),縱坐標(biāo)為1-gram字符出現(xiàn)的頻次。本文將頻次較低字符包括中文字符(’翡’,’語(yǔ)’,’利’,’款’等)、非常用字符(’>’,’π’,’^’,’`’等)及亂碼字符(’す’,’í’,’の’,’’等)全部置為”UNK”,以減少模型訓(xùn)練的時(shí)間及空間復(fù)雜度,且不會(huì)對(duì)編碼結(jié)果造成影響。故本文以頻次為334次的第79個(gè)字符’!’作為切分點(diǎn),舍去頻次小于300次的字符。并將保留的79個(gè)字符與”UNK”組成skip-gram模型所需的字符表V。在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d為字符向量的維數(shù),w為字符表V中的字符。如圖3所示,使用滑動(dòng)窗口得到訓(xùn)練數(shù)據(jù)(w,c),不僅能獲取相鄰字符間的關(guān)系,也能獲取具有一定距離字符間的關(guān)系。相較于普通二元數(shù)據(jù)對(duì)能更加準(zhǔn)確表達(dá)字符的上下文關(guān)系。且本文設(shè)置大小為5的滑動(dòng)窗口,即能保證充分獲取字符間的關(guān)系,又能避免因距離過(guò)遠(yuǎn)而獲取的錯(cuò)誤關(guān)系。
在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d為字符向量的維數(shù),w為字符表V中的字符。如圖3所示,使用滑動(dòng)窗口得到訓(xùn)練數(shù)據(jù)(w,c),不僅能獲取相鄰字符間的關(guān)系,也能獲取具有一定距離字符間的關(guān)系。相較于普通二元數(shù)據(jù)對(duì)能更加準(zhǔn)確表達(dá)字符的上下文關(guān)系。且本文設(shè)置大小為5的滑動(dòng)窗口,即能保證充分獲取字符間的關(guān)系,又能避免因距離過(guò)遠(yuǎn)而獲取的錯(cuò)誤關(guān)系。在目標(biāo)字符w的上下文中觀察到字符c的概率如式(1)所示,在目標(biāo)字符w的上下文中未觀察到字符c的概率如式(2)所示
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的惡意URL檢測(cè)[J]. 潘司晨,薛質(zhì),施勇. 通信技術(shù). 2018(08)
[2]卷積網(wǎng)絡(luò)深度學(xué)習(xí)算法與實(shí)例[J]. 陳旭,張軍,陳文偉,李碩豪. 廣東工業(yè)大學(xué)學(xué)報(bào). 2017(06)
[3]基于SVM和TF-IDF的惡意URL識(shí)別分析與研究[J]. 甘宏,潘丹. 計(jì)算機(jī)與現(xiàn)代化. 2016(07)
[4]基于巴氏系數(shù)和Jaccard系數(shù)的協(xié)同過(guò)濾算法[J]. 楊家慧,劉方愛(ài). 計(jì)算機(jī)應(yīng)用. 2016(07)
[5]惡意網(wǎng)頁(yè)識(shí)別研究綜述[J]. 沙泓州,劉慶云,柳廳文,周舟,郭莉,方濱興. 計(jì)算機(jī)學(xué)報(bào). 2016(03)
本文編號(hào):3345459
【文章來(lái)源】:計(jì)算機(jī)工程與設(shè)計(jì). 2020,41(07)北大核心
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
http協(xié)議形式
skip-gram模型旨在將字符轉(zhuǎn)換為占用空間更小的稠密向量。本文以URL為處理單位,選擇其最細(xì)粒度———字符,作為最小語(yǔ)義單元,統(tǒng)計(jì)正、負(fù)數(shù)據(jù)集中的最小語(yǔ)義單元的頻次,并按降序排列,結(jié)果如圖2所示。橫坐標(biāo)為字符降序排列的序號(hào),縱坐標(biāo)為1-gram字符出現(xiàn)的頻次。本文將頻次較低字符包括中文字符(’翡’,’語(yǔ)’,’利’,’款’等)、非常用字符(’>’,’π’,’^’,’`’等)及亂碼字符(’す’,’í’,’の’,’’等)全部置為”UNK”,以減少模型訓(xùn)練的時(shí)間及空間復(fù)雜度,且不會(huì)對(duì)編碼結(jié)果造成影響。故本文以頻次為334次的第79個(gè)字符’!’作為切分點(diǎn),舍去頻次小于300次的字符。并將保留的79個(gè)字符與”UNK”組成skip-gram模型所需的字符表V。在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d為字符向量的維數(shù),w為字符表V中的字符。如圖3所示,使用滑動(dòng)窗口得到訓(xùn)練數(shù)據(jù)(w,c),不僅能獲取相鄰字符間的關(guān)系,也能獲取具有一定距離字符間的關(guān)系。相較于普通二元數(shù)據(jù)對(duì)能更加準(zhǔn)確表達(dá)字符的上下文關(guān)系。且本文設(shè)置大小為5的滑動(dòng)窗口,即能保證充分獲取字符間的關(guān)系,又能避免因距離過(guò)遠(yuǎn)而獲取的錯(cuò)誤關(guān)系。
在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d為字符向量的維數(shù),w為字符表V中的字符。如圖3所示,使用滑動(dòng)窗口得到訓(xùn)練數(shù)據(jù)(w,c),不僅能獲取相鄰字符間的關(guān)系,也能獲取具有一定距離字符間的關(guān)系。相較于普通二元數(shù)據(jù)對(duì)能更加準(zhǔn)確表達(dá)字符的上下文關(guān)系。且本文設(shè)置大小為5的滑動(dòng)窗口,即能保證充分獲取字符間的關(guān)系,又能避免因距離過(guò)遠(yuǎn)而獲取的錯(cuò)誤關(guān)系。在目標(biāo)字符w的上下文中觀察到字符c的概率如式(1)所示,在目標(biāo)字符w的上下文中未觀察到字符c的概率如式(2)所示
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的惡意URL檢測(cè)[J]. 潘司晨,薛質(zhì),施勇. 通信技術(shù). 2018(08)
[2]卷積網(wǎng)絡(luò)深度學(xué)習(xí)算法與實(shí)例[J]. 陳旭,張軍,陳文偉,李碩豪. 廣東工業(yè)大學(xué)學(xué)報(bào). 2017(06)
[3]基于SVM和TF-IDF的惡意URL識(shí)別分析與研究[J]. 甘宏,潘丹. 計(jì)算機(jī)與現(xiàn)代化. 2016(07)
[4]基于巴氏系數(shù)和Jaccard系數(shù)的協(xié)同過(guò)濾算法[J]. 楊家慧,劉方愛(ài). 計(jì)算機(jī)應(yīng)用. 2016(07)
[5]惡意網(wǎng)頁(yè)識(shí)別研究綜述[J]. 沙泓州,劉慶云,柳廳文,周舟,郭莉,方濱興. 計(jì)算機(jī)學(xué)報(bào). 2016(03)
本文編號(hào):3345459
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3345459.html
最近更新
教材專著