面向移動惡意應用流量的非平衡識別方法研究
發(fā)布時間:2020-11-07 06:44
隨著移動網絡的高速發(fā)展,以智能手機和平板電腦為主的智能終端的數量呈指數級的增長。智能手機的普及給人們的生活帶來了諸多的便利,同時也存在著許多安全問題。近年來,惡意應用日益猖獗,給用戶和社會帶來了極大危害,也給網絡安全與管理帶來新的挑戰(zhàn)。而大部分的惡意應用通過網絡執(zhí)行惡意行為,因此,分析移動應用產生的惡意流量成為安全領域研究的熱點。近年來,基于機器學習的流量識別技術日趨成熟,這使得從機器學習與網絡技術的角度對惡意流量準確識別成為可能。然而應用機器學習技術,研究有效的惡意流量識別方法,數項關鍵問題卻亟待解決:(1)惡意流量特征提取問題。隨著技術的發(fā)展,采用傳統(tǒng)特征對惡意流量的識別率已經不能滿足實際需求。(2)包抽樣問題。在高速網絡環(huán)境中,網絡的速率越來越快,采集和處理完整數據流相當困難;包抽樣技術的發(fā)展給流量識別提供了一種新思路,減輕了計算機的負擔。(3)非平衡流量分類問題。從互聯網中流量分布角度來看,正常流量遠遠高于惡意流量,直接采用標準的分類算法更傾向于對正常流量的準確識別,分類器獲得的性能往往不盡人意。針對惡意流量識別中的以上問題,本文將從以下幾個方面開展研究工作:首先,針對惡意流量特征提取和評估問題,本文分別從數據包層面和內容層面提取了特征,采用機器學習算法對數據集進行訓練,并構建有效的惡意流量識別模型。其次,針對樣本抽樣問題,本文在早期惡意流量識別中,采用了數據包抽樣技術,結合分類算法驗證了樣本抽樣在流量識別中的有效性。最后,針對非平衡分類問題,本文從數據層面的角度出發(fā),提出了三種解決方法。(1)本文提出了一種基于對抗生成網絡的樣本再生成方法,通過網絡的對抗訓練學習真實數據的潛在分布并合成少數類樣本,結合機器學習算法驗證了方法的有效性。(2)本文提出了一種非線性加權差異化樣本重采樣方法。該方法構造出一個在能反映少數類的安全樣本和邊界樣本對分類有不同作用的函數,計算每個少數類樣本的權重和采樣率。然后,結合SMOTE算法對樣本進行過采樣并驗證了算法的有效性。(3)本文提出了一種基于差分進化的改進的SMOTE算法。通過差分進化算法智能地搜索最優(yōu)的采樣率取值組合,然后根據該組合對數據集進行SMOTE采樣。實驗表明,該算法在解決非平衡問題上是有效的。
【學位單位】:濟南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP181;TP393.08
【部分圖文】:
首先我們在流量的包級別上進行了特征提取。圖 3.1 Packet 包頭和 Packet 數據組成圖 3.1 是 Pcap 文件去除文件頭之后的數據格式,可以看到 Packet Header 可以有多個,每個 Packet Header 后面會跟著一串 Packet Data,Packet Header 定義了 Packet Data的長度、時間戳等信息。Pcap 包頭(Packet Header)字段說明:Timestamp:時間戳高位,精確到 seconds。
面向移動惡意應用流量的非平衡識別方法研究了在提取的特征集合進行訓練,并得到的實驗結果。可果中,大多數的分類器上在包到達時間間隔上分類準確小,所有的算法的在 iat 上的準確率降低了 5%左右。實包大小是比 iat 更有效的流量識別特征。此外,本文把n+iat),可以看到所有的分類算法在混合特征上的分類尤其在 C4.5 和 KNN 上表現更為顯著。這表明 iat 包含
圖 3.5 不同的壓縮比例的 ACC 的實驗結果的壓縮比例的 ACC 的結果,可以看到:所有的分類準確率基本相同,在 ratio=8 的識別效果最差。這是會丟失一定的信息,對惡意流量的識別精度自然降tio=256 時,只是簡單的計算字符串包含了多少個相
【參考文獻】
本文編號:2873587
【學位單位】:濟南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP181;TP393.08
【部分圖文】:
首先我們在流量的包級別上進行了特征提取。圖 3.1 Packet 包頭和 Packet 數據組成圖 3.1 是 Pcap 文件去除文件頭之后的數據格式,可以看到 Packet Header 可以有多個,每個 Packet Header 后面會跟著一串 Packet Data,Packet Header 定義了 Packet Data的長度、時間戳等信息。Pcap 包頭(Packet Header)字段說明:Timestamp:時間戳高位,精確到 seconds。
面向移動惡意應用流量的非平衡識別方法研究了在提取的特征集合進行訓練,并得到的實驗結果。可果中,大多數的分類器上在包到達時間間隔上分類準確小,所有的算法的在 iat 上的準確率降低了 5%左右。實包大小是比 iat 更有效的流量識別特征。此外,本文把n+iat),可以看到所有的分類算法在混合特征上的分類尤其在 C4.5 和 KNN 上表現更為顯著。這表明 iat 包含
圖 3.5 不同的壓縮比例的 ACC 的實驗結果的壓縮比例的 ACC 的結果,可以看到:所有的分類準確率基本相同,在 ratio=8 的識別效果最差。這是會丟失一定的信息,對惡意流量的識別精度自然降tio=256 時,只是簡單的計算字符串包含了多少個相
【參考文獻】
相關期刊論文 前5條
1 危美林;張明清;董書琴;李海龍;齊先慶;;面向異常流量檢測的自適應抽樣算法研究[J];計算機應用研究;2015年10期
2 霍玉丹;谷瓊;蔡之華;袁磊;;基于遺傳算法改進的少數類樣本合成過采樣技術的非平衡數據集分類算法[J];計算機應用;2015年01期
3 劉余霞;劉三民;劉濤;王忠群;;一種新的過采樣算法DB_SMOTE[J];計算機工程與應用;2014年06期
4 陳偉;胡磊;楊龍;;基于載荷特征的加密流量快速識別方法[J];計算機工程;2012年12期
5 王超學;潘正茂;董麗麗;馬春森;張星;;基于改進SMOTE的非平衡數據集分類研究[J];計算機工程與應用;2013年02期
本文編號:2873587
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2873587.html
最近更新
教材專著