基于溯源數(shù)據(jù)與流數(shù)據(jù)的IP屬性分析
發(fā)布時間:2020-05-31 04:23
【摘要】:隨著互聯(lián)網(wǎng)的迅速普及,相關(guān)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)用戶日益增多。虛擬網(wǎng)絡(luò)很好的融入了人們的生活。因此,平均每天都會有海量的互聯(lián)網(wǎng)流數(shù)據(jù)產(chǎn)生。當(dāng)許多人的生活的行為都依賴于互聯(lián)網(wǎng)時,安全問題就成了重中之重。在現(xiàn)實生活中,身份證可以唯一確定一個人,在互聯(lián)網(wǎng)中,通過IP地址可以追溯到相關(guān)設(shè)備以及用戶的信息。因此,在大量的網(wǎng)絡(luò)數(shù)據(jù)中對IP用戶產(chǎn)生的互聯(lián)網(wǎng)行為進(jìn)行統(tǒng)計分析,并且對互聯(lián)網(wǎng)中的IP用戶進(jìn)行可識別,可追蹤甚至進(jìn)行身份標(biāo)定是具有重要意義的。本文提出了基于溯源數(shù)據(jù)與流數(shù)據(jù)的IP屬性分析,在采集并解析流數(shù)據(jù)的基礎(chǔ)上,從IP的活躍信息,基本信息,用戶信息三個方面對IP進(jìn)行分析。首先采集流數(shù)據(jù),并進(jìn)行解析,提取,存儲。在IP活躍信息分析方面,對IP出入度、端口使用情況等信息進(jìn)行統(tǒng)計分析;通過判斷IP用戶的每天的訪問頻次是否超過平均訪問頻次+N倍的標(biāo)準(zhǔn)差來判斷流量是否異常;利用活躍地址檢測算法對IP活躍地址進(jìn)行檢測,并針對服務(wù)IP提取出相關(guān)域名信息。在IP基本信息分析方面,完成IP類型劃分,區(qū)分出服務(wù)IP與用戶IP;對于服務(wù)IP,使用樸素貝葉斯方法確定IP服務(wù)類型;對于用戶IP,完成NAT分析,通過Cookie ID實現(xiàn)對NAT最大承載量的估算;利用已有的IP地址庫,重新維護(hù)一份IP地址庫,并統(tǒng)計分析出用戶IP經(jīng)常訪問的地區(qū)分布以及經(jīng)常被訪問的地區(qū)分布;通過維護(hù)的IP地址庫完成對溯源系統(tǒng)產(chǎn)生的溯源數(shù)據(jù)進(jìn)行核驗。在IP用戶信息分析方面,對網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,并通過爬蟲獲取用戶個人信息。最后,對系統(tǒng)的具體功能進(jìn)行了功能測試和性能測試,在測試過程中,對出現(xiàn)的bug進(jìn)行了修改和完善,并進(jìn)行了適當(dāng)?shù)恼{(diào)優(yōu),基本滿足了使用的要求,可以在實際環(huán)境中進(jìn)行運行。
【圖文】:
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文對于分類所需的訓(xùn)練集,,通過系統(tǒng)統(tǒng)計出一定數(shù)量的 IP 特征,提取其中頻率比較高的 IP,通過人工標(biāo)定的方式得出訓(xùn)練集。對于 IP 特征提取,基于特征知識庫,例如,芒果 TV 的特征字符串是“hunantv”人工標(biāo)定時借助 wireshark 抓包工具,實例如下圖 3-14 所示:
圖 4-3 流數(shù)據(jù)處理程序流程圖.2 IP 活躍信息分析模塊的實現(xiàn)IP 活躍信息分析模塊的實現(xiàn)包括 IP 流量分析子模塊的實現(xiàn)和 IP 活躍判模塊的實現(xiàn)。本節(jié)將通過程序流程圖描述流量統(tǒng)計分析、異常流量檢測,判定、域名信息提取這幾個功能的實現(xiàn)。2.1 IP 流量分析子模塊的實現(xiàn)(1)流量統(tǒng)計分析流量統(tǒng)計分析需要統(tǒng)計出流數(shù)據(jù)中 IP 出度,入度,關(guān)聯(lián) IP 的數(shù)目和關(guān) IP 列表,IP 源端口使用數(shù)量和詳情,IP 目的端口使用情況和詳情,IP 鏈這些信息。在統(tǒng)計分析之前,需要編寫 shell 腳本,將所需流數(shù)據(jù)傳輸?shù)椒⻊?wù)器上,傳輸完畢生成.ok 文件。Java 程序檢測到.ok 文件才會執(zhí)行。流量統(tǒng)計程序流程圖如下圖 4-4 所示:在某一時間段內(nèi),初始化 map, IP,值是 IPInfo 對象,即最終統(tǒng)計結(jié)果。然后讀取流數(shù)據(jù)文件,從每一條
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.08
【圖文】:
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文對于分類所需的訓(xùn)練集,,通過系統(tǒng)統(tǒng)計出一定數(shù)量的 IP 特征,提取其中頻率比較高的 IP,通過人工標(biāo)定的方式得出訓(xùn)練集。對于 IP 特征提取,基于特征知識庫,例如,芒果 TV 的特征字符串是“hunantv”人工標(biāo)定時借助 wireshark 抓包工具,實例如下圖 3-14 所示:
圖 4-3 流數(shù)據(jù)處理程序流程圖.2 IP 活躍信息分析模塊的實現(xiàn)IP 活躍信息分析模塊的實現(xiàn)包括 IP 流量分析子模塊的實現(xiàn)和 IP 活躍判模塊的實現(xiàn)。本節(jié)將通過程序流程圖描述流量統(tǒng)計分析、異常流量檢測,判定、域名信息提取這幾個功能的實現(xiàn)。2.1 IP 流量分析子模塊的實現(xiàn)(1)流量統(tǒng)計分析流量統(tǒng)計分析需要統(tǒng)計出流數(shù)據(jù)中 IP 出度,入度,關(guān)聯(lián) IP 的數(shù)目和關(guān) IP 列表,IP 源端口使用數(shù)量和詳情,IP 目的端口使用情況和詳情,IP 鏈這些信息。在統(tǒng)計分析之前,需要編寫 shell 腳本,將所需流數(shù)據(jù)傳輸?shù)椒⻊?wù)器上,傳輸完畢生成.ok 文件。Java 程序檢測到.ok 文件才會執(zhí)行。流量統(tǒng)計程序流程圖如下圖 4-4 所示:在某一時間段內(nèi),初始化 map, IP,值是 IPInfo 對象,即最終統(tǒng)計結(jié)果。然后讀取流數(shù)據(jù)文件,從每一條
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.08
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 李瑞e
本文編號:2689280
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2689280.html
最近更新
教材專著