基于溯源數(shù)據(jù)與流數(shù)據(jù)的IP屬性分析
發(fā)布時(shí)間:2020-05-31 04:23
【摘要】:隨著互聯(lián)網(wǎng)的迅速普及,相關(guān)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)用戶日益增多。虛擬網(wǎng)絡(luò)很好的融入了人們的生活。因此,平均每天都會(huì)有海量的互聯(lián)網(wǎng)流數(shù)據(jù)產(chǎn)生。當(dāng)許多人的生活的行為都依賴于互聯(lián)網(wǎng)時(shí),安全問題就成了重中之重。在現(xiàn)實(shí)生活中,身份證可以唯一確定一個(gè)人,在互聯(lián)網(wǎng)中,通過IP地址可以追溯到相關(guān)設(shè)備以及用戶的信息。因此,在大量的網(wǎng)絡(luò)數(shù)據(jù)中對(duì)IP用戶產(chǎn)生的互聯(lián)網(wǎng)行為進(jìn)行統(tǒng)計(jì)分析,并且對(duì)互聯(lián)網(wǎng)中的IP用戶進(jìn)行可識(shí)別,可追蹤甚至進(jìn)行身份標(biāo)定是具有重要意義的。本文提出了基于溯源數(shù)據(jù)與流數(shù)據(jù)的IP屬性分析,在采集并解析流數(shù)據(jù)的基礎(chǔ)上,從IP的活躍信息,基本信息,用戶信息三個(gè)方面對(duì)IP進(jìn)行分析。首先采集流數(shù)據(jù),并進(jìn)行解析,提取,存儲(chǔ)。在IP活躍信息分析方面,對(duì)IP出入度、端口使用情況等信息進(jìn)行統(tǒng)計(jì)分析;通過判斷IP用戶的每天的訪問頻次是否超過平均訪問頻次+N倍的標(biāo)準(zhǔn)差來判斷流量是否異常;利用活躍地址檢測算法對(duì)IP活躍地址進(jìn)行檢測,并針對(duì)服務(wù)IP提取出相關(guān)域名信息。在IP基本信息分析方面,完成IP類型劃分,區(qū)分出服務(wù)IP與用戶IP;對(duì)于服務(wù)IP,使用樸素貝葉斯方法確定IP服務(wù)類型;對(duì)于用戶IP,完成NAT分析,通過Cookie ID實(shí)現(xiàn)對(duì)NAT最大承載量的估算;利用已有的IP地址庫,重新維護(hù)一份IP地址庫,并統(tǒng)計(jì)分析出用戶IP經(jīng)常訪問的地區(qū)分布以及經(jīng)常被訪問的地區(qū)分布;通過維護(hù)的IP地址庫完成對(duì)溯源系統(tǒng)產(chǎn)生的溯源數(shù)據(jù)進(jìn)行核驗(yàn)。在IP用戶信息分析方面,對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,并通過爬蟲獲取用戶個(gè)人信息。最后,對(duì)系統(tǒng)的具體功能進(jìn)行了功能測試和性能測試,在測試過程中,對(duì)出現(xiàn)的bug進(jìn)行了修改和完善,并進(jìn)行了適當(dāng)?shù)恼{(diào)優(yōu),基本滿足了使用的要求,可以在實(shí)際環(huán)境中進(jìn)行運(yùn)行。
【圖文】:
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文對(duì)于分類所需的訓(xùn)練集,,通過系統(tǒng)統(tǒng)計(jì)出一定數(shù)量的 IP 特征,提取其中頻率比較高的 IP,通過人工標(biāo)定的方式得出訓(xùn)練集。對(duì)于 IP 特征提取,基于特征知識(shí)庫,例如,芒果 TV 的特征字符串是“hunantv”人工標(biāo)定時(shí)借助 wireshark 抓包工具,實(shí)例如下圖 3-14 所示:
圖 4-3 流數(shù)據(jù)處理程序流程圖.2 IP 活躍信息分析模塊的實(shí)現(xiàn)IP 活躍信息分析模塊的實(shí)現(xiàn)包括 IP 流量分析子模塊的實(shí)現(xiàn)和 IP 活躍判模塊的實(shí)現(xiàn)。本節(jié)將通過程序流程圖描述流量統(tǒng)計(jì)分析、異常流量檢測,判定、域名信息提取這幾個(gè)功能的實(shí)現(xiàn)。2.1 IP 流量分析子模塊的實(shí)現(xiàn)(1)流量統(tǒng)計(jì)分析流量統(tǒng)計(jì)分析需要統(tǒng)計(jì)出流數(shù)據(jù)中 IP 出度,入度,關(guān)聯(lián) IP 的數(shù)目和關(guān) IP 列表,IP 源端口使用數(shù)量和詳情,IP 目的端口使用情況和詳情,IP 鏈這些信息。在統(tǒng)計(jì)分析之前,需要編寫 shell 腳本,將所需流數(shù)據(jù)傳輸?shù)椒⻊?wù)器上,傳輸完畢生成.ok 文件。Java 程序檢測到.ok 文件才會(huì)執(zhí)行。流量統(tǒng)計(jì)程序流程圖如下圖 4-4 所示:在某一時(shí)間段內(nèi),初始化 map, IP,值是 IPInfo 對(duì)象,即最終統(tǒng)計(jì)結(jié)果。然后讀取流數(shù)據(jù)文件,從每一條
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP393.08
【圖文】:
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文對(duì)于分類所需的訓(xùn)練集,,通過系統(tǒng)統(tǒng)計(jì)出一定數(shù)量的 IP 特征,提取其中頻率比較高的 IP,通過人工標(biāo)定的方式得出訓(xùn)練集。對(duì)于 IP 特征提取,基于特征知識(shí)庫,例如,芒果 TV 的特征字符串是“hunantv”人工標(biāo)定時(shí)借助 wireshark 抓包工具,實(shí)例如下圖 3-14 所示:
圖 4-3 流數(shù)據(jù)處理程序流程圖.2 IP 活躍信息分析模塊的實(shí)現(xiàn)IP 活躍信息分析模塊的實(shí)現(xiàn)包括 IP 流量分析子模塊的實(shí)現(xiàn)和 IP 活躍判模塊的實(shí)現(xiàn)。本節(jié)將通過程序流程圖描述流量統(tǒng)計(jì)分析、異常流量檢測,判定、域名信息提取這幾個(gè)功能的實(shí)現(xiàn)。2.1 IP 流量分析子模塊的實(shí)現(xiàn)(1)流量統(tǒng)計(jì)分析流量統(tǒng)計(jì)分析需要統(tǒng)計(jì)出流數(shù)據(jù)中 IP 出度,入度,關(guān)聯(lián) IP 的數(shù)目和關(guān) IP 列表,IP 源端口使用數(shù)量和詳情,IP 目的端口使用情況和詳情,IP 鏈這些信息。在統(tǒng)計(jì)分析之前,需要編寫 shell 腳本,將所需流數(shù)據(jù)傳輸?shù)椒⻊?wù)器上,傳輸完畢生成.ok 文件。Java 程序檢測到.ok 文件才會(huì)執(zhí)行。流量統(tǒng)計(jì)程序流程圖如下圖 4-4 所示:在某一時(shí)間段內(nèi),初始化 map, IP,值是 IPInfo 對(duì)象,即最終統(tǒng)計(jì)結(jié)果。然后讀取流數(shù)據(jù)文件,從每一條
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP393.08
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 李瑞e
本文編號(hào):2689280
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2689280.html
最近更新
教材專著