基于機器學習的P2P網絡流分類研究
發(fā)布時間:2017-09-13 13:16
本文關鍵詞:基于機器學習的P2P網絡流分類研究
更多相關文章: P2P流 機器學習 特征選擇 集成學習 Bagging 決策樹
【摘要】:近年來,P2P網絡憑借其對等、自由、開放的特性在互聯(lián)網的諸多領域呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,,已經成為Internet網絡流的主宰流量。P2P網絡技術的發(fā)展給一方面給網絡安全帶來更大的威脅,另一方面,龐大的P2P流量吞噬而著網絡帶寬,使得非P2P網絡的帶寬得不到滿足,給網絡運營以及網絡管理者帶來全新的挑戰(zhàn)。通過P2P流識別技術來加強管理和控制P2P流量是解決該難題的研究方向之一。然而隨著互聯(lián)網技術的發(fā)展,P2P應用為了適應網絡環(huán)境,越來越多的使用動態(tài)端口、隧道技術以及協(xié)議加密等技術,這使得傳統(tǒng)的利用端口和應用層特征等識別技術無法滿足P2P流識別的要求。 隨著機器學習理論的不斷成熟,其在醫(yī)療診斷、圖像識別、音頻識別以及網絡安全領域的應用越來越廣泛。機器學習利用數學統(tǒng)計知識和算法理論建立有效的學習模型,從數據層面挖掘內在規(guī)則,對信息量要求不大、不會涉及用戶隱私,而且能夠應對動態(tài)變化的數據環(huán)境,所以機器學習方法非常適合識別具有動態(tài)性的P2P網絡流。本課題主要研究基于機器學習的P2P流分類方法,基于機器學習的P2P流識別利用P2P流統(tǒng)計特征建立分類模型,一方面如何從大量的P2P流統(tǒng)計特征中選出高效的特征集對于分類模型的分類效果有著深刻的影響;另一方面,如何建立分類模型也是最終分類效果的關鍵,本文主要內容如下: 1.由統(tǒng)計原理建立的P2P流數據擁有上百個特征,面對如此眾多的特征,在ReliefF的基礎上提出了一種改進算法ReliefF特征選擇,能夠刪除ReliefF中的冗余特征,不但降低了特征維數,而且能提高特征集的分類能力。 2.對集成學習算法的研究中,比較分析了AdaBoost和Bagging集成學習的優(yōu)劣,在Bagging的學習的基礎上引入了選擇性集成理念,基于分類器之間的差異性度量Q統(tǒng)計量設計了通過不斷刪除差異性最小的分類器來選擇部分分類器集成的PBagging算法;跊Q策樹算法作基分類器,進行實驗驗證,發(fā)現(xiàn)PBagging能夠提升Bagging的分類正確率,在不同分類器規(guī)模下,PBagging都能表現(xiàn)出比Bagging更高的分類準確性。 3.研究不同類型的分類器集成,提出了一種由貝葉斯分類器、SVM、決策樹這3種分類器構成的集成模型,通過相關網絡流數據進行實驗發(fā)現(xiàn)該集成算法的分類正確率顯著高于每個參與集成的單個分類器。本文的研究成果能有效提高特征選擇的可利用價值,結合改進的集成學習算法能夠進一步提高P2P流的識別率,對于P2P流的分類提供了全新的解決方案,將促進P2P流的管理和控制,也有助于建立更加可靠安全的互聯(lián)網環(huán)境,進而營造和諧的網絡氛圍。
【關鍵詞】:P2P流 機器學習 特征選擇 集成學習 Bagging 決策樹
【學位授予單位】:江南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.02;TP181
【目錄】:
- 摘要3-4
- Abstract4-9
- 第一章 緒論9-17
- 1.1 研究背景與研究意義9-11
- 1.1.1 研究背景9-10
- 1.1.2 研究意義10-11
- 1.2 P2P 流量識別的研究現(xiàn)狀11-15
- 1.2.1 基于端口的 P2P 流識別11
- 1.2.2 基于應用層負載特征的 P2P 流識別11-12
- 1.2.3 基于行為特征的識別技術12-13
- 1.2.4 基于機器學習的 P2P 流量識別13-14
- 1.2.5 P2P 流分類面臨的問題14-15
- 1.3 本文的主要工作15-17
- 1.3.1 本文的主要工作15
- 1.3.2 本文的組織和結構15-17
- 第二章 基于機器學習的 P2P 流量識別理論分析17-27
- 2.1 引言17
- 2.2 問題描述17-18
- 2.2.1 相關定義17-18
- 2.2.2 P2P 流識別流程18
- 2.3 機器學習算法18-24
- 2.3.1 無監(jiān)督學習算法18-20
- 2.3.2 有監(jiān)督學習算法20-24
- 2.4 識別算法評估標準24-26
- 2.4.1 混淆矩陣24-25
- 2.4.2 評估方法25-26
- 2.5 本章小結26-27
- 第三章 P2P 流特征選擇算法研究27-36
- 3.1 引言27
- 3.2 特征選擇綜述27-28
- 3.2.1 特征選擇流程27
- 3.2.2 特征選擇分類27-28
- 3.3 特征選擇算法28-32
- 3.3.1 FCBF 算法28-29
- 3.3.2 CFS 算法29-31
- 3.3.3 ReliefF&特征選擇31-32
- 3.4 實驗分析32-35
- 3.4.1 實驗數據32-33
- 3.4.2 實驗平臺和工具33-34
- 3.4.3 實驗過程34-35
- 3.4.4 結果分析35
- 3.5 本章小結35-36
- 第四章 基于集成學習算法的 P2P 流分類模型36-49
- 4.1 引言36
- 4.2 集成分類模型36-40
- 4.2.1 相關概念36-37
- 4.2.2 基于 AdaBoost 的分類模型37-38
- 4.2.3 基于 Bagging 的分類模型38-40
- 4.3 Bagging 算法的改進40-43
- 4.3.1 集成算法的原理分析40-41
- 4.3.2 Bagging 的選擇性集成41
- 4.3.3 PBagging 集成學習算法41-43
- 4.4 基分類器的選擇43-46
- 4.4.1 ID3 和 C4.5 決策樹43-44
- 4.4.2 CART 決策樹44-46
- 4.5 實驗分析46-48
- 4.5.1 實驗過程46-47
- 4.5.2 結果分析47-48
- 4.6 本章小結48-49
- 第五章 基于非同質分類器集成的 P2P 流分類模型49-54
- 5.1 引言49
- 5.2 非同質器集成模型49-51
- 5.2.1 集成模型設計49
- 5.2.2 WEKA 功能簡介49-51
- 5.3 實驗分析51-52
- 5.3.1 實驗過程51-52
- 5.3.2 結果分析52
- 5.4 本章小結52-54
- 主要結論與展望54-55
- 主要結論54
- 展望54-55
- 致謝55-56
- 參考文獻56-59
- 附錄:作者在攻讀碩士學位期間發(fā)表的論文59
【參考文獻】
中國期刊全文數據庫 前1條
1 李偉男;鄂躍鵬;葛敬國;錢華林;;多模式匹配算法及硬件實現(xiàn)[J];軟件學報;2006年12期
本文編號:843914
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/843914.html
最近更新
教材專著