基于支持向量機的P2P流量識別關鍵技術研究
第一章 緒論
近年來,對等計算(Peer-to-Peer,簡稱 P2P)技術迅速發(fā)展,日益受到計算機界的關注和青睞,迅速成為業(yè)界關注的熱門話題之一。P2P 技術在文件共享、實時流媒體、視頻點播和分布式計算系統(tǒng)等領域都有重要應用。P2P 技術的使用使得用戶可獲得的資源更廣泛,內(nèi)容更豐富,形式更多樣,但 P2P 技術的廣泛使用帶來許多負面影響,如吞噬網(wǎng)絡資源、知識侵權、網(wǎng)絡安全等,這些問題也導致 P2P 流量識別研究迫在眉睫。同時 P2P 流量的準確高效識別是網(wǎng)絡運營商或網(wǎng)絡管理員開展網(wǎng)絡活動的前提?梢,P2P 網(wǎng)絡雖然能提供快速高效的文件共享、低成本高可用的計算資源和存儲資源共享,并且具有強大的網(wǎng)絡連通性,以及更直接更靈活的信息傳送能力。然而,P2P 網(wǎng)絡在提供高效快速資源共享的同時,也帶來了眾多的問題:P2P 對傳輸速度的需求高,且 P2P 應用的數(shù)據(jù)交換具有一對多、突發(fā)性和分布式特性,P2P 用戶的超大容量下載,消耗了大量帶寬;其用戶搶占了大約 70%以上的網(wǎng)絡帶寬,造成企業(yè)及網(wǎng)絡設備供應商的鏈路出現(xiàn)瓶頸效應;P2P 用戶大批量地下載各種文件,使得網(wǎng)絡負荷極大的增加,特別是在高峰時段,經(jīng)常會出現(xiàn)網(wǎng)絡不暢等狀況。隨著 P2P 應用的快速發(fā)展,P2P 指數(shù)級增長的數(shù)據(jù)傳輸使得網(wǎng)絡帶寬資源更加緊張。因此,為了確保其他正常網(wǎng)絡用戶的服務,同時為了更好地發(fā)揮 P2P 技術的優(yōu)勢,對 P2P 流量進行分類、識別就成為目前業(yè)內(nèi)研究的一個熱點。
....
2.1端口識別法
使用基于端口的識別方法對 P2P 流量的進行識別的方法,同樣也可以用來識別普通應用分組。首先,在網(wǎng)絡流量中提取需要檢測的數(shù)據(jù)信息,然后通過提取該數(shù)據(jù)包首部信息中的端口信息,接著將提取到的端口號與已知的固定應用的端口號進行匹配,如果匹配成功,則可以斷定該條數(shù)據(jù)流量為 P2P 流量。在 P2P 應用研究的初期有許多學者采用基于端口方法識別 P2P 流量。Sen 等學者[6]使用基于端口識別的方法成功地識別出當時流行的三種P2P文件共享應用(Gnutella、FastTrack、DirectConnect)。Moore[8]等學者,通過提取數(shù)據(jù)流量的五元組中的端口信息,用基于端口的方法識別出 KaZaA 流中的 TCP 端口 1214。Lua等學者,通過將數(shù)據(jù)流的長度和端口相結合,實現(xiàn)了對網(wǎng)絡中的一些端口固定的數(shù)據(jù)進行識別。2.2應用層特征識別法
應用層特征識別法,又稱為深層數(shù)據(jù)包檢測法(Deep Packet Inspection:DPI),提出該方法的主要原因是因為基于端口識別方法存在的不確定性。因為大部分的 P2P 應用在其協(xié)議中都有明顯的能夠表明其屬于何種應用的特征字信息,因此應用層特征識別法通過協(xié)議分析與還原技術,提取 P2P 應用層數(shù)據(jù)包中的有效載荷,再通過分析 P2P 載荷中所包含的協(xié)議關鍵字,,將其與已知的特征字信息進行匹配,從而判斷所分析的數(shù)據(jù)流量是否屬于 P2P 應用。在深層數(shù)據(jù)包檢測 DPI 技術中,通過提取已知的 P2P 應用中的有效載荷后,再將這些關鍵字特征存儲在特征庫中。對于網(wǎng)絡中的實時流量,通過模式匹配算法,如果待測流量中含有特征庫中的某種關鍵字特征,則說明該條數(shù)據(jù)的應用類型就是何種 P2P 應用。對于早期的 P2P 應用來說,該方法還是比較有效的[16]。第三章 基于區(qū)間估計的懲罰因子優(yōu)化法的 P2P 流量識別......... 21
3.1支持向量機理論概述 .............. 213.2SVM 算法中的核函數(shù)參數(shù)..................................... 28
3.3一種基于區(qū)間估計的懲罰因子尋優(yōu)法 PFOMIE.............. 30
第四章 基于黃金分割的參數(shù)優(yōu)法在 P2P 流量識別中的應用.............. 38
高斯徑向基函數(shù)中參數(shù)尋優(yōu)法的研究現(xiàn)狀............ 38
一種基于黃金分割的參數(shù)尋優(yōu)算法(POMGS)............... 41
第五章 基于多分類的增量學習算法的 P2P 流量識別方法.................... 52
SVM 增量學習算法的基本理論............ 52
SVM 的增量學習算法的相關研究.................. 53
一種多分類的 SVM 增量學習算法.................. 55
第六章基于優(yōu)化 SVM 的 P2P 流量識別系統(tǒng)的設計與實現(xiàn)
6.1整個識別模型的設計策略
策略一:使用 SVM 算法進行初步訓練和分類,前述章節(jié)已經(jīng)就為何選擇 SVM 的分類方法進行分類進行了深入的討論和實驗。從理論上來說,由于 P2P 流量的特征較多,一般的分類算法對于高維數(shù)據(jù)處理困難,而 SVM 恰是一種能夠解決非線性可分問題的算法,該算法具有一定的自學習能力,不僅能夠完成高維空間的分類,而且分類效果較好。因此,整個模型的分類功能,主要由 SVM 的算法為基礎。策略二:為了能夠將 SVM 分類算法很好地應用到 P2P 流量識別中,本文提出了優(yōu)化 SVM算法的策略,即優(yōu)化 SVM 核函數(shù)中的參數(shù)選擇,因為核函數(shù)是影響 SVM 算法分類效果的重要因素,而其中核函數(shù)的參數(shù)更是將這種影響充分體現(xiàn)到具體的分類之中。因此,本文為了能夠使 SVM 分類算法更好的進行 P2P 流量分類問題,提出了優(yōu)化的尋找核函數(shù)參數(shù)的算法,并將其應用到 P2P 的分類模型中。6.2基于優(yōu)化 SVM 的 P2P 流量分類模型
網(wǎng)絡抓包分析模塊是整個流量識別系統(tǒng)實現(xiàn)的基礎。本模塊主要負責捕獲當前網(wǎng)絡中的數(shù)據(jù)包信息。由于本模型為了提高識別精度需要獲取 P2P 流量的行為統(tǒng)計特性,所以對單個的網(wǎng)絡數(shù)據(jù)包預測能力相當有限。由于 P2P 流量的行為統(tǒng)計特性都是非數(shù)值性的,要將這些特征應用到 P2P 流量識別模型中,需要先將這些流量特征進行量化。基于這個思想,本文為每個 P2P 流量的統(tǒng)計特性建立時間的滑動窗口的量化模型;瑒哟翱诘木唧w實現(xiàn)流程如下:如圖 6.1 所示,本模為了實現(xiàn) P2P 流量特性的量化,利用滑動窗口機制的原理,將滑動窗口機制中的“以 個發(fā)送窗口”轉變?yōu)樽グ鼤r連續(xù)抓取 以 秒的網(wǎng)絡數(shù)據(jù)包。這樣,P2P 流量的每個特性的量化值就可以借由 以 秒的連續(xù)網(wǎng)絡流量的平均數(shù)據(jù)量獲得,最后,本模塊會將這 以 秒的連續(xù)網(wǎng)絡流量分組保存下來,由流特征提取模塊進行流量信息的提取與整理,從而獲得的流量的統(tǒng)計特征等。
第七章 總結與展望
本文主要針對網(wǎng)絡中的 P2P 流量的識別問題展開,主要完成的工作有:(1)通過對 P2P 識別的現(xiàn)狀研究分析,指出對于具有高維特征屬性的 P2P 流量,不適合用傳統(tǒng)的分類方法進行分類識別,而是需要尋求一個更適合識別高維度、特征變化多,并適合處理小樣本的分類方法,因此提出使用 SVM 的方法對 P2P 流量進行分類和識別。(2)在現(xiàn)有基于 SVM 算法進行分類問題研究的基礎上,本文結合 P2P 流量的特點,重點解決 SVM 算法中核函數(shù)的參數(shù)選擇問題。本文針對懲罰參數(shù)選擇的問題提出了一種基于區(qū)間估計的懲罰參數(shù)優(yōu)化法 PFOMIE,并將該方法用在網(wǎng)絡流量識別的實驗中,實驗結果表明,基于 PFOMIE 的 P2P 流量識別算法能夠提高識別 P2P 流量時的效率和準確率。(3)針對高斯核函數(shù)中的參數(shù)協(xié)同工作的問題,本文通過分析比較網(wǎng)格搜索法、粒子群算法和遺傳算法等算法在進行 SVM 核函數(shù)的參數(shù)選擇時的各自特點,并結合 SVM 核函數(shù)參數(shù)自身參數(shù)空間分布的特點,提出了一種基于黃金分割點的參數(shù)協(xié)同尋優(yōu)法 POMGS。并將該方法在網(wǎng)絡流量識別仿真實驗中進行驗證,實驗結果表明,本文提出的 POMGS 算法在識別P2P 流量的準確率、效率等方面都優(yōu)于其他的參數(shù)尋優(yōu)法。
.....
參考文獻(略)
本文編號:239539
本文鏈接:http://sikaile.net/wenshubaike/caipu/239539.html