流量識別特征選擇算法的研究與改進(jìn)
發(fā)布時(shí)間:2024-03-26 22:08
為了對移動互聯(lián)網(wǎng)進(jìn)行更細(xì)粒度的網(wǎng)絡(luò)管理,流量識別和檢測技術(shù)被廣泛應(yīng)用,其根據(jù)應(yīng)用類型的不同可將網(wǎng)絡(luò)流量劃分成不同的類。流量識別有很多實(shí)現(xiàn)的技術(shù),如基于端口,基于載荷,基于主機(jī)行為的識別方法。在這其中,機(jī)器學(xué)習(xí)法由于它較高的準(zhǔn)確率得到人們的廣泛關(guān)注。 特征選擇為機(jī)器學(xué)習(xí)法選擇最優(yōu)特征子集,其對算法的準(zhǔn)確率和效率有非常大的影響。為了獲得最優(yōu)特征子集,往往需要對所有可能的特征組合進(jìn)行測試。當(dāng)特征數(shù)過多時(shí),特征選擇將會耗費(fèi)大量的時(shí)間和計(jì)算資源。 本文首先簡單介紹了流量識別的相關(guān)技術(shù),對機(jī)器學(xué)習(xí)分類算法和常見特征選擇算法進(jìn)行了概括和比較。在此基礎(chǔ)上提出兩種新的特征選擇法: 1、基于C4.5決策樹的組合樹算法。該算法主要利用了C4.5算法的結(jié)構(gòu)特性,在沒有實(shí)際訓(xùn)練和測試分類器前,可以排除原始特征集中的一些冗余屬性。 2、基于SVM-Wrapper與粗糙集相結(jié)合的RSF算法。基于粗糙集的屬性約簡方法簡單易用,但當(dāng)特征數(shù)過多時(shí),計(jì)算量則會指數(shù)級增長。而本文所提出的RSF算法首先通過SVM-Wrapper對原始特征集進(jìn)行初步約簡,在此基礎(chǔ)上再使用粗糙集進(jìn)行屬性約簡,可以解決屬性約簡過程中特征數(shù)過多所引起...
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3939753
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.2Adaboost流程圖
圖2.2Adaboost流程圖其中Di為第i輪各個(gè)樣本在樣本集中參與訓(xùn)練的概率。算法流程:1.按照均勻分布從初始樣本集中選取子集作為該次的訓(xùn)練集;....
圖2.3二維空間的線性分類器
圖2.3二維空間的線性分類器需要區(qū)分的類別,中間的直線就是一個(gè)分類函性函數(shù)所區(qū)分則為線性可分,否則為線性不可分統(tǒng)一的名稱--超平面。平面[17....
圖2.4線性可分情況下的最優(yōu)分類線
圖2.4線性可分情況下的最優(yōu)分類線而H1和H2是平行于H,且過離H最近的兩類樣本間的距離就是幾何間隔。易看出,幾何間隔越大,表示該分類函數(shù)性能越最....
圖2.5兩類樣本處于同一直線上
圖2.5兩類樣本處于同一直線上c1x+c2x2。==2102,1cccaxyx,則:g(x)=f(y)=y維空間后就線性可分了。<w',x'>....
本文編號:3939753
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3939753.html
最近更新
教材專著