多核集成學(xué)習(xí)方法的研究
發(fā)布時(shí)間:2019-10-11 09:34
【摘要】:近年來(lái),多核學(xué)習(xí)(Multiple Kernel Learning,MKL)在機(jī)器學(xué)習(xí)領(lǐng)域受到廣泛關(guān)注,是一種很有前景的數(shù)據(jù)挖掘方法。它主要利用多個(gè)核函數(shù)的線性組合去解決數(shù)據(jù)異構(gòu)或不規(guī)則、樣本不平坦分布等具有挑戰(zhàn)性的問(wèn)題。傳統(tǒng)多核學(xué)習(xí)方法通常把求解多個(gè)核函數(shù)的線性組合看作優(yōu)化問(wèn)題,再重點(diǎn)研究?jī)?yōu)化算法,以達(dá)到更好的效率及精度,但計(jì)算量大、不容易收斂仍然是傳統(tǒng)多核學(xué)習(xí)方法的主要缺點(diǎn)。Hao Xia與Steven Hoi創(chuàng)造性地提出了多核集成學(xué)習(xí)框架(Multiple Kernel Boosting,MKBoost),將AdaBoost的思想運(yùn)用到多核學(xué)習(xí)中,巧妙地避開(kāi)了復(fù)雜的優(yōu)化問(wèn)題,從而大大提高了算法效率,但由于AdaBoost算法對(duì)噪聲數(shù)據(jù)敏感,所以MKBoost算法不能有效地處理被噪聲污染的數(shù)據(jù)集,魯棒性較差。為了克服MKBoost算法在含有噪聲的數(shù)據(jù)集中出現(xiàn)過(guò)擬合的難題,本文提出了兩種新的多核集成學(xué)習(xí)算法,即基于噪聲探測(cè)函數(shù)(noise-based MKBoost,NDMKB)與基于噪聲概率(noise-probability MKBoost,NP-MKB)的多核學(xué)習(xí)方法,新算法主要有兩方面具體內(nèi)容:第一:噪聲的識(shí)別。首先根據(jù)樣本鄰域信息,使用k最近鄰法進(jìn)行噪聲初步探測(cè),越多鄰域樣本被錯(cuò)誤分類,該樣本是噪聲的概率越大,反之該樣本是正常樣本的概率越大。ND-MKB算法將k最近鄰法的探測(cè)結(jié)果二值化處理,即{-1,+1},NP-MKB算法利用logistic回歸模型函數(shù)將初步探測(cè)結(jié)果映射到[0,1]區(qū)間,得到樣本是噪聲的概率。第二:新的多核集成學(xué)習(xí)方法的提出。AdaBoost算法中,無(wú)論是其損失函數(shù)還是樣本權(quán)值的更新,均只關(guān)注分類正確與否,要提高AdaBoost的抗噪性,就有必要區(qū)別對(duì)待噪聲樣本與正常樣本。本文分別基于噪聲探測(cè)函數(shù)與噪聲概率函數(shù)提出了兩種新的損失函數(shù),并利用前向分布算法進(jìn)行算法推導(dǎo)。ND-MKB與NPMKB算法都充分考慮了樣本的噪聲性質(zhì)對(duì)算法的影響,所以抗噪性和魯棒性比傳統(tǒng)多核集成學(xué)習(xí)算法更好。
【圖文】:
算法 3 k 最近鄰算法練數(shù)據(jù)集 ( ) ( ) ( ) ,新實(shí)例 x的距離度量,在訓(xùn)練集 中找出與新實(shí)例 x 最近鄰的 k的鄰域記為 ( ); ( )中根據(jù)分類決策規(guī)則(如多數(shù)表決)判定新實(shí)例 x | ∑ ( ) ( ) N T:新實(shí)例 x 的類別 y法起源于最近鄰法,其定義為:為了判定未知樣本類別點(diǎn),計(jì)算位置樣本與所有訓(xùn)練樣本的距離,并以最近鄰類別的唯一依據(jù)。如圖(3-1),圓圈與右下方的三角與紅色三角形類別相同。但是,最近鄰法是存在明顯缺感。為了解決這個(gè)問(wèn)題,我們可以把未知樣本周邊的多大參與決策的樣本量,以避免個(gè)別數(shù)據(jù)直接決定決策結(jié)
圖 3-2 logistic 回歸函數(shù)圖像本文引入噪聲概率函數(shù),利用 logistic 回歸模型函數(shù)將噪聲探測(cè)結(jié)果映射[0,1]區(qū)間,如式(3-19),而不是像 ND-MKB 算法中二值化處理,映射到{-1,+1這樣處理的好處在于彌補(bǔ)了因噪聲探測(cè)手段的局限性帶來(lái)的不穩(wěn)定性,,容錯(cuò)率高,更符合實(shí)際情況。 ( ) ¤[ ( ) ](3其中 ( )表示樣本( )是噪聲的概率, 與 的定義與式(3-6)相同, 是工設(shè)置參數(shù),因?yàn)? )的值域是(-1,1)的子集,其對(duì)應(yīng)的 logistic 回歸函的值域區(qū)間過(guò)窄,所以, 的作用是擴(kuò)大( )的范圍,使得噪聲概率函數(shù) 能更有效地區(qū)分噪聲樣本與正常樣本。3.4.2 NP-MKB 算法的損失函數(shù)鑒于 ND-MKB 算法的不足,本節(jié)中基于噪聲概率函數(shù) ( )提出了新的損失數(shù)形式,如式(3-20)。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
本文編號(hào):2547416
【圖文】:
算法 3 k 最近鄰算法練數(shù)據(jù)集 ( ) ( ) ( ) ,新實(shí)例 x的距離度量,在訓(xùn)練集 中找出與新實(shí)例 x 最近鄰的 k的鄰域記為 ( ); ( )中根據(jù)分類決策規(guī)則(如多數(shù)表決)判定新實(shí)例 x | ∑ ( ) ( ) N T:新實(shí)例 x 的類別 y法起源于最近鄰法,其定義為:為了判定未知樣本類別點(diǎn),計(jì)算位置樣本與所有訓(xùn)練樣本的距離,并以最近鄰類別的唯一依據(jù)。如圖(3-1),圓圈與右下方的三角與紅色三角形類別相同。但是,最近鄰法是存在明顯缺感。為了解決這個(gè)問(wèn)題,我們可以把未知樣本周邊的多大參與決策的樣本量,以避免個(gè)別數(shù)據(jù)直接決定決策結(jié)
圖 3-2 logistic 回歸函數(shù)圖像本文引入噪聲概率函數(shù),利用 logistic 回歸模型函數(shù)將噪聲探測(cè)結(jié)果映射[0,1]區(qū)間,如式(3-19),而不是像 ND-MKB 算法中二值化處理,映射到{-1,+1這樣處理的好處在于彌補(bǔ)了因噪聲探測(cè)手段的局限性帶來(lái)的不穩(wěn)定性,,容錯(cuò)率高,更符合實(shí)際情況。 ( ) ¤[ ( ) ](3其中 ( )表示樣本( )是噪聲的概率, 與 的定義與式(3-6)相同, 是工設(shè)置參數(shù),因?yàn)? )的值域是(-1,1)的子集,其對(duì)應(yīng)的 logistic 回歸函的值域區(qū)間過(guò)窄,所以, 的作用是擴(kuò)大( )的范圍,使得噪聲概率函數(shù) 能更有效地區(qū)分噪聲樣本與正常樣本。3.4.2 NP-MKB 算法的損失函數(shù)鑒于 ND-MKB 算法的不足,本節(jié)中基于噪聲概率函數(shù) ( )提出了新的損失數(shù)形式,如式(3-20)。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 陶劍文;王士同;;多核局部領(lǐng)域適應(yīng)學(xué)習(xí)[J];軟件學(xué)報(bào);2012年09期
2 汪洪橋;孫富春;蔡艷寧;陳寧;丁林閣;;多核學(xué)習(xí)方法[J];自動(dòng)化學(xué)報(bào);2010年08期
3 張國(guó)英,沙蕓,劉玉樹(shù);模式識(shí)別中基于Boosting的特征篩選[J];北京理工大學(xué)學(xué)報(bào);2004年07期
本文編號(hào):2547416
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2547416.html
最近更新
教材專著