集成學(xué)習(xí)結(jié)構(gòu)多樣性研究
發(fā)布時(shí)間:2021-03-20 18:20
集成學(xué)習(xí)是一類著名的機(jī)器學(xué)習(xí)方法,通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),常可獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能,在諸多實(shí)際應(yīng)用中取得了成功。學(xué)習(xí)器之間的多樣性是構(gòu)建集成學(xué)習(xí)模型的一個(gè)關(guān)鍵因素。如何理解和度量多樣性是集成學(xué)習(xí)中非常基礎(chǔ)但尚未解決的問題。本文對(duì)集成學(xué)習(xí)中多樣性進(jìn)行了研究,主要取得了以下創(chuàng)新成果:1)提出了結(jié)構(gòu)多樣性概念,為集成學(xué)習(xí)多樣性研究提供了一個(gè)新方向。以往的多樣性度量?jī)H考慮分類器預(yù)測(cè)行為的差異,而忽視了分類器本身結(jié)構(gòu)之間的差異。本文針對(duì)決策樹提出了一種結(jié)構(gòu)多樣性度量,并通過實(shí)驗(yàn)驗(yàn)證了其效用。2)提出了一種嵌入結(jié)構(gòu)多樣性的新型選擇性集成學(xué)習(xí)算法DRSE(Di-versity Regularized Selective Ensemble)。該算法的基本思想是同時(shí)考慮集成誤差、行為多樣性和結(jié)構(gòu)多樣性,使用DCA算法求解。實(shí)驗(yàn)結(jié)果表明,該算法的性能顯著優(yōu)于現(xiàn)有選擇性集成算法。3)提出了一種基于聯(lián)結(jié)樹的多元信息多樣性(multi-information diversity)估計(jì)方法。多元信息多樣性基于信息論來刻畫集成多樣性,其面臨的困難是高階信息通常難以估計(jì)。本文方法通過聯(lián)結(jié)...
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:判斷西瓜是好瓜還是壞瓜問題的一棵決策樹
E56l??)??①,CS>?I?bn<5?]?Cm)?念)??Pairwise?TMD?、、CH)?(^)?Cm)??ZaRTKMK:[]網(wǎng)??丄丄丄丄?I??r:?1?0?3?4?10?[cs^\?I?CT<4?1?^?Insertion???,^<7 ̄、?/v????Deletion??7^?4?3?0?I?9???Relabel???(T)?CM)?BN<5?(m)??A?土丄丄丄丄??r,-?9?lo?9?9__〇_?Cb)??>??圖2.2:五棵決策樹。箭頭指示了匹配兩棵決策樹所需要的操作,圖中同時(shí)列出了成對(duì)樹匹??配多樣性度量值。??入一個(gè)結(jié)點(diǎn)、刪除一個(gè)結(jié)點(diǎn)和替換一個(gè)結(jié)點(diǎn)的分枝屬性。需要的操作數(shù)最多是??兩棵決策樹內(nèi)部結(jié)點(diǎn)個(gè)數(shù)之和。這種定義和樹編輯距離聯(lián)系密切,可以通過動(dòng)??態(tài)規(guī)劃或者更高效的分解方法計(jì)算| ̄。這個(gè)度量值越大,說明兩棵樹的結(jié)構(gòu)差??異越大。集成的樹匹配多樣性度量定義為集成中所有成對(duì)樹匹配多樣性度景的??均值,并用集成中最大的成對(duì)樹匹配多樣性度量值ij丨一化。??平個(gè)例廣,闖2.2展。叩某。£丨中5/_以《7(1\7?<:67’的/7從_("廳7>7數(shù)掘集上訓(xùn)練??得到的5棵決策樹。數(shù)1W?乜含9個(gè)厲性,依次是Clump?Thickness?(CT)、Cel丨??Size?Uniformity?(CSI)、Cell?Shape?Uniformity?(CSH)、Marginal?Adhesion?(MA)、??Single?Epithelial?Cell?Size?(SE)、Bare?Nuclei?(BN)、Bland?Chromatin?(BC)、Nor
14?第二章結(jié)構(gòu)多樣性??考慮在第一章中提到的預(yù)測(cè)是否y?2?X的任務(wù)。圖2.3畫出了三棵決策樹,??樹1和樹2的決策區(qū)域分別與圖1.1中的決策區(qū)域一致。假設(shè)我們己經(jīng)有兩棵決??策樹,樹1和樹3,我們希望從樹1和樹3中再選擇一棵添加到樹1和樹2中??進(jìn)行集成。沒有一個(gè)已有的行為多樣性度量可以區(qū)分樹1和樹2,因?yàn)樗鼈冊(cè)??樣本上的預(yù)測(cè)結(jié)果完全一致;相比之下,樹匹配多樣性度量會(huì)傾向于選擇一個(gè)??具有不同結(jié)構(gòu)的樹2而不是另一個(gè)樹1。假設(shè)X和7均勻地分布在[0,10],添??加樹1得到的集成誤差的期望值為0.17,而添加樹2得到的集成誤差的期望值??為0.13。在實(shí)際應(yīng)用中,分類器的預(yù)測(cè)行為可能會(huì)差別很大,因此需要同時(shí)考??慮結(jié)構(gòu)多樣性和行為多樣性以得到一個(gè)性能好的集成。??T]?|2?3??I?X<3?1?I?X<3?|?[?X<5?1??y/\n??CD?I?Y<J?1???I?Y<3?1?CD????CD???CE>?1?x<7)??⑦?I?Y<7?1??CD???圖2.3:三棵預(yù)測(cè)是否:F之X?(X,7?e?[0,10])的決策樹。給定樹1、樹3和圖1.1中的8?jìng)(gè)樣??本,樹匹配多樣性度量(基于結(jié)構(gòu)多樣性)建議添加樹2而非另一個(gè)樹1進(jìn)行集成,然而??已有的多樣性度量(基于行為多樣性)無法區(qū)分樹1和樹2。??2.4實(shí)驗(yàn)測(cè)試??2.4.1集成中分類器基于結(jié)構(gòu)多樣性排序??得到的集成中分類器按照適當(dāng)?shù)捻樞蚺帕泻,集成誤差通常會(huì)在中等集成??大小取得最低值[27]。那么,如果集成誤差通過適當(dāng)?shù)呐判蚰軌蚪档停判驑?biāo)準(zhǔn)??對(duì)于降低集成誤差也應(yīng)當(dāng)是有益的。??圖2.4繪出了兩個(gè)二分類數(shù)據(jù)集和以及兩個(gè)多分類數(shù)據(jù)
本文編號(hào):3091451
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1:判斷西瓜是好瓜還是壞瓜問題的一棵決策樹
E56l??)??①,CS>?I?bn<5?]?Cm)?念)??Pairwise?TMD?、、CH)?(^)?Cm)??ZaRTKMK:[]網(wǎng)??丄丄丄丄?I??r:?1?0?3?4?10?[cs^\?I?CT<4?1?^?Insertion???,^<7 ̄、?/v????Deletion??7^?4?3?0?I?9???Relabel???(T)?CM)?BN<5?(m)??A?土丄丄丄丄??r,-?9?lo?9?9__〇_?Cb)??>??圖2.2:五棵決策樹。箭頭指示了匹配兩棵決策樹所需要的操作,圖中同時(shí)列出了成對(duì)樹匹??配多樣性度量值。??入一個(gè)結(jié)點(diǎn)、刪除一個(gè)結(jié)點(diǎn)和替換一個(gè)結(jié)點(diǎn)的分枝屬性。需要的操作數(shù)最多是??兩棵決策樹內(nèi)部結(jié)點(diǎn)個(gè)數(shù)之和。這種定義和樹編輯距離聯(lián)系密切,可以通過動(dòng)??態(tài)規(guī)劃或者更高效的分解方法計(jì)算| ̄。這個(gè)度量值越大,說明兩棵樹的結(jié)構(gòu)差??異越大。集成的樹匹配多樣性度量定義為集成中所有成對(duì)樹匹配多樣性度景的??均值,并用集成中最大的成對(duì)樹匹配多樣性度量值ij丨一化。??平個(gè)例廣,闖2.2展。叩某。£丨中5/_以《7(1\7?<:67’的/7從_("廳7>7數(shù)掘集上訓(xùn)練??得到的5棵決策樹。數(shù)1W?乜含9個(gè)厲性,依次是Clump?Thickness?(CT)、Cel丨??Size?Uniformity?(CSI)、Cell?Shape?Uniformity?(CSH)、Marginal?Adhesion?(MA)、??Single?Epithelial?Cell?Size?(SE)、Bare?Nuclei?(BN)、Bland?Chromatin?(BC)、Nor
14?第二章結(jié)構(gòu)多樣性??考慮在第一章中提到的預(yù)測(cè)是否y?2?X的任務(wù)。圖2.3畫出了三棵決策樹,??樹1和樹2的決策區(qū)域分別與圖1.1中的決策區(qū)域一致。假設(shè)我們己經(jīng)有兩棵決??策樹,樹1和樹3,我們希望從樹1和樹3中再選擇一棵添加到樹1和樹2中??進(jìn)行集成。沒有一個(gè)已有的行為多樣性度量可以區(qū)分樹1和樹2,因?yàn)樗鼈冊(cè)??樣本上的預(yù)測(cè)結(jié)果完全一致;相比之下,樹匹配多樣性度量會(huì)傾向于選擇一個(gè)??具有不同結(jié)構(gòu)的樹2而不是另一個(gè)樹1。假設(shè)X和7均勻地分布在[0,10],添??加樹1得到的集成誤差的期望值為0.17,而添加樹2得到的集成誤差的期望值??為0.13。在實(shí)際應(yīng)用中,分類器的預(yù)測(cè)行為可能會(huì)差別很大,因此需要同時(shí)考??慮結(jié)構(gòu)多樣性和行為多樣性以得到一個(gè)性能好的集成。??T]?|2?3??I?X<3?1?I?X<3?|?[?X<5?1??y/\n??CD?I?Y<J?1???I?Y<3?1?CD????CD???CE>?1?x<7)??⑦?I?Y<7?1??CD???圖2.3:三棵預(yù)測(cè)是否:F之X?(X,7?e?[0,10])的決策樹。給定樹1、樹3和圖1.1中的8?jìng)(gè)樣??本,樹匹配多樣性度量(基于結(jié)構(gòu)多樣性)建議添加樹2而非另一個(gè)樹1進(jìn)行集成,然而??已有的多樣性度量(基于行為多樣性)無法區(qū)分樹1和樹2。??2.4實(shí)驗(yàn)測(cè)試??2.4.1集成中分類器基于結(jié)構(gòu)多樣性排序??得到的集成中分類器按照適當(dāng)?shù)捻樞蚺帕泻,集成誤差通常會(huì)在中等集成??大小取得最低值[27]。那么,如果集成誤差通過適當(dāng)?shù)呐判蚰軌蚪档停判驑?biāo)準(zhǔn)??對(duì)于降低集成誤差也應(yīng)當(dāng)是有益的。??圖2.4繪出了兩個(gè)二分類數(shù)據(jù)集和以及兩個(gè)多分類數(shù)據(jù)
本文編號(hào):3091451
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3091451.html
最近更新
教材專著