加權(quán)樣本分類算法設(shè)計(jì)和基于加法邏輯回歸模型的Boosting算法設(shè)計(jì)
發(fā)布時(shí)間:2021-07-20 16:17
Bagging方法是一種完全基于減少方差而設(shè)計(jì)的集成機(jī)制,盡管該方法在分類問題中表現(xiàn)優(yōu)秀,但其在減少模型偏差方面存在明顯不足。此后,越來越多的統(tǒng)計(jì)學(xué)家開始嘗試能夠同時(shí)減少偏差和方差的集成機(jī)制,進(jìn)而誕生了諸如DiscreteAdaBoost、Rea.lAdaBoost等眾多Boosting算法。這些Boosting算法由于其優(yōu)秀的表現(xiàn)而受到了統(tǒng)計(jì)學(xué)家的廣泛關(guān)注,很多統(tǒng)計(jì)學(xué)家開始嘗試解釋Boosting算法成功的統(tǒng)計(jì)學(xué)原理。Friedman等人嘗試?yán)眉臃ㄟ壿嫽貧w模型,解釋了Boosting算法成功的根源之后,越來愈多的Boosting算法被提出。Boosting算法針對加權(quán)樣本進(jìn)行訓(xùn)練,具體地,首先訓(xùn)練能夠?qū)訖?quán)樣本進(jìn)行擬合的“弱學(xué)習(xí)器”,然后通過一定的機(jī)制,將這些弱學(xué)習(xí)器集成為一個(gè)綜合學(xué)習(xí)器。針對分類問題,本文對Cart決策樹的決策機(jī)制進(jìn)行了改進(jìn),提出了一種邏輯樹模型;另一方面基于集成學(xué)習(xí)思想,本文提出了兩種新的Boosting算法。本文首先探討了針對加權(quán)樣本的現(xiàn)有弱學(xué)習(xí)器的算法原理,并提出一種基于分位邏輯回歸思想的邏輯樹模型。該模型針對加權(quán)樣本分類問題能夠更好地利用樣本權(quán)重信息。然后...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.2:當(dāng)a:S50時(shí),y?=?0.1a;?+?e,當(dāng)x>50時(shí),y?=?10?—0.1a:,e代表隨機(jī)誤差,其中基于提高??樣本純度原則獲取的分位點(diǎn)為80.2,基于線性模型擬合殘差選擇的分位點(diǎn)為50
4.1.2選擇S損失的理由??當(dāng)使用Sign(i^作為預(yù)測時(shí),分別給出0-1損失、指數(shù)損失、二次損失、極大似??然和S損失的損失函數(shù)曲線圖,如圖4.1。??由圖中可以看出:???常用的概率二次損失(圖中標(biāo)注的二次損失)和S損失是非常接近的,因?yàn)??概率二次損失為??L2?=?(y+l-,⑷??(2?—?(l?+?eF(<??=?<\i^)2,?y?=?-i??、(1+6^(〇〇)2,?y?=?^??=(?-?)2??^?1?_|_?eyF(x)?^?7??其中,平方內(nèi)的數(shù)一定是正數(shù),因此和S損失的又半部分具有同樣的形式。??34??
本文編號:3293161
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.2:當(dāng)a:S50時(shí),y?=?0.1a;?+?e,當(dāng)x>50時(shí),y?=?10?—0.1a:,e代表隨機(jī)誤差,其中基于提高??樣本純度原則獲取的分位點(diǎn)為80.2,基于線性模型擬合殘差選擇的分位點(diǎn)為50
4.1.2選擇S損失的理由??當(dāng)使用Sign(i^作為預(yù)測時(shí),分別給出0-1損失、指數(shù)損失、二次損失、極大似??然和S損失的損失函數(shù)曲線圖,如圖4.1。??由圖中可以看出:???常用的概率二次損失(圖中標(biāo)注的二次損失)和S損失是非常接近的,因?yàn)??概率二次損失為??L2?=?(y+l-,⑷??(2?—?(l?+?eF(<??=?<\i^)2,?y?=?-i??、(1+6^(〇〇)2,?y?=?^??=(?-?)2??^?1?_|_?eyF(x)?^?7??其中,平方內(nèi)的數(shù)一定是正數(shù),因此和S損失的又半部分具有同樣的形式。??34??
本文編號:3293161
本文鏈接:http://sikaile.net/shekelunwen/ljx/3293161.html
最近更新
教材專著