線性約束高維模型的穩(wěn)健變量選擇和異分布條件下的分類方法
發(fā)布時(shí)間:2021-04-07 05:55
變量選擇和分類問題是統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的熱點(diǎn),二者廣泛應(yīng)用于諸多科學(xué)研究和應(yīng)用領(lǐng)域,諸如醫(yī)學(xué)診斷,基因組研究,金融風(fēng)險(xiǎn)和無線通信等.高維模型通常假設(shè)具有稀疏性,即只有少數(shù)預(yù)測變量對于響應(yīng)變量有影響.變量選擇旨在選擇出重要的預(yù)測變量,并對相應(yīng)的系數(shù)進(jìn)行估計(jì).分類方法是根據(jù)已知類別的歷史數(shù)據(jù)建立分類準(zhǔn)則,用此對新的觀測值進(jìn)行分類.盡管現(xiàn)如今存在許多變量選擇和分類的方法,但它們對于具有厚尾誤差,異常值和異分布的數(shù)據(jù)并不適用或者無效.此外,在實(shí)際應(yīng)用中可能存在關(guān)于響應(yīng)變量和預(yù)測變量之間關(guān)系的假設(shè)條件或者專業(yè)信息,可以利用這些先驗(yàn)知識(shí)對回歸參數(shù)進(jìn)行約束.本論文研究了兩類問題,一是針對厚尾分布數(shù)據(jù)的帶有參數(shù)線性約束的穩(wěn)健變量選擇;二是當(dāng)一個(gè)類別中數(shù)據(jù)異分布時(shí)的分類問題.論文內(nèi)容共分為五個(gè)章節(jié):第一章簡單介紹一些基礎(chǔ)知識(shí),包括常用的變量選擇方法Lasso及其變型,自由度,分位數(shù)回歸,Huber回歸和經(jīng)典的分類方法.第二章和第三章討論帶有線性約束高維模型的穩(wěn)健變量選擇.其中,第二章介紹了線性約束的廣義l1-懲罰分位數(shù)回歸,第三章提出了線性約束的Huber正則化回歸.第四章研究了異分布數(shù)據(jù)的最小模糊度分...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.1:?ASA汽車發(fā)動(dòng)機(jī)輸出對燃油效率的函數(shù).左圖:帶約束的BP估計(jì),TV?=?5.右??圖:無約束的BP估計(jì),iV?=?5.??
用訓(xùn)練數(shù)據(jù)估計(jì)參數(shù)/5,并通過最小化CV,AIC和BIC來選擇最優(yōu)的調(diào)和參數(shù).驗(yàn)證集??用于選擇GOLD標(biāo)準(zhǔn)準(zhǔn)則的調(diào)和參數(shù),即最小化預(yù)測誤差-??圖3.1,3.2和3.3的左側(cè)分別展示誤差服從正態(tài)分布,混合正態(tài)分布和t分布時(shí),四??種不同模型選擇準(zhǔn)則所選的最優(yōu)A的密度,其中,密度曲線通過核密度估計(jì)獲得.從圖??像可以看出,通過AIC,BIC準(zhǔn)則選擇的A密度曲線的形狀和GOLD標(biāo)準(zhǔn)準(zhǔn)則相似.相比??于CV,AIC和GOLD標(biāo)準(zhǔn)準(zhǔn)則,BIC傾向于選擇更大的A.通過CV選擇的A的方差小??于AIC,?BIC和GOLD準(zhǔn)則.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??圖3.1:誤差服從正態(tài)分布時(shí),左圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選出的A密度曲線.??右圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選擇的模型的MAD箱線圖.??我們從預(yù)測性質(zhì)和變量選擇這兩個(gè)方面比較由不同模型選擇準(zhǔn)則選出的A和相應(yīng)??的估計(jì)值.對于每一個(gè)數(shù)據(jù)集,用訓(xùn)練數(shù)據(jù)估計(jì)出參數(shù)久然后用測試數(shù)據(jù)丨#,=??1
圖3.2:誤差服從混合正態(tài)分布時(shí),左圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選出的A密度曲??線.右圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選擇的模型的MAD箱線圖.??圖3.1,?3.2和3.3的右側(cè)分別展示了誤差服從正態(tài)分布,混合正態(tài)分布和t分布時(shí),??由CV,AIC,BIC和GOLD準(zhǔn)則選擇模型的MAD箱線圖.如圖所示,由AIC和BIC準(zhǔn)??則選擇模型的MAD值與GOLD準(zhǔn)則是可比的,并且都低于由CV準(zhǔn)則選擇模型的MAD值.??這說明了利用我們所提出的自由度公式構(gòu)造的AIC和BIC準(zhǔn)則具有很好的預(yù)測效率.同??時(shí),由GOLD準(zhǔn)則選擇的模型具有最小的MAD值,因?yàn)樗菢?biāo)準(zhǔn)的準(zhǔn)則.??為了比較變量選擇的效果,我們在表格3.1中計(jì)算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系數(shù)估??計(jì)為非零的百分比,FNR是非零系數(shù)估計(jì)為零的百分比,SER是所有估計(jì)錯(cuò)誤的系數(shù)個(gè)??數(shù)除以P.表格3.1顯示,CV,AIC,?BIC和GOLD準(zhǔn)則能包含所有的重要變量,因?yàn)樗鼈??的FNR近似為零.從表格中可以看出
本文編號(hào):3122935
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.1:?ASA汽車發(fā)動(dòng)機(jī)輸出對燃油效率的函數(shù).左圖:帶約束的BP估計(jì),TV?=?5.右??圖:無約束的BP估計(jì),iV?=?5.??
用訓(xùn)練數(shù)據(jù)估計(jì)參數(shù)/5,并通過最小化CV,AIC和BIC來選擇最優(yōu)的調(diào)和參數(shù).驗(yàn)證集??用于選擇GOLD標(biāo)準(zhǔn)準(zhǔn)則的調(diào)和參數(shù),即最小化預(yù)測誤差-??圖3.1,3.2和3.3的左側(cè)分別展示誤差服從正態(tài)分布,混合正態(tài)分布和t分布時(shí),四??種不同模型選擇準(zhǔn)則所選的最優(yōu)A的密度,其中,密度曲線通過核密度估計(jì)獲得.從圖??像可以看出,通過AIC,BIC準(zhǔn)則選擇的A密度曲線的形狀和GOLD標(biāo)準(zhǔn)準(zhǔn)則相似.相比??于CV,AIC和GOLD標(biāo)準(zhǔn)準(zhǔn)則,BIC傾向于選擇更大的A.通過CV選擇的A的方差小??于AIC,?BIC和GOLD準(zhǔn)則.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??圖3.1:誤差服從正態(tài)分布時(shí),左圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選出的A密度曲線.??右圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選擇的模型的MAD箱線圖.??我們從預(yù)測性質(zhì)和變量選擇這兩個(gè)方面比較由不同模型選擇準(zhǔn)則選出的A和相應(yīng)??的估計(jì)值.對于每一個(gè)數(shù)據(jù)集,用訓(xùn)練數(shù)據(jù)估計(jì)出參數(shù)久然后用測試數(shù)據(jù)丨#,=??1
圖3.2:誤差服從混合正態(tài)分布時(shí),左圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選出的A密度曲??線.右圖為由CV,?AIC,?BIC和GOLD準(zhǔn)則選擇的模型的MAD箱線圖.??圖3.1,?3.2和3.3的右側(cè)分別展示了誤差服從正態(tài)分布,混合正態(tài)分布和t分布時(shí),??由CV,AIC,BIC和GOLD準(zhǔn)則選擇模型的MAD箱線圖.如圖所示,由AIC和BIC準(zhǔn)??則選擇模型的MAD值與GOLD準(zhǔn)則是可比的,并且都低于由CV準(zhǔn)則選擇模型的MAD值.??這說明了利用我們所提出的自由度公式構(gòu)造的AIC和BIC準(zhǔn)則具有很好的預(yù)測效率.同??時(shí),由GOLD準(zhǔn)則選擇的模型具有最小的MAD值,因?yàn)樗菢?biāo)準(zhǔn)的準(zhǔn)則.??為了比較變量選擇的效果,我們在表格3.1中計(jì)算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系數(shù)估??計(jì)為非零的百分比,FNR是非零系數(shù)估計(jì)為零的百分比,SER是所有估計(jì)錯(cuò)誤的系數(shù)個(gè)??數(shù)除以P.表格3.1顯示,CV,AIC,?BIC和GOLD準(zhǔn)則能包含所有的重要變量,因?yàn)樗鼈??的FNR近似為零.從表格中可以看出
本文編號(hào):3122935
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3122935.html
最近更新
教材專著