天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

經(jīng)典統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)中變量選擇方法的比較分析

發(fā)布時(shí)間:2020-05-20 17:56
【摘要】:當(dāng)今時(shí)代是一個(gè)大數(shù)據(jù)的時(shí)代。從計(jì)量生物學(xué),基因組學(xué)到金融工程,風(fēng)險(xiǎn)管理等諸多學(xué)科,都面臨著高維性問題。在高維數(shù)據(jù)面前,變量選擇是知識(shí)發(fā)現(xiàn)的關(guān)鍵。經(jīng)典統(tǒng)計(jì)學(xué)研究高維問題歷史悠久,新興的機(jī)器學(xué)習(xí)方法在高維數(shù)據(jù)處理方面向傳統(tǒng)經(jīng)典統(tǒng)計(jì)學(xué)發(fā)起了挑戰(zhàn)。本文的目的在于比較經(jīng)典統(tǒng)計(jì)學(xué)中變量選擇方法和新興的機(jī)器學(xué)習(xí)方法在變量選擇問題上的表現(xiàn)情況。經(jīng)典統(tǒng)計(jì)學(xué)的變量選擇方法,我們選擇了四種基于系數(shù)壓縮的方法,分別是Lasso,Adaptive lasso,Elastic net,SCAD方法。機(jī)器學(xué)習(xí)中我們主要研究了決策樹方法。論文的第一部分首先對(duì)經(jīng)典統(tǒng)計(jì)學(xué)變量選擇方法和機(jī)器學(xué)習(xí)變量選擇方法做了一個(gè)比較全面的介紹。第二部分詳細(xì)介紹了 Lasso,Adaptive lasso,Elastic net,SCAD方法能進(jìn)行變量選擇的原理,參數(shù)選擇標(biāo)準(zhǔn),求解算法與其統(tǒng)計(jì)性質(zhì)。在求解算法上,對(duì)于前三種方法我們除了介紹了經(jīng)典的最小角回歸方法對(duì)問題進(jìn)行求解之外,也將近端梯度下降算法用到了問題的求解中,而對(duì)SCAD方法則用了局部二次逼近對(duì)其進(jìn)行了求解。并且細(xì)致的分析了這四種基于系數(shù)壓縮的方法之間的區(qū)別與聯(lián)系。第三部分我們介紹了決策樹方法。決策樹的變量選擇準(zhǔn)則主要介紹了信息增益,信息增益率,基尼指數(shù),DKM準(zhǔn)則和基于距離的方法,并比較了這些準(zhǔn)則的性能。針對(duì)前三種準(zhǔn)則我們介紹了其對(duì)應(yīng)的決策樹生成方法,分別是ID3算法,C4.5算法,CART算法。此外,我們將第二部分的壓縮思想運(yùn)用到了決策樹的剪枝問題上。最后分析了決策樹的優(yōu)缺點(diǎn),并針對(duì)分類樹和回歸樹提出了其對(duì)應(yīng)的性能加強(qiáng)算法。第四部分是數(shù)值模擬。數(shù)值模擬用了四個(gè)模型來生成數(shù)據(jù)。我們選擇了全面且合理的模型評(píng)價(jià)指標(biāo)。通過數(shù)值模擬我們發(fā)現(xiàn),對(duì)于基于系數(shù)壓縮的那四種方法來說,Lasso和Adaptive lasso選擇的變量大致相同,但是Adaptive lasso比Lasso具有更小的標(biāo)準(zhǔn)差和均方誤差;Elastic net傾向于選擇更多的變量;SCAD方法不僅在其剔除無關(guān)變量方面要優(yōu)于其他三種方法,標(biāo)準(zhǔn)差和均方誤差也都要小于其他三種方法,并且樣本量越大,SCAD方法選出的變量越接近于真實(shí)的模型,這也驗(yàn)證了其Oracle性質(zhì)。決策樹雖然并不擅長做回歸問題,但是也能很準(zhǔn)確的選出真正的變量,并且通過決策樹的性能加強(qiáng)算法得出的變量重要性排序中,真正變量的得分要遠(yuǎn)遠(yuǎn)高于無關(guān)變量。第五部分是實(shí)證分析。數(shù)值模擬部分我們用的是回歸模型,實(shí)證部分我們則選用的是分類模型。該部分首先介紹了如何用Lasso,Adaptive lasso,Elastic net,SCAD方法去做分類問題,即將這四種方法運(yùn)用到logistic模型上。對(duì)于實(shí)證一,為了對(duì)變量加入模型的順序進(jìn)行分析,我們選用了變量個(gè)數(shù)較小的乳腺癌分類數(shù)據(jù)集。我們?cè)跍y試集上擬合模型,在驗(yàn)證集上測試模型的分類正確率。對(duì)于經(jīng)典統(tǒng)計(jì)學(xué)方法,我們首先給出了基于一次模擬的系數(shù)路徑圖和對(duì)應(yīng)的CV誤差圖。之后重復(fù)模擬 100次,得出 Lasso,Adaptive lasso,Elastic net,SCAD在測試集上的分類正確率分別為96.5366%,96.5877%,96.4781%,96.7756%,并且前三個(gè)選入模型的變量都為變量2,3,6,最后加入模型的兩個(gè)變量都為變量5,9。對(duì)于決策樹方法,我們先在測試集生成一棵樹,之后在驗(yàn)證集上測試得到分類正確率為94.7619%,對(duì)該決策樹剪枝后得到了相同的結(jié)果。之后我們?cè)谟?xùn)練集上生成100棵樹,用決策樹性能加強(qiáng)算法在測試集上的分類正確率提高到了96.1905%,并且該加強(qiáng)算法得出的前三個(gè)重要的變量與經(jīng)典統(tǒng)計(jì)學(xué)方法得出的結(jié)果相同,為變量2,3,6,但是決策樹認(rèn)為最不重要要的兩個(gè)變量為4,9,不同于經(jīng)典統(tǒng)計(jì)學(xué)方法得出的變量5,9。實(shí)證二的實(shí)施過程與實(shí)證一基本相同,得出Lasso,Adaptive lasso,Elastic net,SCAD在測試集上基于100次模擬的分類正確率分別為90.5807%,91.7963%,90.9354%,99.8387%,決策樹性能加強(qiáng)算法在測試集上的分類正確率為93.5484%,并且我們也詳細(xì)的分析了每種方法選擇的變量。第六部分為總結(jié)與展望。該部分對(duì)經(jīng)典統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法進(jìn)行了比較總結(jié),并對(duì)本文的不足提出了改進(jìn)思路。
【圖文】:

可行域


逡逑其中7邋>邋0。圖1.1顯示了在P邋=邋2不同7取值時(shí),橋估計(jì)懲罰函數(shù)的可行域。逡逑我們可以看到只有當(dāng)7邋>1時(shí)可行域才是凸的。另一方面,只有當(dāng)7邋<1時(shí)橋估逡逑計(jì)才會(huì)產(chǎn)生稀疏解。逡逑7=4邐7=3邐7=2逡逑:,r邐^。.:r邋1廣邋1逡逑#0邐-T邋0邐rT邋of逡逑-0.5邋\邐-0.5邋\邐)\邐-0.5邋\邐/逡逑^邋-1邋^^.逡逑-1邐-0.5邐0邐0.5邐1邐-1邐-0.5邐0邐0.5邐1邐-1邐-0.5邐0邐0.5邐1逡逑?51邐4逡逑1邐7=1邐1邐7=0-5邐1邐*7=0.3逡逑05邐0.5邐y\邐0.5邐I逡逑#邐^邋0— ̄|邋#邋0■邐邐逡逑-0.5邋^邐-0.5邐\邐-0.5邐I逡逑1-1邐-0.5邐0邐0.5邐1邐%邐-0.5邐0邐0.5邐1邐-1邐-0.5邐0邐0.5邐1逡逑i3i邐.31邐盧邋1逡逑圖1.1:邋p邋=邋2時(shí)不同7的橋估計(jì)可行域逡逑Fan和Li指出懲罰函數(shù)的選取要遵循下面三個(gè)原則丨1卟逡逑?連續(xù)性:對(duì)于數(shù)據(jù)集來說,估計(jì)出的參數(shù)需是連續(xù)的,這樣才能模型更加逡逑的穩(wěn)健。逡逑?無偏性:當(dāng)真實(shí)的參數(shù)維數(shù)很大時(shí),我們估計(jì)出的參數(shù)要差不多能保證無逡逑偏。逡逑?稀疏性:估計(jì)出的參數(shù)應(yīng)該能自動(dòng)的將較小的值估計(jì)為0。逡逑對(duì)于估計(jì)式(1.6)的懲罰項(xiàng)X^=1丨巧丨'邋當(dāng)0邋<邋7邋<邋1時(shí),;^=1丨r2丨7為一個(gè)凹逡逑函數(shù),不滿足上面的連續(xù)性;A懲罰不滿足上面的無偏性;當(dāng)7邋>邋1時(shí),Eb邋W逡逑是一個(gè)凸函數(shù),不滿足上面的稀疏性丨17j。逡逑所以除了匕壓縮方法外

區(qū)域圖,區(qū)域圖,限制條件,等高線


區(qū)域與橢圓的第一次相交的點(diǎn)決定的。Lasso的條件區(qū)域在坐標(biāo)軸上有拐角,所逡逑以圖中的橢圓經(jīng)常在坐標(biāo)軸上與Lasso的條件區(qū)域相交。在這樣的情形下,其中逡逑的一些系數(shù)就會(huì)變?yōu)椋啊T趫D2.1中,相交的點(diǎn)出現(xiàn)在了邋A邋=邋0處,所以這個(gè)模逡逑型將只有一個(gè)變量系數(shù)灸。當(dāng)P邋>邋2時(shí),菱形就變成了菱形體,會(huì)有許多的角,逡逑線和面,所以將會(huì)有更多的系數(shù)估計(jì)為0。逡逑將Lasso對(duì)比嶺回歸逡逑V邐V逡逑^Ridge邋=邋axgmin邋||y邋-^2^\\22邋si.二丨r2|2邋<邋s,邐(2.3)逡逑13邐j=i邐j=i邐?逡逑嶺回歸的限制區(qū)域是圖1.1中7邋=邋2的情況,這個(gè)限制區(qū)域?yàn)橐粋(gè)圓形,這個(gè)圓逡逑形區(qū)域沒有類似于Lasso邊界的那些在坐標(biāo)軸上的棱角,橢圓也就不會(huì)和嶺回逡逑歸的限制區(qū)域相交于坐標(biāo)軸上,所以嶺回歸不會(huì)產(chǎn)生系數(shù)為0的估計(jì),也就不能逡逑進(jìn)行變量選擇。逡逑:----f邋-逡逑?2邋?逡逑-3邋邋邐—邐邐J——……—…—— ̄邋邐1邋邐邐—邐-逡逑-3-2-10123逡逑圖2.1:邋RSS等高線和Lasso的限制條件區(qū)域圖逡逑2.1.2邋正交情況下的Lasso逡逑為了更好地理解Lasso的原理,,我們考慮正交設(shè)計(jì),即XTX邋=邋Ipxp,且逡逑n邋=邋p的情況。在上述假定之下
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C8

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 余鵬;經(jīng)典統(tǒng)計(jì)學(xué)的缺陷[J];統(tǒng)計(jì)研究;1993年06期

2 張高魁,姚晨,徐勇勇;兩種假設(shè)檢驗(yàn)思想的比較[J];中國衛(wèi)生統(tǒng)計(jì);1999年02期

3 W.H.Klein ,張愛華;不同時(shí)間尺度的統(tǒng)計(jì)天氣預(yù)報(bào)[J];廣西氣象;1983年03期

4 陳軍科;;假設(shè)檢驗(yàn)中的P值應(yīng)用研究[J];價(jià)值工程;2011年25期

5 童光榮;盧鐵莊;;在爭論中不斷發(fā)展與完善的統(tǒng)計(jì)學(xué)[J];統(tǒng)計(jì)研究;2010年01期

6 夏云;;淺談貝葉斯統(tǒng)計(jì)學(xué)與經(jīng)典統(tǒng)計(jì)學(xué)的差異性[J];學(xué)園;2017年17期

7 韓明旭;;有關(guān)統(tǒng)計(jì)學(xué)的發(fā)展探討[J];金田;2013年02期

8 姜麗琴;;多元統(tǒng)計(jì)分析方法在宏觀經(jīng)濟(jì)分析中的應(yīng)用探討[J];現(xiàn)代商業(yè);2016年06期

9 高君亮;吳波;高永;羅鳳敏;黨曉宏;蒙仲舉;;基于數(shù)字圖像的風(fēng)蝕地表顆粒粒度特征及空間異質(zhì)性[J];干旱區(qū)資源與環(huán)境;2017年01期

10 劉君一;;多元統(tǒng)計(jì)分析方法在宏觀經(jīng)濟(jì)分析中的運(yùn)用[J];時(shí)代金融;2015年20期

相關(guān)博士學(xué)位論文 前2條

1 雷剛;電磁逆問題的統(tǒng)計(jì)分析方法[D];華中科技大學(xué);2009年

2 劉剛;支持精細(xì)農(nóng)業(yè)實(shí)踐的農(nóng)田空間分布信息處理的方法與試驗(yàn)研究[D];中國農(nóng)業(yè)大學(xué);2001年

相關(guān)碩士學(xué)位論文 前10條

1 田冰;經(jīng)典統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)中變量選擇方法的比較分析[D];山東大學(xué);2019年

2 谷恒明;經(jīng)典統(tǒng)計(jì)學(xué)與貝葉斯統(tǒng)計(jì)學(xué)在回歸模型中的比較研究[D];軍事科學(xué)院;2018年

3 吳s

本文編號(hào):2672983


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2672983.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶81890***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲深夜精品福利一区| 九九热这里只有精品视频| 邻居人妻人公侵犯人妻视频| 亚洲国产香蕉视频在线观看| 日韩中文无线码在线视频 | 国产一区二区不卡在线播放| 久久精品久久精品中文字幕| 国产精品免费不卡视频| 午夜精品成年人免费视频| 欧美国产日韩变态另类在线看| 亚洲成人免费天堂诱惑| 99久久精品午夜一区二区| 日韩人妻精品免费一区二区三区 | 国产精品福利一二三区| 国产精品亚洲综合天堂夜夜| 国产欧美日韩在线一区二区| 日韩无套内射免费精品| 欧美日韩国产的另类视频| 久久偷拍视频免费观看| 亚洲中文字幕视频一区二区| 国产户外勾引精品露出一区| 精品al亚洲麻豆一区| 一区二区三区18禁看| 欧美日韩欧美国产另类| 亚洲天堂一区在线播放| 日本深夜福利视频在线| 日韩无套内射免费精品| 亚洲一区二区三区日韩91| 在线免费看国产精品黄片| 久久少妇诱惑免费视频| 婷婷激情五月天丁香社区| 在线精品首页中文字幕亚洲| 国产成人亚洲精品青草天美| 欧美激情视频一区二区三区| 国产又黄又爽又粗视频在线| 韩日黄片在线免费观看| 日本在线不卡高清欧美| 人体偷拍一区二区三区| 日本黄色美女日本黄色| 欧美日本道一区二区三区| 亚洲综合色在线视频香蕉视频|