Lasso回歸:從解釋到預(yù)測(cè)
發(fā)布時(shí)間:2022-01-26 20:38
傳統(tǒng)的最小二乘回歸法關(guān)注于對(duì)當(dāng)前數(shù)據(jù)集的準(zhǔn)確估計(jì),容易導(dǎo)致模型的過(guò)擬合,影響模型結(jié)論的可重復(fù)性。隨著方法學(xué)領(lǐng)域的發(fā)展,涌現(xiàn)出的新興統(tǒng)計(jì)工具可以彌補(bǔ)傳統(tǒng)方法的局限,從過(guò)度關(guān)注回歸系數(shù)值的解釋轉(zhuǎn)向提升研究結(jié)果的預(yù)測(cè)能力也愈加成為心理學(xué)領(lǐng)域重要的發(fā)展趨勢(shì)。Lasso方法通過(guò)在模型估計(jì)中引入懲罰項(xiàng)的方式,可以獲得更高的預(yù)測(cè)準(zhǔn)確度和模型概化能力,同時(shí)也可以有效地處理過(guò)擬合和多重共線性問(wèn)題,有助于心理學(xué)理論的構(gòu)建和完善。
【文章來(lái)源】:心理科學(xué)進(jìn)展. 2020,28(10)北大核心CSSCICSCD
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
懲罰項(xiàng)對(duì)系數(shù)的壓縮結(jié)果
第10期張瀝今等:Lasso回歸:從解釋到預(yù)測(cè)1779圖1偏差方差權(quán)衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用當(dāng)前數(shù)據(jù)集獲得的參數(shù)估計(jì)存在著可以接受的偏差,那么參數(shù)的樣本間方差會(huì)因有偏估計(jì)而減小,這樣的估計(jì)結(jié)果反而具有更強(qiáng)的概化能力(如圖1b所示)。因此,在實(shí)際數(shù)據(jù)分析中我們需要很好地處理這種偏差方差權(quán)衡(Bias-VarianceTradeoff)問(wèn)題。而傳統(tǒng)的OLS估計(jì)關(guān)注對(duì)當(dāng)前數(shù)據(jù)集的精確估計(jì),在預(yù)測(cè)變量較多時(shí)不可避免地容易出現(xiàn)過(guò)擬合的估計(jì)結(jié)果,進(jìn)而削弱模型的概化能力。二是多重共線性(Multicollinearity),即在回歸模型中多個(gè)預(yù)測(cè)變量間存在相關(guān)關(guān)系的現(xiàn)象,其中當(dāng)預(yù)測(cè)變量間的相關(guān)系數(shù)為正負(fù)1時(shí),即存在完全多重共線性。當(dāng)模型存在較強(qiáng)的多重共線性時(shí),OLS估計(jì)得到的回歸系數(shù)極易受到樣本數(shù)據(jù)的微小波動(dòng)的影響,估計(jì)的穩(wěn)定性較差。回歸系數(shù)的估計(jì)方差也會(huì)隨著自變量間共線性的增強(qiáng)而增大(張鳳蓮,2010)。即當(dāng)更換樣本中的部分?jǐn)?shù)據(jù)時(shí),回歸系數(shù)因?yàn)槎嘀毓簿性的存在會(huì)產(chǎn)生較大的變化。這不僅會(huì)導(dǎo)致得到的回歸模型缺乏概化能力,還會(huì)使某些重要變量的回歸系數(shù)變得微不足道甚至與現(xiàn)實(shí)情況相反(Rao,1976)。此外,當(dāng)模型存在較多的預(yù)測(cè)變量時(shí),我們往往會(huì)采用逐步回歸(StepwiseRegression)等方法增加或刪減變量,以獲得有效的預(yù)測(cè)變量集。但是該方法違背了回歸分析推論的前提假設(shè),即所有預(yù)測(cè)變量是作為整體固定存在的(Lockhartetal.,2014),過(guò)度擬合帶來(lái)的問(wèn)題在使用逐步回歸法進(jìn)行模型選擇時(shí)也會(huì)更加突出。此時(shí)用于統(tǒng)計(jì)推斷的t檢驗(yàn)或F檢驗(yàn)不僅無(wú)法遵循其適合的零假設(shè)分布,也無(wú)法擁有合適的自由度進(jìn)行分析,基本的統(tǒng)計(jì)檢驗(yàn)及其相關(guān)的p值將不適用于不斷增減變量的模型選擇。這種模型選擇可能會(huì)使回歸系數(shù)假設(shè)?
學(xué)生(Cortez&Silva,2008),數(shù)據(jù)中包含了11個(gè)連續(xù)變量:(1)年齡(age),(2)家庭關(guān)系質(zhì)量(famrel),(3)放學(xué)后空閑時(shí)間(freetime),(4)和朋友出去玩的頻率(goout),(5)工作日飲酒頻率(dalc),(6)周末飲酒頻率(walc),(7)自評(píng)健康狀況(health),(8)缺課次數(shù)(absences),(9)學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī)(G1),(10)中期測(cè)驗(yàn)成績(jī)(G2)和(11)期末測(cè)驗(yàn)成績(jī)(G3)。其中期末測(cè)驗(yàn)成績(jī)?yōu)橐蜃兞?本研究將探究能夠有效預(yù)測(cè)數(shù)學(xué)期末測(cè)驗(yàn)成績(jī)的因素。相關(guān)分析結(jié)果顯示,學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī)、中期測(cè)驗(yàn)成績(jī)與期末測(cè)驗(yàn)成績(jī)之間存在較強(qiáng)的正相關(guān)。圖1變量間相關(guān)圖注:紅色系代表負(fù)相關(guān),藍(lán)色系代表正相關(guān),顏色越深代表相關(guān)值越大。在Lasso回歸中,首先采用10重交叉驗(yàn)證方法選擇合適的懲罰項(xiàng)λ。這一方法可以通過(guò)R軟件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)實(shí)現(xiàn)。值得注意的是,為了保證每次交叉驗(yàn)證分析得到的λ結(jié)果一致,需要采用set.seed()函數(shù)設(shè)定隨機(jī)數(shù)種子,否則每次分析的結(jié)果會(huì)存在微小差異。結(jié)果顯示最小化均方誤差(MeanSquareError,MSE)的λ為0.043,λ+1se為0.776。圖2呈現(xiàn)了隨著log(lambda)的增加MSE值的變化。當(dāng)λ對(duì)復(fù)雜模型的懲罰力度增大時(shí),MSE同樣會(huì)增大,而懲罰項(xiàng)的增大最終會(huì)導(dǎo)致所有系數(shù)壓縮到0,此時(shí)MSE值最大。圖2十重交叉驗(yàn)證結(jié)果注:圖中兩條豎線分別代表最小化MSE的λ值和λ+1se值圖3呈現(xiàn)了隨著log(lambda)的增加,標(biāo)準(zhǔn)化回歸系數(shù)被壓縮的情況,可以看到的是,隨著懲罰力度的增大,標(biāo)準(zhǔn)化系數(shù)最終全部會(huì)被壓縮到0。而在λ值為0.776處,有兩個(gè)系數(shù)不為0。根據(jù)輸出結(jié)果,G1(學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī))和G2(學(xué)生中期數(shù)學(xué)測(cè)驗(yàn)成績(jī))兩個(gè)預(yù)測(cè)因素被保留下來(lái)。圖3懲罰項(xiàng)對(duì)系數(shù)的壓縮結(jié)果此外,Lasso回歸中可以通過(guò)co
【參考文獻(xiàn)】:
期刊論文
[1]貝葉斯結(jié)構(gòu)方程模型及其研究現(xiàn)狀[J]. 張瀝今,陸嘉琦,魏夏琰,潘俊豪. 心理科學(xué)進(jìn)展. 2019(11)
[2]基于LASSO類方法的Ⅰ類錯(cuò)誤的控制[J]. 許樹紅,王慧,孫紅衛(wèi),王彤. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2017(04)
[3]心理學(xué)研究中的可重復(fù)性問(wèn)題:從危機(jī)到契機(jī)[J]. 胡傳鵬,王非,過(guò)繼成思,宋夢(mèng)迪,隋潔,彭凱平. 心理科學(xué)進(jìn)展. 2016(09)
[4]正則化稀疏模型[J]. 劉建偉,崔立鵬,劉澤宇,羅雄麟. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
碩士論文
[1]多元線性回歸中多重共線性問(wèn)題的解決辦法探討[D]. 張鳳蓮.華南理工大學(xué) 2010
本文編號(hào):3611135
【文章來(lái)源】:心理科學(xué)進(jìn)展. 2020,28(10)北大核心CSSCICSCD
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
懲罰項(xiàng)對(duì)系數(shù)的壓縮結(jié)果
第10期張瀝今等:Lasso回歸:從解釋到預(yù)測(cè)1779圖1偏差方差權(quán)衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用當(dāng)前數(shù)據(jù)集獲得的參數(shù)估計(jì)存在著可以接受的偏差,那么參數(shù)的樣本間方差會(huì)因有偏估計(jì)而減小,這樣的估計(jì)結(jié)果反而具有更強(qiáng)的概化能力(如圖1b所示)。因此,在實(shí)際數(shù)據(jù)分析中我們需要很好地處理這種偏差方差權(quán)衡(Bias-VarianceTradeoff)問(wèn)題。而傳統(tǒng)的OLS估計(jì)關(guān)注對(duì)當(dāng)前數(shù)據(jù)集的精確估計(jì),在預(yù)測(cè)變量較多時(shí)不可避免地容易出現(xiàn)過(guò)擬合的估計(jì)結(jié)果,進(jìn)而削弱模型的概化能力。二是多重共線性(Multicollinearity),即在回歸模型中多個(gè)預(yù)測(cè)變量間存在相關(guān)關(guān)系的現(xiàn)象,其中當(dāng)預(yù)測(cè)變量間的相關(guān)系數(shù)為正負(fù)1時(shí),即存在完全多重共線性。當(dāng)模型存在較強(qiáng)的多重共線性時(shí),OLS估計(jì)得到的回歸系數(shù)極易受到樣本數(shù)據(jù)的微小波動(dòng)的影響,估計(jì)的穩(wěn)定性較差。回歸系數(shù)的估計(jì)方差也會(huì)隨著自變量間共線性的增強(qiáng)而增大(張鳳蓮,2010)。即當(dāng)更換樣本中的部分?jǐn)?shù)據(jù)時(shí),回歸系數(shù)因?yàn)槎嘀毓簿性的存在會(huì)產(chǎn)生較大的變化。這不僅會(huì)導(dǎo)致得到的回歸模型缺乏概化能力,還會(huì)使某些重要變量的回歸系數(shù)變得微不足道甚至與現(xiàn)實(shí)情況相反(Rao,1976)。此外,當(dāng)模型存在較多的預(yù)測(cè)變量時(shí),我們往往會(huì)采用逐步回歸(StepwiseRegression)等方法增加或刪減變量,以獲得有效的預(yù)測(cè)變量集。但是該方法違背了回歸分析推論的前提假設(shè),即所有預(yù)測(cè)變量是作為整體固定存在的(Lockhartetal.,2014),過(guò)度擬合帶來(lái)的問(wèn)題在使用逐步回歸法進(jìn)行模型選擇時(shí)也會(huì)更加突出。此時(shí)用于統(tǒng)計(jì)推斷的t檢驗(yàn)或F檢驗(yàn)不僅無(wú)法遵循其適合的零假設(shè)分布,也無(wú)法擁有合適的自由度進(jìn)行分析,基本的統(tǒng)計(jì)檢驗(yàn)及其相關(guān)的p值將不適用于不斷增減變量的模型選擇。這種模型選擇可能會(huì)使回歸系數(shù)假設(shè)?
學(xué)生(Cortez&Silva,2008),數(shù)據(jù)中包含了11個(gè)連續(xù)變量:(1)年齡(age),(2)家庭關(guān)系質(zhì)量(famrel),(3)放學(xué)后空閑時(shí)間(freetime),(4)和朋友出去玩的頻率(goout),(5)工作日飲酒頻率(dalc),(6)周末飲酒頻率(walc),(7)自評(píng)健康狀況(health),(8)缺課次數(shù)(absences),(9)學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī)(G1),(10)中期測(cè)驗(yàn)成績(jī)(G2)和(11)期末測(cè)驗(yàn)成績(jī)(G3)。其中期末測(cè)驗(yàn)成績(jī)?yōu)橐蜃兞?本研究將探究能夠有效預(yù)測(cè)數(shù)學(xué)期末測(cè)驗(yàn)成績(jī)的因素。相關(guān)分析結(jié)果顯示,學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī)、中期測(cè)驗(yàn)成績(jī)與期末測(cè)驗(yàn)成績(jī)之間存在較強(qiáng)的正相關(guān)。圖1變量間相關(guān)圖注:紅色系代表負(fù)相關(guān),藍(lán)色系代表正相關(guān),顏色越深代表相關(guān)值越大。在Lasso回歸中,首先采用10重交叉驗(yàn)證方法選擇合適的懲罰項(xiàng)λ。這一方法可以通過(guò)R軟件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)實(shí)現(xiàn)。值得注意的是,為了保證每次交叉驗(yàn)證分析得到的λ結(jié)果一致,需要采用set.seed()函數(shù)設(shè)定隨機(jī)數(shù)種子,否則每次分析的結(jié)果會(huì)存在微小差異。結(jié)果顯示最小化均方誤差(MeanSquareError,MSE)的λ為0.043,λ+1se為0.776。圖2呈現(xiàn)了隨著log(lambda)的增加MSE值的變化。當(dāng)λ對(duì)復(fù)雜模型的懲罰力度增大時(shí),MSE同樣會(huì)增大,而懲罰項(xiàng)的增大最終會(huì)導(dǎo)致所有系數(shù)壓縮到0,此時(shí)MSE值最大。圖2十重交叉驗(yàn)證結(jié)果注:圖中兩條豎線分別代表最小化MSE的λ值和λ+1se值圖3呈現(xiàn)了隨著log(lambda)的增加,標(biāo)準(zhǔn)化回歸系數(shù)被壓縮的情況,可以看到的是,隨著懲罰力度的增大,標(biāo)準(zhǔn)化系數(shù)最終全部會(huì)被壓縮到0。而在λ值為0.776處,有兩個(gè)系數(shù)不為0。根據(jù)輸出結(jié)果,G1(學(xué)生第一次數(shù)學(xué)測(cè)驗(yàn)成績(jī))和G2(學(xué)生中期數(shù)學(xué)測(cè)驗(yàn)成績(jī))兩個(gè)預(yù)測(cè)因素被保留下來(lái)。圖3懲罰項(xiàng)對(duì)系數(shù)的壓縮結(jié)果此外,Lasso回歸中可以通過(guò)co
【參考文獻(xiàn)】:
期刊論文
[1]貝葉斯結(jié)構(gòu)方程模型及其研究現(xiàn)狀[J]. 張瀝今,陸嘉琦,魏夏琰,潘俊豪. 心理科學(xué)進(jìn)展. 2019(11)
[2]基于LASSO類方法的Ⅰ類錯(cuò)誤的控制[J]. 許樹紅,王慧,孫紅衛(wèi),王彤. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2017(04)
[3]心理學(xué)研究中的可重復(fù)性問(wèn)題:從危機(jī)到契機(jī)[J]. 胡傳鵬,王非,過(guò)繼成思,宋夢(mèng)迪,隋潔,彭凱平. 心理科學(xué)進(jìn)展. 2016(09)
[4]正則化稀疏模型[J]. 劉建偉,崔立鵬,劉澤宇,羅雄麟. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
碩士論文
[1]多元線性回歸中多重共線性問(wèn)題的解決辦法探討[D]. 張鳳蓮.華南理工大學(xué) 2010
本文編號(hào):3611135
本文鏈接:http://sikaile.net/shekelunwen/xinlixingwei/3611135.html
最近更新
教材專著