Lasso回歸:從解釋到預測
發(fā)布時間:2022-01-26 20:38
傳統(tǒng)的最小二乘回歸法關(guān)注于對當前數(shù)據(jù)集的準確估計,容易導致模型的過擬合,影響模型結(jié)論的可重復性。隨著方法學領(lǐng)域的發(fā)展,涌現(xiàn)出的新興統(tǒng)計工具可以彌補傳統(tǒng)方法的局限,從過度關(guān)注回歸系數(shù)值的解釋轉(zhuǎn)向提升研究結(jié)果的預測能力也愈加成為心理學領(lǐng)域重要的發(fā)展趨勢。Lasso方法通過在模型估計中引入懲罰項的方式,可以獲得更高的預測準確度和模型概化能力,同時也可以有效地處理過擬合和多重共線性問題,有助于心理學理論的構(gòu)建和完善。
【文章來源】:心理科學進展. 2020,28(10)北大核心CSSCICSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
懲罰項對系數(shù)的壓縮結(jié)果
第10期張瀝今等:Lasso回歸:從解釋到預測1779圖1偏差方差權(quán)衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用當前數(shù)據(jù)集獲得的參數(shù)估計存在著可以接受的偏差,那么參數(shù)的樣本間方差會因有偏估計而減小,這樣的估計結(jié)果反而具有更強的概化能力(如圖1b所示)。因此,在實際數(shù)據(jù)分析中我們需要很好地處理這種偏差方差權(quán)衡(Bias-VarianceTradeoff)問題。而傳統(tǒng)的OLS估計關(guān)注對當前數(shù)據(jù)集的精確估計,在預測變量較多時不可避免地容易出現(xiàn)過擬合的估計結(jié)果,進而削弱模型的概化能力。二是多重共線性(Multicollinearity),即在回歸模型中多個預測變量間存在相關(guān)關(guān)系的現(xiàn)象,其中當預測變量間的相關(guān)系數(shù)為正負1時,即存在完全多重共線性。當模型存在較強的多重共線性時,OLS估計得到的回歸系數(shù)極易受到樣本數(shù)據(jù)的微小波動的影響,估計的穩(wěn)定性較差。回歸系數(shù)的估計方差也會隨著自變量間共線性的增強而增大(張鳳蓮,2010)。即當更換樣本中的部分數(shù)據(jù)時,回歸系數(shù)因為多重共線性的存在會產(chǎn)生較大的變化。這不僅會導致得到的回歸模型缺乏概化能力,還會使某些重要變量的回歸系數(shù)變得微不足道甚至與現(xiàn)實情況相反(Rao,1976)。此外,當模型存在較多的預測變量時,我們往往會采用逐步回歸(StepwiseRegression)等方法增加或刪減變量,以獲得有效的預測變量集。但是該方法違背了回歸分析推論的前提假設(shè),即所有預測變量是作為整體固定存在的(Lockhartetal.,2014),過度擬合帶來的問題在使用逐步回歸法進行模型選擇時也會更加突出。此時用于統(tǒng)計推斷的t檢驗或F檢驗不僅無法遵循其適合的零假設(shè)分布,也無法擁有合適的自由度進行分析,基本的統(tǒng)計檢驗及其相關(guān)的p值將不適用于不斷增減變量的模型選擇。這種模型選擇可能會使回歸系數(shù)假設(shè)?
學生(Cortez&Silva,2008),數(shù)據(jù)中包含了11個連續(xù)變量:(1)年齡(age),(2)家庭關(guān)系質(zhì)量(famrel),(3)放學后空閑時間(freetime),(4)和朋友出去玩的頻率(goout),(5)工作日飲酒頻率(dalc),(6)周末飲酒頻率(walc),(7)自評健康狀況(health),(8)缺課次數(shù)(absences),(9)學生第一次數(shù)學測驗成績(G1),(10)中期測驗成績(G2)和(11)期末測驗成績(G3)。其中期末測驗成績?yōu)橐蜃兞?本研究將探究能夠有效預測數(shù)學期末測驗成績的因素。相關(guān)分析結(jié)果顯示,學生第一次數(shù)學測驗成績、中期測驗成績與期末測驗成績之間存在較強的正相關(guān)。圖1變量間相關(guān)圖注:紅色系代表負相關(guān),藍色系代表正相關(guān),顏色越深代表相關(guān)值越大。在Lasso回歸中,首先采用10重交叉驗證方法選擇合適的懲罰項λ。這一方法可以通過R軟件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)實現(xiàn)。值得注意的是,為了保證每次交叉驗證分析得到的λ結(jié)果一致,需要采用set.seed()函數(shù)設(shè)定隨機數(shù)種子,否則每次分析的結(jié)果會存在微小差異。結(jié)果顯示最小化均方誤差(MeanSquareError,MSE)的λ為0.043,λ+1se為0.776。圖2呈現(xiàn)了隨著log(lambda)的增加MSE值的變化。當λ對復雜模型的懲罰力度增大時,MSE同樣會增大,而懲罰項的增大最終會導致所有系數(shù)壓縮到0,此時MSE值最大。圖2十重交叉驗證結(jié)果注:圖中兩條豎線分別代表最小化MSE的λ值和λ+1se值圖3呈現(xiàn)了隨著log(lambda)的增加,標準化回歸系數(shù)被壓縮的情況,可以看到的是,隨著懲罰力度的增大,標準化系數(shù)最終全部會被壓縮到0。而在λ值為0.776處,有兩個系數(shù)不為0。根據(jù)輸出結(jié)果,G1(學生第一次數(shù)學測驗成績)和G2(學生中期數(shù)學測驗成績)兩個預測因素被保留下來。圖3懲罰項對系數(shù)的壓縮結(jié)果此外,Lasso回歸中可以通過co
【參考文獻】:
期刊論文
[1]貝葉斯結(jié)構(gòu)方程模型及其研究現(xiàn)狀[J]. 張瀝今,陸嘉琦,魏夏琰,潘俊豪. 心理科學進展. 2019(11)
[2]基于LASSO類方法的Ⅰ類錯誤的控制[J]. 許樹紅,王慧,孫紅衛(wèi),王彤. 中國衛(wèi)生統(tǒng)計. 2017(04)
[3]心理學研究中的可重復性問題:從危機到契機[J]. 胡傳鵬,王非,過繼成思,宋夢迪,隋潔,彭凱平. 心理科學進展. 2016(09)
[4]正則化稀疏模型[J]. 劉建偉,崔立鵬,劉澤宇,羅雄麟. 計算機學報. 2015(07)
碩士論文
[1]多元線性回歸中多重共線性問題的解決辦法探討[D]. 張鳳蓮.華南理工大學 2010
本文編號:3611135
【文章來源】:心理科學進展. 2020,28(10)北大核心CSSCICSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
懲罰項對系數(shù)的壓縮結(jié)果
第10期張瀝今等:Lasso回歸:從解釋到預測1779圖1偏差方差權(quán)衡也越大(Babyak,2004;Derksen&Keselman,1992)。相反地,如果使用當前數(shù)據(jù)集獲得的參數(shù)估計存在著可以接受的偏差,那么參數(shù)的樣本間方差會因有偏估計而減小,這樣的估計結(jié)果反而具有更強的概化能力(如圖1b所示)。因此,在實際數(shù)據(jù)分析中我們需要很好地處理這種偏差方差權(quán)衡(Bias-VarianceTradeoff)問題。而傳統(tǒng)的OLS估計關(guān)注對當前數(shù)據(jù)集的精確估計,在預測變量較多時不可避免地容易出現(xiàn)過擬合的估計結(jié)果,進而削弱模型的概化能力。二是多重共線性(Multicollinearity),即在回歸模型中多個預測變量間存在相關(guān)關(guān)系的現(xiàn)象,其中當預測變量間的相關(guān)系數(shù)為正負1時,即存在完全多重共線性。當模型存在較強的多重共線性時,OLS估計得到的回歸系數(shù)極易受到樣本數(shù)據(jù)的微小波動的影響,估計的穩(wěn)定性較差。回歸系數(shù)的估計方差也會隨著自變量間共線性的增強而增大(張鳳蓮,2010)。即當更換樣本中的部分數(shù)據(jù)時,回歸系數(shù)因為多重共線性的存在會產(chǎn)生較大的變化。這不僅會導致得到的回歸模型缺乏概化能力,還會使某些重要變量的回歸系數(shù)變得微不足道甚至與現(xiàn)實情況相反(Rao,1976)。此外,當模型存在較多的預測變量時,我們往往會采用逐步回歸(StepwiseRegression)等方法增加或刪減變量,以獲得有效的預測變量集。但是該方法違背了回歸分析推論的前提假設(shè),即所有預測變量是作為整體固定存在的(Lockhartetal.,2014),過度擬合帶來的問題在使用逐步回歸法進行模型選擇時也會更加突出。此時用于統(tǒng)計推斷的t檢驗或F檢驗不僅無法遵循其適合的零假設(shè)分布,也無法擁有合適的自由度進行分析,基本的統(tǒng)計檢驗及其相關(guān)的p值將不適用于不斷增減變量的模型選擇。這種模型選擇可能會使回歸系數(shù)假設(shè)?
學生(Cortez&Silva,2008),數(shù)據(jù)中包含了11個連續(xù)變量:(1)年齡(age),(2)家庭關(guān)系質(zhì)量(famrel),(3)放學后空閑時間(freetime),(4)和朋友出去玩的頻率(goout),(5)工作日飲酒頻率(dalc),(6)周末飲酒頻率(walc),(7)自評健康狀況(health),(8)缺課次數(shù)(absences),(9)學生第一次數(shù)學測驗成績(G1),(10)中期測驗成績(G2)和(11)期末測驗成績(G3)。其中期末測驗成績?yōu)橐蜃兞?本研究將探究能夠有效預測數(shù)學期末測驗成績的因素。相關(guān)分析結(jié)果顯示,學生第一次數(shù)學測驗成績、中期測驗成績與期末測驗成績之間存在較強的正相關(guān)。圖1變量間相關(guān)圖注:紅色系代表負相關(guān),藍色系代表正相關(guān),顏色越深代表相關(guān)值越大。在Lasso回歸中,首先采用10重交叉驗證方法選擇合適的懲罰項λ。這一方法可以通過R軟件中的glmnet包(Friedman,Hastie,&Tibshirani,2010)實現(xiàn)。值得注意的是,為了保證每次交叉驗證分析得到的λ結(jié)果一致,需要采用set.seed()函數(shù)設(shè)定隨機數(shù)種子,否則每次分析的結(jié)果會存在微小差異。結(jié)果顯示最小化均方誤差(MeanSquareError,MSE)的λ為0.043,λ+1se為0.776。圖2呈現(xiàn)了隨著log(lambda)的增加MSE值的變化。當λ對復雜模型的懲罰力度增大時,MSE同樣會增大,而懲罰項的增大最終會導致所有系數(shù)壓縮到0,此時MSE值最大。圖2十重交叉驗證結(jié)果注:圖中兩條豎線分別代表最小化MSE的λ值和λ+1se值圖3呈現(xiàn)了隨著log(lambda)的增加,標準化回歸系數(shù)被壓縮的情況,可以看到的是,隨著懲罰力度的增大,標準化系數(shù)最終全部會被壓縮到0。而在λ值為0.776處,有兩個系數(shù)不為0。根據(jù)輸出結(jié)果,G1(學生第一次數(shù)學測驗成績)和G2(學生中期數(shù)學測驗成績)兩個預測因素被保留下來。圖3懲罰項對系數(shù)的壓縮結(jié)果此外,Lasso回歸中可以通過co
【參考文獻】:
期刊論文
[1]貝葉斯結(jié)構(gòu)方程模型及其研究現(xiàn)狀[J]. 張瀝今,陸嘉琦,魏夏琰,潘俊豪. 心理科學進展. 2019(11)
[2]基于LASSO類方法的Ⅰ類錯誤的控制[J]. 許樹紅,王慧,孫紅衛(wèi),王彤. 中國衛(wèi)生統(tǒng)計. 2017(04)
[3]心理學研究中的可重復性問題:從危機到契機[J]. 胡傳鵬,王非,過繼成思,宋夢迪,隋潔,彭凱平. 心理科學進展. 2016(09)
[4]正則化稀疏模型[J]. 劉建偉,崔立鵬,劉澤宇,羅雄麟. 計算機學報. 2015(07)
碩士論文
[1]多元線性回歸中多重共線性問題的解決辦法探討[D]. 張鳳蓮.華南理工大學 2010
本文編號:3611135
本文鏈接:http://sikaile.net/shekelunwen/xinlixingwei/3611135.html
最近更新
教材專著