多元線性回歸中多重共線問(wèn)題的解決方法綜述
本文關(guān)鍵詞:實(shí)用回歸分析
更多相關(guān)文章: 多元 線性 回歸 多重 共線 題的 解決 方法 綜述
多元線性回歸中多重共線問(wèn)題的解決方法綜述
發(fā)布時(shí)間:2013-12-13 11:06:53
多元線性回歸中多重共線問(wèn)題的解決方法綜述
摘 要
在回歸分析中,當(dāng)自變量之間出現(xiàn)多重共線性現(xiàn)象時(shí),常會(huì)嚴(yán)重影響到參數(shù)估計(jì),擴(kuò)大模型誤差,并破壞模型的穩(wěn)健性,因此消除多重共線性成為回歸分析中參數(shù)估計(jì)的一個(gè)重要環(huán)節(jié)。現(xiàn)在常用的解決多元線性回歸中多重共線性的回歸模型有嶺回歸(Ridge Regression)、主成分回歸(Principal Component Regression簡(jiǎn)記為PCR)和偏最小二乘回歸(Partial Least Square Regression簡(jiǎn)記為PLS)。
關(guān)鍵詞:多重共線性;嶺回歸;主成分回歸;偏最小二乘回歸
引言
在多元線性回歸分析中,變量的多重相關(guān)性會(huì)嚴(yán)重影響到參數(shù)估計(jì),增大模型誤差,并破壞模型的穩(wěn)健性 由于多重共線性問(wèn)題在實(shí)際應(yīng)用中普遍存在,并且危害嚴(yán)重,因此設(shè)法消除多重性的不良影響無(wú)疑具有巨大的價(jià)值常用的解決多元線性回歸中多重共線問(wèn)題的回歸模型主要有主成分回歸嶺回歸以及偏最小二乘回歸。
1、 多元線性回歸模型
1.1 回歸模型的建立
設(shè)Y是一個(gè)可觀測(cè)的隨機(jī)變量,它受m個(gè)非隨機(jī)因素X1,X2,…,Xp-1和隨機(jī)因素ε的影響, 若有如下線性關(guān)系
Y??0??1X1??2X2????p?1Xp?1??
我們對(duì)變量進(jìn)行了n次觀察,得到n組觀察數(shù)據(jù)(如下),對(duì)回歸系數(shù) ? 0, ? 1, ?? ? , ? (1 ? p) 進(jìn)行估計(jì)
Y i, X i 1, X i2 , ? ? i ?, X(p?1),i?1,???,n
一般要求n>P。于是回歸關(guān)系可寫為
?Y1??0??1X11??2X12????p?1X1(p?1)??1? ?Y2??0??1X21??2X22????p?1X2(p?1)??2 ??? ?Y????X??X????01n12n2p?1Xn(p?1)??n?n
采用矩陣形式來(lái)表示
?1 X11 X12 ?X1,(p?1)??Y1? ???Y?1 X X ?X 21222,(p?1)?Y??2?, X???? ? ???? ???? ??Yn?n?1?1 Xn1 Xn2 ?Xn,(p?1)??n?p
??0???1???????1?, ???2? ????????????????p?1??n?n?1??p?1
Y稱為觀測(cè)向量,X稱為設(shè)計(jì)矩陣,ε稱為誤差向量,β稱為回歸參數(shù)。
則誤差的平方和
2 2s(?)???X??(Y?X?)T(Y?X?)?YTY??TXTY?YTX???TXTX? ??(??0,??1,???,??(1?p))求參數(shù)β的估計(jì) ?
?)?minS(?)使得 S(?
用最小二乘法估計(jì)
?(?)???[(Y?X?)T(Y?X?)]?(YTY?2YTX???TXTX?) ?????? ? ?(?2YTX???TXTX?)??YTX?2XTX??0??
s
得正規(guī)方程:
(XTX)??XTY
由于X為列滿秩,所以 X TX 可逆,由此解得
??(XTX)?1XTY?
1.2 多重共線性的產(chǎn)生
當(dāng) Rank ( X ) ? P 時(shí),表明在數(shù)據(jù)矩陣X中,至少有一個(gè)列向量可以用其余的列向量線性表示,則說(shuō)明存在完全的多重共線性。 ?1???XX?不存在,而?(XTX)XTY導(dǎo)致?無(wú)法估計(jì)。 即XX?0,TT?1
1.3多重共線性的產(chǎn)生的原因
(1)經(jīng)濟(jì)變量之間往往存在同方向的變化趨勢(shì)。當(dāng)他們被引入同一個(gè)模型成為解釋變量時(shí),會(huì)出現(xiàn)多重共線性。
(2)模型中包含滯后變量,變量各期值之間有可能高度相關(guān)。
(3)利用截面數(shù)據(jù)建立模型也可能出現(xiàn)多重共線性。
(4)經(jīng)濟(jì)變量之間往往存在著密切的內(nèi)在關(guān)聯(lián)度,要素之間互相制約,互相依存。
(5)樣本數(shù)據(jù)自身的原因,數(shù)據(jù)收集的范圍過(guò)窄,造成某些解釋變量之間似乎有相同或相反變化趨勢(shì)的假象。
(6)在建模過(guò)程中由于解釋變量選擇不當(dāng),引起變量之間的多重共線性。
2 處理多重共線性的方法
2. 1處理多重共線性的經(jīng)驗(yàn)式方法
2. 1.1 刪除不重要的共線性變量
最常見(jiàn)的一種思路是設(shè)法去掉不太重要的共線性變量。有些應(yīng)用人員認(rèn)為,可以采用多元回歸分析中的向前選擇變量、向后刪除變量法或逐步回歸法來(lái)進(jìn)行變量的篩選。然而,在理論上,這些變量篩選方法都是針對(duì)無(wú)共線性的數(shù)據(jù)而言的。在多重共線性十分嚴(yán)重的情況下,結(jié)論的可靠性都要受到一定的影響。由于變量間多重共線性的形式十分復(fù)雜,而且還缺乏十分可靠的檢驗(yàn)方法,所以,刪除部分多重共線性變量的做法常導(dǎo)致增大模型的解釋誤差,將本應(yīng)保留的系統(tǒng)信息舍棄,使得接受一個(gè)錯(cuò)誤結(jié)論的可能和做出錯(cuò)誤決策的風(fēng)險(xiǎn)都不斷增大。 另外,在一些模型中,從理論上要求一些重要的解釋變量必須被包括在模型中,而這些變量又存在多重共線性。這時(shí)采用刪除部分共線性變量的做法就不符合實(shí)際工作的要求。
2.1.2 增加樣本容量
增加樣本的容量在某種程度上會(huì)減輕多重共線性對(duì)模型估計(jì)的影響,而且對(duì)某些樣本數(shù)據(jù)來(lái)說(shuō),變量間的多重共線性可能正是由于樣本容量過(guò)小而造成的。然而,在實(shí)際工作中,由于時(shí)間、經(jīng)費(fèi)以及客觀條件的限制,增大樣本容量的方法常常是不可行的。
2.1.3 變量轉(zhuǎn)換的方式
在少數(shù)情況下,當(dāng)基于理論背景認(rèn)為所有的變量都極其重要,但相互之間存在嚴(yán)重的多重共線性時(shí),對(duì)方程的變量進(jìn)行變換有時(shí)至少能在一定程度上消除共線性。兩種最常用的變換方法為:
(1) 構(gòu)造一個(gè)多重共線性變量的組合。此方法就是構(gòu)造一個(gè)新的變量,這一新變量是多重共線性變量的函數(shù),進(jìn)而以這一新變量來(lái)替代回歸方程中的具有多重共線性的那些舊變量。但要注意的是,只有當(dāng)新變量本身有意義時(shí),才可以考慮采用組合變量這一方法。
(2) 把方程的函數(shù)形式轉(zhuǎn)換為一階差分形式。若把一個(gè)方程(或一個(gè)方程中的幾個(gè)變量)從它的常規(guī)設(shè)定形式轉(zhuǎn)換為一階差分的設(shè)定形式,就很有可能會(huì)大大降低多重共線性的程度。由于一階差分方法損失了一個(gè)觀測(cè)值(即樣本數(shù)據(jù)少了一個(gè)),這在小樣本的情況下是極不可取的。
2.2嶺回歸
根據(jù)高斯-馬爾科夫定理,在線性回歸模型的基本假設(shè)滿足時(shí),用最小二乘法得到的回歸系數(shù)估計(jì)量是無(wú)偏的且具有最小方差?梢宰C明,即使在高度多重相關(guān)的情況下,最小二乘法的回歸系數(shù)估計(jì)量依然是線性無(wú)偏的,且具有最小方差。也就是說(shuō),多重共線性并不影響最小二乘估計(jì)量的無(wú)偏性和最小方差性。因此在所有的線性無(wú)偏估計(jì)中,最小二乘估計(jì)仍具有比較小的方差,這并不意味著最小二乘估計(jì)量的方差一定是最小的,因?yàn),雖然它在所有的線性無(wú)偏估計(jì)量中是方差較小,但是這個(gè)方差卻不一定小。
于是就啟發(fā)我們,是否可以找到某一個(gè)有偏估計(jì),這個(gè)有偏估計(jì)雖然有微小的偏差,但它的精度卻能夠大大高于無(wú)偏的估計(jì)量。在許多情況下,我們更愿意選用這個(gè)估計(jì)量,因?yàn)樗咏鎸?shí)參數(shù)值的可能性更大。嶺回歸就是一種基于放棄回歸系數(shù)一般最小二乘估計(jì)的無(wú)偏估計(jì)性要求的方法。
T?1T基本思想:當(dāng)出現(xiàn)多重共線性時(shí),XX?0,從而使參數(shù)的 ??(XX)XY很不穩(wěn)T
定,出現(xiàn)不符合含義的估計(jì)值,給XX 加上一個(gè)正常數(shù)矩陣K?(K>0),則 XX?K?TT
?1??(XTX)XTY來(lái)估計(jì), 比用普通最等于0的可能性就比XX的可能性要小得多,再用?T
小二乘估計(jì)的要穩(wěn)定得多。
2.3主成分回歸
基本思想:如果觀察了n個(gè)樣本點(diǎn),得到因變量y和p個(gè)自變量x1,x2, …,xp 為后續(xù)分析方便起見(jiàn),并且不失一般性,可假設(shè)它們都是標(biāo)準(zhǔn)化變量(均值為零方差為1)自變量x0=(x1,x2,… ,xp)間的相關(guān)數(shù)矩陣記為R。
用主成分回歸方法的第1步,是完全撇開(kāi)因變量y,單獨(dú)考慮對(duì)自變量集合做主成分提取。 其過(guò)程是:
(1)求R的前m個(gè)非零特征值?1??2??????m?0 ,以及相應(yīng)的特征向量u1,u2,… ,um。 (2)求m個(gè)主成分:Fh=X0uh h=1,2, … ,m。 可以證明,這m個(gè)主成分有如下性質(zhì): ①均值為零:E(Fh)=0,h=1,2, … ,m; ②若方差算子用var(?)表示,var(Fh)=
? h=1,2,…,m 所以有var(F)?var(F)????? var(F)。
h
1
2
m
從這個(gè)性質(zhì)可知,F(xiàn)1之所以被稱為第1主成分,是由于它攜帶了原自變量系統(tǒng)中最多的變異信息也就是說(shuō),如果要以一個(gè)綜合變量來(lái)概括原來(lái)所有的自變量,并希望數(shù)據(jù)變異信息損失最小,則第1主成分是最好的選擇它對(duì)原變異信息的反映精度為Q?
?
Pj?1
1
?var(X)
j
p
?
?
1
P
③第1主成分與所有原變量的相關(guān)度可達(dá)到最大。即最優(yōu)化問(wèn)題:
2
rmax?(x0u,xj)
u?RP
j?1
其中r (? ,?)為相關(guān)系數(shù)算子 它的解是u*?u1,而x0u1=F1。
因此,若要尋找一個(gè)綜合變量,它能和原來(lái)所有的自變量最相關(guān),這個(gè)變量就是第1主成分F1。
④主成分F1,F2, … ,Fm是彼此無(wú)關(guān)的變量,即協(xié)方差為cov(Fj,Fk)=0 j?k。
由于主成分之間不再存在自相關(guān)現(xiàn)象,這就對(duì)解決多重相關(guān)性下的回歸建模問(wèn)題給出了某種希望。
這種成分提取的思路是十分可取的 問(wèn)題在于,在上述成分提取過(guò)程中,完全沒(méi)有考慮與因變量y的聯(lián)系。這樣所得到的第1 (或前幾個(gè))主成分可能會(huì)對(duì)自變量系統(tǒng)有很強(qiáng)的概括能力,而對(duì)y的解釋能力卻變得十分微弱。
2.4偏最小二乘回歸
基本思想:
(1)若記t1=X0w1,則上述的數(shù)學(xué)原則可表達(dá)成優(yōu)化問(wèn)題:(2)分別施行X0和y在t1上的回歸:X0=t1p1'+X1 其中p1為回歸系數(shù),p1=
p
r(y,XW)?var(XW) ?maxP
2
u?R
j?1
X0't1
2;X1是殘差矩陣。 t1
而y=r1t1+y1,其中r1=y't1
2;y1是殘差向量 t1
(3)以殘差矩陣X1和y1替代X0和y,采用類似于提取t1的方法,可以進(jìn)行第2個(gè)綜合變量t2的提取,然后施以回歸:X1=t2p2'+x2,y1=r2t2+y2
如此循環(huán)往復(fù),直到提取了A個(gè)綜合變量t1,t2, … ,tA(階數(shù)A的確定目前流行采用“交差有效性”)。
做y對(duì)成分t1,t2, ,tA的普通多元線性回歸,得到y(tǒng)??1t1??2t2??????AtA?yA?
而由于每一個(gè)th均為x1,x2, ,xp的線性組合(X0=x1,x2, … ,xp),因此可以最終寫出PLS1回歸模型:y??1X1??2X2??????PXP?yA
從PLSR回歸的工作過(guò)程看,它采取的是一種循環(huán)式的信息分解與提取方法它在多變量集合中逐次提取成分t1,t2, ,tA,它們對(duì)y的解釋能力最強(qiáng),同時(shí)又最能概括X0中的信息而同時(shí),對(duì)y沒(méi)有解釋意義的信息則自動(dòng)地被排除掉了。
3.結(jié)論
嶺回歸估計(jì)量的質(zhì)量取決于k值的選取,但是k值的確定存在一定的人為因素,所以在確定k值的時(shí)候要把定性分析和定量分析有機(jī)的結(jié)合起來(lái)一般認(rèn)為:在通過(guò)嶺跡圖和方差膨脹因子來(lái)選擇k值時(shí),其判斷方法是選擇一個(gè)盡可能小的k值,在這個(gè)較小的k值上,嶺跡圖中回歸系數(shù)已變得比較穩(wěn)定,并且方差膨脹因子也變得足夠小
利用主成分進(jìn)行的回歸結(jié)果往往不夠理想,原因是在對(duì)系統(tǒng)中的信息做綜合提取的時(shí)候,只注重盡可能多地概括自變量系統(tǒng)中的信息而對(duì)因變量的解釋性不加考慮 偏最小二乘回歸也
采用成分提取的方式進(jìn)行回歸建模,但其思路卻有很大的不同 它在對(duì)自變量進(jìn)行信息綜合時(shí),不但考慮要最好的概括自變量系統(tǒng)中的信息,而且要求所提取的成分必須對(duì)因變量有一定的解釋性 因此,與主成分回歸相比,偏最小
二乘回歸更具有先進(jìn)性,其計(jì)算結(jié)果更為可靠偏最小二乘回歸法尤其適用于變量數(shù)目巨大的情況下,,實(shí)例分析中變量的個(gè)數(shù)不多,偏最小二乘回歸的優(yōu)點(diǎn)在這里沒(méi)有充分的顯示出來(lái)。
參考文獻(xiàn)
[1]C.R.Rao,H.Toutenburg.Linear Models: Least Squares and Alternatives[M].Springer Verlag New York Inc.1995
[2]C.R.Rao.Estimation of parameters in a linear model [J].Annual Statistics,1976,4:1021-1030
[3]Birkes,D,and Dodge.Y(1993),Alternative Methods of Regression, New York,wiley:191-193
[4] Draper NR,Smith H.(1996).Applied Regression Analysis. John wiley&sons inc:71-83
[5]Cheng Bo,Wu Xizhi.Assessing Local Influence in PLS Regression by the Second Order Approach[J].Statistics and Probablity,2001,53:113-121
[6]I.G.Chong,C.H.Jun.Performance of some variable selection methods whenmulticollinearity is present[J].Chemometrics and Intelligent Laboratory Systems,2005,78:103-112
[7]S.L.T.Lima,C.Mello,R.J.Poppi.PLS pruning: a new approach to variable selection for multivariate calibration based on Hessian matrix of errors[J].Chemometrics and Intelligent Laboratory Systems,2005,76:73-78
[8] J.P.Gauchi,P.Chagnon.Comparison of selection methods of explanatory variables in PLS regression with application to manufacturing process data[J]. Chemometrics and Intelligent Laboratory Systems,2001,58:171-193
[9]B.Cheng,X.Wu.A Modification of the PLS Method[J],Advances in Mathematics,1999,28(4):375
[10]Sorenson H W. Parameter Estimation: Principle and Problems. Marcel Dekker, 1980
[11] 肖琳,何大衛(wèi).PLS回歸在消除多元共線性中的作用[J].山西醫(yī)科大學(xué)學(xué)報(bào),2002,33(3)
[12] 陳希儒,王松桂.近代實(shí)用回歸分析[M].廣西人民出版社,1984
[13] 高惠璇.處理多元線性回歸中自變量共線性的幾種方法[J].數(shù)理統(tǒng)計(jì)與管理,2000,20(5):50
[14] 游華.論多元線性模型回歸系數(shù)有偏估計(jì)的實(shí)現(xiàn).福州大學(xué),1999
[15] 許鳳華,偏最小二乘回歸分析中若干問(wèn)題的研究.山東科技大學(xué)碩士論文,2006,6
[16] 王松桂.線性模型的理論及其應(yīng)用[M].合肥:安徽教育出版社,1987
[17] 張恒喜.小樣本多元數(shù)據(jù)分析及應(yīng)用[M].西安:西安工業(yè)大學(xué)出版社,2002
[18] 任若恩,王惠文.多元統(tǒng)計(jì)數(shù)據(jù)分析——理論、方法、實(shí)例[M].北京:國(guó)防工業(yè)出版社,1997
[19] 張金槐.線性模型參數(shù)估計(jì)及其改進(jìn).長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1999
[20] 王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國(guó)防工業(yè)出版社,2006
上一篇:黃銅礦生物浸出研 下一篇:低壓鍋爐水質(zhì)標(biāo)準(zhǔn)
本文編號(hào):992191
本文鏈接:http://sikaile.net/wenshubaike/dxkc/992191.html