帶測量誤差的可加模型的變量選擇
發(fā)布時間:2020-06-12 11:14
【摘要】:一般的回歸模型,通常假設解釋變量的觀測不含有誤差,然而在很多領域的實際問題中,解釋變量往往含有測量誤差。如果忽略測量誤差的影響,可能會使統(tǒng)計推斷出現(xiàn)巨大偏差,得出的結論與真實情況出入較大,因而近年來,測量誤差問題方面的研究受到廣泛關注。另一方面,可加模型因其不受函數(shù)形式限制的靈活性,常被應用于多類問題中。本文研究的重點,即是在可加模型的框架下,考慮存在測量誤差問題時如何進行模型估計以及變量選擇。首先文章基于現(xiàn)有的研究情況,簡單總結了測量誤差模型的基本概念和基本方法,進而介紹了處理部分線性測量誤差模型的思想。為了將這一思想進行推廣,文章補充了B樣條和群組變量選擇的理論基礎。然后在此之上進行了靈活應用,在含測量誤差的可加模型中使用了B樣條基擬合,將非參數(shù)模型轉變?yōu)榫性形式。接著結合最小二乘方法構造了新的目標函數(shù),同時重新定義其中的變量使問題簡化,并利用泰勒展開方法進行了推導,從而完成了式子的化簡以及對測量誤差的修正。最后加上懲罰項進行群組變量選擇,通過坐標下降算法迭代求解。之后通過一系列的模擬研究,分別在自變量之間是否存在相關性,還有因變量是否對自變量的變化敏感的情況下,從模型估計精確度和變量選擇準確度兩個方面,對是否修正了測量誤差的模型,以及不同的群組變量選擇方法進行了對比。模擬結果表明,使用了本文所提出的誤差校準和群組變量選擇方法處理可加模型中的測量誤差和變量選擇問題,得到的模型的估計精度有所改進,同時有利于正確選擇有效變量以及剔除無關變量,且群組SCAD方法整體優(yōu)于群組Lasso。最后將本文的方法應用到了一份自變量存在測量誤差的實際數(shù)據(jù)中,在進行變量選擇的同時建立了脂肪中的熱量關于各自變量的可加模型。
【圖文】:
在測量誤差問題中,如果不懫用合理的模型進行處理,容易對分析結果帶來嚴逡逑重的影響。舉個例子,考慮一個響應變量y關于解釋變量X的回歸,X是[-2,2]逡逑上的均勻分布,r的均值為sin(2X),方差為4邋=邋0.10。在圖2.1的上部,我模擬逡逑了邋200個該模型的觀測值,從圖中可以清晰地看出正弦曲線的樣子。另外,假設觀逡逑測值為W而不是X,其中W服從均值為X,方差為4/9的正態(tài)分布。在圖2.1的下逡逑方,我對F與觀測到的W的數(shù)據(jù)同樣繪制了散點圖?梢钥吹酱藭r正弦曲線不再逡逑明顯,數(shù)據(jù)的特征被觀測誤差所掩蓋。為了避免類似問題出現(xiàn),測量誤差模型上逡逑的研宄就顯得十分重要。逡逑測量誤差模型有兩種基本的分類方式。從自變量的假設,即數(shù)據(jù)結構的角度逡逑出發(fā),測量誤差模型可以分為函數(shù)模型(ftmctional邋modeling)和結構模型(structural逡逑modeling)^邋0逡逑?函數(shù)模型:自變量X是固定的,或者隨機變量,后者的分布沒有被建模。這逡逑7逡逑
的關鍵在于測量誤差的分布決定了測量誤差產(chǎn)生的影響,因而用來修正測量誤差影逡逑響的恰當?shù)姆椒ㄈQ于測量誤差的分布。逡逑在圖2.2中,左側部分的(X,Y)是由模型¥=燉+N嫌鄭恫,其中\的伭x暇礜希劍,,分v睿村澹藉澹,簿彫观测误差,模型斜率&邋=邋1,截距l(xiāng)M=0,誤差項逡逑e均值為0,方差4=0.25。右側部分的橫坐標則為W,其中\V邋=邋X邋+邋U,且U逡逑是獨立于X,均值0方差4邋=邋1的測量誤差。可以看到左圖中(X,Y)的點更加緊逡逑密地分散在一條直線附近,而右圖中含測量誤差的數(shù)組(W,Y)的分布則更為不穩(wěn)逡逑定,不易看出其線性的特征,且其擬合的直線傾斜程度也比左圖的小。逡逑關于測量誤差對圖中擬合直線斜率的影響,我們可以通過理論上的簡單計算逡逑來解釋。實際上,Y關于W的線性回歸的最小二乘解不
【學位授予單位】:廈門大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:F224
本文編號:2709451
【圖文】:
在測量誤差問題中,如果不懫用合理的模型進行處理,容易對分析結果帶來嚴逡逑重的影響。舉個例子,考慮一個響應變量y關于解釋變量X的回歸,X是[-2,2]逡逑上的均勻分布,r的均值為sin(2X),方差為4邋=邋0.10。在圖2.1的上部,我模擬逡逑了邋200個該模型的觀測值,從圖中可以清晰地看出正弦曲線的樣子。另外,假設觀逡逑測值為W而不是X,其中W服從均值為X,方差為4/9的正態(tài)分布。在圖2.1的下逡逑方,我對F與觀測到的W的數(shù)據(jù)同樣繪制了散點圖?梢钥吹酱藭r正弦曲線不再逡逑明顯,數(shù)據(jù)的特征被觀測誤差所掩蓋。為了避免類似問題出現(xiàn),測量誤差模型上逡逑的研宄就顯得十分重要。逡逑測量誤差模型有兩種基本的分類方式。從自變量的假設,即數(shù)據(jù)結構的角度逡逑出發(fā),測量誤差模型可以分為函數(shù)模型(ftmctional邋modeling)和結構模型(structural逡逑modeling)^邋0逡逑?函數(shù)模型:自變量X是固定的,或者隨機變量,后者的分布沒有被建模。這逡逑7逡逑
的關鍵在于測量誤差的分布決定了測量誤差產(chǎn)生的影響,因而用來修正測量誤差影逡逑響的恰當?shù)姆椒ㄈQ于測量誤差的分布。逡逑在圖2.2中,左側部分的(X,Y)是由模型¥=燉+N嫌鄭恫,其中\的伭x暇礜希劍,,分v睿村澹藉澹,簿彫观测误差,模型斜率&邋=邋1,截距l(xiāng)M=0,誤差項逡逑e均值為0,方差4=0.25。右側部分的橫坐標則為W,其中\V邋=邋X邋+邋U,且U逡逑是獨立于X,均值0方差4邋=邋1的測量誤差。可以看到左圖中(X,Y)的點更加緊逡逑密地分散在一條直線附近,而右圖中含測量誤差的數(shù)組(W,Y)的分布則更為不穩(wěn)逡逑定,不易看出其線性的特征,且其擬合的直線傾斜程度也比左圖的小。逡逑關于測量誤差對圖中擬合直線斜率的影響,我們可以通過理論上的簡單計算逡逑來解釋。實際上,Y關于W的線性回歸的最小二乘解不
【學位授予單位】:廈門大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:F224
【參考文獻】
相關期刊論文 前1條
1 ;L_(1/2) regularization[J];Science China(Information Sciences);2010年06期
本文編號:2709451
本文鏈接:http://sikaile.net/jingjilunwen/jingjiguanlilunwen/2709451.html
最近更新
教材專著