幾類高維復(fù)雜數(shù)據(jù)半?yún)?shù)模型的結(jié)構(gòu)識別、變量選擇及穩(wěn)健估計
本文選題:半?yún)?shù)模型 切入點:變量選擇 出處:《山東大學(xué)》2016年博士論文
【摘要】:在現(xiàn)代科學(xué)研究的很多領(lǐng)域,比如醫(yī)學(xué)研究、農(nóng)業(yè)研究、社會調(diào)查、經(jīng)濟(jì)學(xué)、生物學(xué)以及流行病學(xué)等領(lǐng)域,常常會遇到縱向數(shù)據(jù)以及缺失數(shù)據(jù)等復(fù)雜數(shù)據(jù)。而且,隨著數(shù)據(jù)收集能力的提高和成本的降低,以及數(shù)據(jù)存儲技術(shù)的快速發(fā)展,數(shù)據(jù)的維數(shù)越來越大。另外,由于半?yún)?shù)模型能夠避免完全非參數(shù)模型的“維數(shù)災(zāi)難”以及參數(shù)模型的模型假定錯誤風(fēng)險,其應(yīng)用范圍十分的廣泛。所以,研究高維復(fù)雜數(shù)據(jù)半?yún)?shù)模型的統(tǒng)計推斷問題有重要的理論意義和實用價值,這也成為了當(dāng)今統(tǒng)計界的熱點問題。本文的第二章研究了縱向數(shù)據(jù)部分線性變系數(shù)模型的部分線性結(jié)構(gòu)識別和變量選擇問題。部分線性變系數(shù)模型因為其靈活性和簡潔性被廣泛地應(yīng)用在縱向數(shù)據(jù)的分析中。然而,關(guān)于這個模型的推斷方法都是基于如下假定:哪些變量對響應(yīng)變量具有常數(shù)效應(yīng)和哪些變量對響應(yīng)變量具有變化效應(yīng)是已知的,即假定協(xié)變量可以分為互不相交的兩部分與其中xij(1)具有變化效應(yīng),xij(2)具有常數(shù)效應(yīng),然后所有的推斷問題都是基于模型進(jìn)行的。這個部分線性模型結(jié)構(gòu)假定在實際建模中具有基礎(chǔ)性的地位,因為模型擬合的有效性以及后續(xù)的理論推斷都很大程度上取決于模型結(jié)構(gòu)指定是否準(zhǔn)確。然而,在實際應(yīng)用中這種假定是不合理的,因為我們很難憑經(jīng)驗準(zhǔn)確的確定某個變量具有變化效應(yīng)還是常數(shù)效應(yīng),這就導(dǎo)致了現(xiàn)有方法的局限性。而且,在實際中,模型相關(guān)變量集合以及每個相關(guān)協(xié)變量xijk對響應(yīng)變量yij的作用形式在響應(yīng)變量的均值以及不同的百分位點處往往是不同的。例如,在第2.4節(jié),分析縱向的AIDS數(shù)據(jù)時,我們發(fā)現(xiàn)協(xié)變量PreCD4對響應(yīng)變量的低分位數(shù)具有變化效應(yīng),而對均值以及高分位數(shù)具有常數(shù)效應(yīng)。另外,觀測數(shù)據(jù)往往是存在異常點的,這就需要方法穩(wěn)健。注意到,半?yún)?shù)部分線性變系數(shù)模型一定具有如下潛在的結(jié)構(gòu),其中,0(·)表示取值恒為零的函數(shù),集合AV,AC以及Az是未知的,分別代表變化效應(yīng)、非零常數(shù)效應(yīng)以及零效應(yīng)變量(即不相關(guān)變量)的指標(biāo)集合,他們是互不相交的,且滿足AV∪AC∪Az={1,…,p)。基于一個可以將均值回歸、中位數(shù)回歸、分位數(shù)回歸及穩(wěn)健的均值回歸納入同一個框架下的一般的M型損失函數(shù)以及懲罰型變量選擇方法的思想,第二章提出了一個懲罰的M型回歸,其能夠一步實現(xiàn)非零系數(shù)αk(·),k∈Av與βk,k∈AC的估計和三種類型的選擇:變化效應(yīng)和非零常數(shù)效應(yīng)選擇,以及模型相關(guān)變量選擇(即,識別未知的指標(biāo)集合AV,AC以及Az)。該方法計算簡便,而且通過選擇不同的損失函數(shù),可以更加清楚地刻畫響應(yīng)變量和協(xié)變量之間的關(guān)系以及做到對異常點穩(wěn)健。理論方面,在一些正則條件下,建立了三種類型的選擇的選擇相合性以及系數(shù)估計的Oracle性質(zhì)。選擇相合表明新方法能夠正確地識別變化效應(yīng)、非零常數(shù)效應(yīng)以及相關(guān)變量的概率趨近于1,即其中,AV,AV以及Az分別是Av,AC以及Az的估計。這里的Oracle性質(zhì)意味著變系數(shù)函數(shù)αk(·),k∈AV的估計達(dá)到了最優(yōu)的收斂速度,而非零的常數(shù)系數(shù)βk,k∈AC的估計具有與在部分線性結(jié)構(gòu)及相關(guān)變量已知的情況下得到的估計相同的漸近分布。數(shù)值模擬結(jié)果和實際數(shù)據(jù)分析也都進(jìn)一步證實了方法的有效性。本文的第三章考慮如下的分組加法多指標(biāo)模型的穩(wěn)健估計問題。其中,gk(·)是未知的聯(lián)系函數(shù),Y∈R為響應(yīng)變量,X∈Rp是p維的預(yù)測向量,假定X可以被劃分為K個互不相交的分組,即,是與Xk相對應(yīng)的我們感興趣的指標(biāo)向量,隨機(jī)誤差(?)與X相互獨立。Wang et al.(2015)也考慮了相同的模型。很明顯,當(dāng)K=1時,其變?yōu)閭鹘y(tǒng)的單指標(biāo)模型。如果K=2而且g1(u)=u,其變?yōu)椴糠志性單指標(biāo)模型。而且,在函數(shù)gk(·),k=1,…,K沒有給定的情況下,指標(biāo)參數(shù)βk,k=1,…,K是不可識別的。因此,我們對β,k=1,…,K的方向更加感興趣,而不是其真實值。定義p×K矩陣其中,Opk×1是pk×1的零矩陣,k=1,…,K。很明顯,針對上面的分組加法多指標(biāo)模型,在PTX的條件下,Y與X是獨立的。P的列空間被稱為中心降維子空間(Li 1991,Wanget al.2015)。在假定如下的線性條件:成立時,Wang et al(2015)證明了線性最小二乘解與(β1T,…,βKT)T同方向,即,存在φk∈R,k=1,…,K,使得成立。然而,眾所周知,最小二乘方法極易受到異常值以及重尾分布的影響。因此,探究如何利用穩(wěn)健高效的復(fù)合分位數(shù)方法(Zou and Yuan 2008,Kai et al.2011)來改進(jìn)最小二乘方法的缺陷是很有意義的。有趣的是,與最小二乘解βLs相似,我們發(fā)現(xiàn),不需要借助任何的非參數(shù)方法,Y關(guān)于X的簡單線性復(fù)合分位數(shù)回歸系數(shù)可以提供βk,k=1,…,K的方向的相合以及漸近正態(tài)估計。具體地講,假定,0τ1τ2…τq1,b= (b1,…,bq)T,η=(η1T,…,ηKT)T,ηk(ηk1,…,ηkpk)T,k=1,…,K,首先定義如下的總體形式的線性復(fù)合分位數(shù)損失函數(shù)其中,ρτj(u)=τju-u1(u0),是示性函數(shù)。令,(6,η)=arg minb,ηL(b,η),在相同的線性條件下,我們證明了η=(η1T,…,ηKT)T屬于P的列空間,即,存在κ=(κ1,…,κK)T∈RK,使得下式成立這就意味著,K個指標(biāo)向量βk,k=1,…,K的方向可以通過線性復(fù)合分位數(shù)回歸的方法進(jìn)行識別。接下來,基于樣本{Xi,Yi}i=1n,L(b,η)的樣本形式定義為然后,令(b,η)=arg minb,ηLn(b,η)。那么,η=(η1T,…,ηKT)T即是η的線性復(fù)合分位數(shù)估計,而且,我們證明了η的漸近正態(tài)性。另外,我們也通過bootstrap方法得到了估計量的近似分布。作為具體的應(yīng)用,針對部分線性單指標(biāo)模型的穩(wěn)健估計問題,我們提出了一個不需要迭代的復(fù)合分位數(shù)估計方法,并且證明了漸近性質(zhì)。另外,針對稀疏的高維模型的變量選擇問題,我們提出了如下懲罰的復(fù)合分位數(shù)回歸變量選擇方法其中,pλ(·)是懲罰函數(shù),本章主要考慮兩個非凸的懲罰函數(shù):SCAD(Fan and Li 2001)以及MCP(Zhang 2010),λ是非負(fù)的壓縮參數(shù)。在p》n的情況下,我們建立了變量選擇的Oracle性質(zhì),即其中,Bn(λ)表示壓縮參數(shù)為λ時,上面懲罰的復(fù)合分位數(shù)目標(biāo)函數(shù)的局部最小值集合,η°為oracle估計,即在真實模型下得到的估計。這里的Oracle性質(zhì)意味著最終的估計量就是oracle估計本身以概率成立,而并不是僅僅模仿oracle估計。由于繼承了復(fù)合分位數(shù)回歸方法的優(yōu)勢,本章的方法在穩(wěn)健性以及估計效方面具有優(yōu)勢。數(shù)值模擬結(jié)果以及實際數(shù)據(jù)的分析也證實了我們的方法。第四章考慮如下的d維的估計函數(shù):其中,θ=(θ1,…,θp)τ是p維的待估參數(shù),Qk(θ,y,x),k=1,…,d是給定的函數(shù),其關(guān)于θ可能是非線性的,丁表示向量的轉(zhuǎn)置。而且假定估計函數(shù)是條件無偏的,即,存在唯一的解θ0滿足當(dāng)條件估計函數(shù)是非線性的以及數(shù)據(jù)帶有缺失時,統(tǒng)計分析會面臨兩方面的困難:完整數(shù)據(jù)分析的模型不可識別性以及非參數(shù)插補(bǔ)方法會失效。為了解決這些問題,針對上面的帶有缺失數(shù)據(jù)的非線性條件估計方程,本章提出一個完全插補(bǔ)光滑距離;诖,針對估計方程中的未知參數(shù),我們進(jìn)一步提出一個最小光滑距離估計方法。這個方法可以唯一的識別非線性模型中的參數(shù),而且,盡管中間過程使用了多元核函數(shù),但對于一個固定的、不趨向于零的窗寬,最終的估計依然具有而相合性以及漸近正態(tài)性。即,對任意的h00,當(dāng)窗寬為h樣本量為n時,在一些正則條件下,估計量θn,h*滿足下式而且,依分布收斂到一個以h為指標(biāo)而且以零為均值的正態(tài)分布為邊際分布的緊的隨機(jī)過程,對于h∈Hn={h0≥h0:nh4p/α≥C}一致成立,其中,C0,0α1。當(dāng)然,對于趨向于零的窗寬,相合性以及漸近正態(tài)性也自然成立。因此,在模型是非線性的以及變量是多元的情況下,這個新方法具有很強(qiáng)的靈活性。第二章提出的方法有如下幾方面的缺陷:第一,只適應(yīng)于響應(yīng)變量yij是連續(xù)的情況,在yij是離散數(shù)據(jù)的時候不可用;第二,盡管是針對縱向數(shù)據(jù),但是并沒有利用縱向數(shù)據(jù)的組內(nèi)相關(guān)結(jié)構(gòu),而僅是簡單地假定工作獨立,這將造成估計效的損失;第三,盡管中位數(shù)回歸以及穩(wěn)健均值回歸具有穩(wěn)健性,但是卻有估計效的不足。Wang et al.(2013)提出一個指數(shù)平方損失函數(shù)1-exp(-r2/h),其得分函數(shù)為注意到,φh(r)也是有界的得分函數(shù),因為這里,壓縮參數(shù)h控制著估計量的穩(wěn)健性和有效性。具體的講,對于較大的h,1-exp(-r2/h)≈r2/h,因此,最終的估計類似于最小二乘估計。而對于較小的h,大的|r|值不會產(chǎn)生太大的損失。因此,較小的h將會降低異常點對估計的影響。Wang et al.(2013)指出,相比較于其他穩(wěn)健方法,例如,Huber估計、分位數(shù)回歸(Koenker and Bassett 1978)以及復(fù)合分位數(shù)回歸(Zou and Yuan 2008)等,φh(r)的表現(xiàn)要更好。第五章主要研究具有如下潛在結(jié)構(gòu)的縱向數(shù)據(jù)廣義部分線性變系數(shù)模型其中,g-1(·)是給定的聯(lián)系函數(shù)。基于指數(shù)平方得分函數(shù)φh(r)以及廣義估計方程的思想,本章提出了一個穩(wěn)健以及高效的估計量,其可以同時進(jìn)行變量選擇以及模型部分線性結(jié)構(gòu)的識別。更重要的是,其能夠彌補(bǔ)第二章方法的缺陷。這個方法是基于一個新提出的光滑門限的(smooth-threshold)穩(wěn)健廣義估計方程,其可以充分地利用縱向數(shù)據(jù)的組內(nèi)相關(guān)結(jié)構(gòu)來提高估計效率,而且通過利用有界的指數(shù)得分函數(shù)以及基于杠桿點的(leverage-based)權(quán)重,其對來自于響應(yīng)變量和協(xié)變量方向的異常點穩(wěn)健。另外,通過利用一個額外的壓縮參數(shù)h,新的估計量可以達(dá)到估計效率和穩(wěn)健性的平衡。類似于第二章,在一些較弱的條件下,我們證明了其正確地選擇相關(guān)變量以及識別模型部分線性結(jié)構(gòu)的概率趨近于一。而且變系數(shù)以及非零常數(shù)系數(shù)可以被準(zhǔn)確的估計,就像模型結(jié)構(gòu)以及相關(guān)變量是預(yù)先已知的一樣。數(shù)值模擬的結(jié)果也證實了我們的方法。
[Abstract]:......
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:O212.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊麗霞;魏立力;;基于粗糙集方法的有序尺度變量選擇[J];寧夏大學(xué)學(xué)報(自然科學(xué)版);2009年02期
2 趙宇;黃思明;;帶有變量選擇過程的分類模型誤差分析[J];數(shù)學(xué)的實踐與認(rèn)識;2010年17期
3 樊亞莉;徐群芳;;穩(wěn)健的變量選擇方法及其應(yīng)用[J];上海理工大學(xué)學(xué)報;2013年03期
4 陶靖軒;多元分析中的變量選擇問題研究[J];中國計量學(xué)院學(xué)報;2001年01期
5 李樹軍,紀(jì)宏金;對應(yīng)聚類分析與變量選擇[J];地球物理學(xué)進(jìn)展;2005年03期
6 陳黎明;趙永紅;;轉(zhuǎn)換函數(shù)未知時轉(zhuǎn)換模型的變量選擇[J];四川大學(xué)學(xué)報(自然科學(xué)版);2011年05期
7 劉民千,張潤楚;超飽和設(shè)計的變量選擇[J];南開大學(xué)學(xué)報(自然科學(xué)版);2000年03期
8 王進(jìn);;聚類分析中的距離與變量選擇[J];山西財經(jīng)大學(xué)學(xué)報;2007年S1期
9 張波;方國斌;;高維面板數(shù)據(jù)降維與變量選擇方法研究[J];統(tǒng)計與信息論壇;2012年06期
10 高仁祥,張世英,劉豹;基于神經(jīng)網(wǎng)絡(luò)的變量選擇方法[J];系統(tǒng)工程學(xué)報;1998年02期
相關(guān)會議論文 前6條
1 張俊華;方偉武;;調(diào)查表分析中變量選擇的一些方法(英文)[A];中國運籌學(xué)會第六屆學(xué)術(shù)交流會論文集(下卷)[C];2000年
2 李洪東;梁逸曾;;高維數(shù)據(jù)變量選擇新方法研究[A];中國化學(xué)會第27屆學(xué)術(shù)年會第15分會場摘要集[C];2010年
3 李慷;席裕庚;;復(fù)雜過程系統(tǒng)中操作變量選擇與定位的方法研究[A];1993年控制理論及其應(yīng)用年會論文集[C];1993年
4 云永歡;王為婷;梁逸曾;;迭代的保留有信息變量來篩選最佳變量子集的一種多元校正變量選擇方法[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計量學(xué)[C];2014年
5 徐登;范偉;梁逸曾;;紫外光譜結(jié)合變量選擇和偏最小二乘回歸同時測定水中重金屬鎘、鋅、鈷[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計量學(xué)[C];2014年
6 梁逸曾;李洪東;許青松;曹東升;張志敏;;灰色化學(xué)建模與模型集群分析——兼論過擬合、穩(wěn)健估計、變量選擇與模型評價[A];中國化學(xué)會第27屆學(xué)術(shù)年會第15分會場摘要集[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 呂晶;幾類半?yún)?shù)回歸模型的穩(wěn)健估計與變量選擇[D];重慶大學(xué);2015年
2 王康寧;幾類高維復(fù)雜數(shù)據(jù)半?yún)?shù)模型的結(jié)構(gòu)識別、變量選擇及穩(wěn)健估計[D];山東大學(xué);2016年
3 王大榮;分散度量模型中的變量選擇[D];北京工業(yè)大學(xué);2009年
4 王明秋;高維數(shù)據(jù)下若干回歸模型的變量選擇問題研究[D];大連理工大學(xué);2012年
5 劉吉彩;生存數(shù)據(jù)統(tǒng)計模型的變量選擇方法[D];華東師范大學(xué);2014年
6 樊亞莉;穩(wěn)健變量選擇方法的若干問題研究[D];復(fù)旦大學(xué);2013年
7 唐凱臨;變量選擇和變換的新方法研究[D];同濟(jì)大學(xué);2008年
8 董瑩;高維共線性統(tǒng)計模型的參數(shù)估計與變量選擇[D];大連理工大學(xué);2014年
9 葉飛;相對誤差準(zhǔn)則下的估計理論和變量選擇方法的研究[D];清華大學(xué);2013年
10 袁晶;貝葉斯方法在變量選擇問題中的應(yīng)用[D];山東大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 趙冬琦;基于變量選擇的股指期貨對股票市場影響的實證研究[D];蘭州大學(xué);2015年
2 程勇;多水平模型的變量選擇在農(nóng)戶人均收入數(shù)據(jù)中的應(yīng)用[D];云南財經(jīng)大學(xué);2015年
3 鄧秋玲;SCAD和ADS方法在比例風(fēng)險模型中的應(yīng)用[D];廣西大學(xué);2015年
4 韋新星;幾種變量選擇方法在Cox模型中的應(yīng)用[D];廣西大學(xué);2015年
5 王唯;部分線性模型的變量選擇問題研究[D];湘潭大學(xué);2015年
6 徐國盛;若干模型的分位數(shù)變量選擇[D];浙江財經(jīng)大學(xué);2016年
7 郭雪梅;部分線性模型中差分估計與SCAD的比較及帶有異常點的非負(fù)變量選擇[D];重慶大學(xué);2015年
8 王艷;復(fù)共線性及異方差線性模型中的參數(shù)估計與變量選擇[D];重慶大學(xué);2015年
9 楊成敏;廣義線性模型中的參數(shù)估計及變量選擇方法研究[D];重慶大學(xué);2015年
10 鐘冬梅;線性模型中的變量選擇及股票市場實證研究[D];重慶大學(xué);2015年
,本文編號:1720569
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/1720569.html