天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

高維模型的約束變量選擇和條件特征篩選

發(fā)布時(shí)間:2017-03-24 17:15

  本文關(guān)鍵詞:高維模型的約束變量選擇和條件特征篩選,,由筆耕文化傳播整理發(fā)布。


【摘要】:高維數(shù)據(jù)頻繁地出現(xiàn)在社會(huì)生活和科學(xué)研究的諸多領(lǐng)域,例如生物醫(yī)學(xué)成像、X線斷層攝影術(shù)、以及金融學(xué)和地球科學(xué)等等。在高維數(shù)據(jù)中,協(xié)變量或者參數(shù)的個(gè)數(shù)p大于樣本個(gè)數(shù)n。傳統(tǒng)的統(tǒng)計(jì)推斷方法已經(jīng)不再適用這種“大p,小n”數(shù)據(jù)。而稀疏性原則假設(shè)僅有少量預(yù)測變量對響應(yīng)變量有影響,在這個(gè)原則下,現(xiàn)在已經(jīng)有很多針對高維模型的變量選擇和特征篩選方法。在實(shí)際問題研究中,根據(jù)先前的調(diào)查研究和經(jīng)驗(yàn)常識(shí),研究者們經(jīng)?梢约僭O(shè)參數(shù)滿足某些約束條件或者確定一些重要預(yù)測變量。本文旨在充分利用這些約束條件和己知活躍協(xié)變量信息,繼而提高參數(shù)估計(jì)和變量選擇的效果,降低協(xié)變量之間相關(guān)性對特征篩選的影響。在本文第二章中,我們研究了高維模型中參數(shù)約束下的變量選擇問題。參數(shù)約束是實(shí)際研究過程中常見的假設(shè)條件,研究者們根據(jù)問題背景和經(jīng)驗(yàn)常識(shí)可以確定參數(shù)滿足一定的限制條件。例如Fan et a1.(2012)考慮證券投資組合問題,研究如何分配資金投資p個(gè)不同的證券以達(dá)到最大的回報(bào)。這個(gè)問題中就暗含有一個(gè)線性等式參數(shù)約束∑jp=1βj=1。合理利用參數(shù)的約束條件,可以提高參數(shù)估計(jì)和變量選擇的效果,比如經(jīng)典統(tǒng)計(jì)中的約束最小二乘方法。在第二章,我們具體研究了約束廣義Lasso方法(簡稱為lcg-lasso),討論了相應(yīng)的對偶問題以及算法實(shí)現(xiàn)問題,還得到了約束廣義Lasso的自由度公式,并以此探討了調(diào)和參數(shù)的選擇問題。具體地說,在高維線性模型中,我們考慮如下的約束優(yōu)化問題,其中‖·‖d表示向量的ld范數(shù),λ≥0為調(diào)和參數(shù),Rs×p和f∈Rs分別是根據(jù)所研究的問題具體設(shè)定的懲罰矩陣,約束矩陣和約束向量。選擇合適的D,C,d,E和f,使得Lasso(Tibshirani,1996)和它的一系列變體,例如adaptivelasso (Zou,2006), fused lasso (Tibshirani et al.,2005)和廣義Lasso (Tibshirani and Tay-lor,2011)等,以及Fan et al.(2012)中的約束型問題都成為了lcg-lasso的特例。首先,我們考慮X為列滿秩矩陣情形,忽略不影響優(yōu)化求解的常數(shù),根據(jù)拉格朗日對偶理論得到lcg-lass o的對偶問題為范數(shù)。而且,我們還得到原始解β和對偶解之間的關(guān)系,很顯然,1cg-lasso的對偶問題是標(biāo)準(zhǔn)二次規(guī)劃。而且與原問題相比,其對偶問題所含的未知參數(shù)個(gè)數(shù)少,所有的約束條件也都是簡單的箱約束,所以我們能夠很方便地用2.4節(jié)中簡單有效的坐標(biāo)下降法進(jìn)行求解。另一方面,我們還研究了約束廣義Lasso的自由度問題,并通過最小化風(fēng)險(xiǎn)估計(jì)選擇最優(yōu)調(diào)和參數(shù)。首先,我們根據(jù)對偶問題的KKT條件,定義了對偶解邊界集并按照對偶解和原始解的關(guān)系,得到原始解的邊界集4和召,其中4是Dβ不等于0的下標(biāo)集合,B是不等式約束等號(hào)成立的下標(biāo)集合。通過對偶解的邊界集及其性質(zhì),我們得到了對偶解的精確表達(dá)式,繼而得到原始解β和擬合μ=Xβ的表達(dá)式。我們在2.3節(jié)中證明了對偶解的邊界集和β分別是關(guān)于y的局部常數(shù)函數(shù)和連續(xù)函數(shù),以及應(yīng)的一致Lipschtiz性,最終得到μ做為y的函數(shù)是連續(xù)且?guī)缀跆幪幙晌⒌。因?根據(jù)Stein引理(Stein,1981),我們證明得到,當(dāng)y服從正態(tài)分布時(shí),對于任意的的自由度表達(dá)式,G的零空間的維數(shù)。但是,在實(shí)際應(yīng)用中,設(shè)計(jì)矩陣X不一定滿足列滿秩的條件。在這種情形下,上述方法不再適用。因此,在第二章中,我們提出用簡單的類Elastic Net方法來處理非列滿秩設(shè)計(jì)矩陣問題。我們在原問題lcg-lasso上額外增加一個(gè)l2懲罰項(xiàng),即其中70為一較小的正數(shù)。假設(shè)β*是上述優(yōu)化問題的解,我們得到μ=Xβ*的自由度就可以通過最小化風(fēng)險(xiǎn)估計(jì)來選擇最優(yōu)的調(diào)和參數(shù)。鑒于Mallows'Cp準(zhǔn)則和AIC/BIC準(zhǔn)則之間的關(guān)系,我們定義如下BIC類型的準(zhǔn)則,其中ωn。是一個(gè)可選常數(shù)。當(dāng)上述準(zhǔn)則為Mallows'Cp準(zhǔn)則或者AIC準(zhǔn)則,當(dāng)ωn。=log(n),BIC-類型準(zhǔn)則即為通常的BIC準(zhǔn)則。于是,我們可以選擇使得上述BIC類型準(zhǔn)則達(dá)到最小值的λ為約束廣義Lasso (lcg-lasso)的最優(yōu)調(diào)和參數(shù)。在第三章,我們研究了已知部分活躍協(xié)變量或者強(qiáng)相關(guān)的預(yù)測變量條件下的超高維參數(shù)模型的特征篩選問題。Fan and Lv(2008)首次強(qiáng)調(diào)了特征篩選在超高維數(shù)據(jù)分析中的重要性,建議兩階段變量選擇來提高變量選擇和參數(shù)估計(jì)的效率,即先對超高維數(shù)據(jù)進(jìn)行粗略的大幅度降維(特征篩選,feature screening),再進(jìn)行精細(xì)的變量選擇。自Fanand Lv(2008)提出SIS (Sure Independence Screening)特征篩選方法這一開創(chuàng)性工作以來,大量文獻(xiàn)就開始致力于超高維數(shù)據(jù)中特征篩選問題的研究。大多數(shù)的特征篩選方法都是通過排序邊際效應(yīng)進(jìn)行篩選,例如預(yù)測變量與響應(yīng)變量的邊際相關(guān)性。但是,簡單的邊際效應(yīng)特征篩選方法深受預(yù)測變量之間相關(guān)性的影響,例如舍棄了隱藏型重要變量,錯(cuò)誤選入了與活躍預(yù)測變量強(qiáng)相關(guān)的非活躍預(yù)測變量。在現(xiàn)實(shí)應(yīng)用中,基于一些預(yù)先研究和經(jīng)驗(yàn)常識(shí),研究者們能夠事先確定一些與所研究的響應(yīng)變量相關(guān)的預(yù)測變量。在第三章中,我們利用這一條件信息,在超高維線性和廣義線性模型中提出了新的基于條件邊際經(jīng)驗(yàn)似然的條件特征篩選方法(簡稱為CMELR-CSIS)。假設(shè)XC是事先確定的活躍預(yù)測變量集合,考慮如下的矩條件:對于任意向量或者矩陣βC,其中αj可視為中心化變量與響應(yīng)變量Y之間的相關(guān)系數(shù)。根據(jù)上述矩條件,我們構(gòu)建條件邊際經(jīng)驗(yàn)似然,并得到如下條件邊際經(jīng)驗(yàn)似然比,是拉格朗日乘子,并滿證明了真實(shí)參數(shù)的邊際經(jīng)驗(yàn)似然比很小,而在錯(cuò)誤參數(shù)值處的邊際經(jīng)驗(yàn)似然比將以很大的概率發(fā)散,所以我們考慮用lj(0)作為特征篩選工具。但是gij(c)(0)中包含未知的參數(shù)1,所以我們給出了在線性條件下lj(0)的估計(jì)值lj(0)。最終,我們選擇集合作為剩余活躍指標(biāo)集的估計(jì),其中γn是預(yù)先定義的閾值,A表示模型中所有活躍預(yù)測變量的下標(biāo)集合。我們稱這種特征篩選方法為基于條件邊際經(jīng)驗(yàn)似然比的條件特征篩選,簡稱為CMELR-CSIS。CMELR-CSIS因?yàn)槔^承了經(jīng)驗(yàn)似然方法的優(yōu)點(diǎn),所以不需要太多關(guān)于分布的假設(shè)。而且所需的算法簡單,只需要計(jì)算零點(diǎn)處的的條件邊界經(jīng)驗(yàn)似然比,不需要估計(jì)參數(shù)以及迭代算法。CMELR-CSIS具備sure screening性質(zhì),并在合適的閡值下,也能很好地控制所選入的預(yù)測變量個(gè)數(shù)。大量的數(shù)值模擬研究驗(yàn)證了,在存在強(qiáng)相關(guān)預(yù)測變量情況下,以前的非條件特征篩選方法表現(xiàn)不盡如意或者直接崩潰,但是新條件特征篩選方法CMELR-CSIS的表現(xiàn)卻極為出色。通過不同的模型和條件設(shè)置,我們再次證實(shí)了條件特征篩選方法的有效性,驗(yàn)證了CMELR-CSIS對條件指標(biāo)集C的選擇具有穩(wěn)健性,并且在沒有任何條件集合的信息時(shí),提供了有效的兩階段方法來構(gòu)建CMELR-CSIS。在第四章,我們主要考慮超高維多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)的特征篩選問題,F(xiàn)有的特征篩選方法主要是針對回歸模型中均值函數(shù)的活躍預(yù)測變量。但是,方差函數(shù)在統(tǒng)計(jì)理論和應(yīng)用中有著至關(guān)重要的地位。雖然Zhu et al.(2011)和Lin etal.(2013)在沒有模型結(jié)構(gòu)的條件下,篩選得到活躍預(yù)測變量集合的估計(jì),但是不能具體區(qū)分哪些活躍預(yù)測變量是屬于均值函數(shù),哪些活躍預(yù)測變量是屬于方差函數(shù)。在本文第四章,我們主要研究如下超高維多指標(biāo)異方差模型,其中g(shù)μ(·)和gv(·)表示未知的光滑函數(shù),X為p維的預(yù)測變量向量,ε與預(yù)測變量獨(dú)立,其均值為E(ε)=0,方差為E顯然,很多流行的半?yún)?shù)回歸模型都是上述多指標(biāo)模型的特例,例如部分線性模型,單指標(biāo)模型和部分線性單指標(biāo)模型等等。首先,我們證明了文中第三章中的CMELR-CS IS可以自然拓展到多指標(biāo)同方差模型或者多指標(biāo)異方差模型中均值函數(shù)的特征篩選。這是因?yàn)?在一定正則條件下,我們證明下列等價(jià)條件成立,其中Aμ。表示均值函數(shù)的活躍指標(biāo)集。于是,我們根據(jù)條件邊際經(jīng)驗(yàn)似然比得到了目標(biāo)集合的估計(jì)其中γn為預(yù)先給定的閾值參數(shù),lj是條件邊際經(jīng)驗(yàn)似然比的估計(jì)值,表示滿足等式的拉格朗日乘子。為了不產(chǎn)生混淆,我們稱針對多指標(biāo)模型中均值函數(shù)的這種條件特征篩選方法為EL-CFS。另一方面,關(guān)于異方差模型中方差函數(shù)的特征篩選,由于平方Y(jié)2之間相關(guān)性同時(shí)包含均值函數(shù)和方差函數(shù)的指標(biāo)信息。而且,在正則條件下,我們證明了其中是上述異方差模型的活躍指標(biāo)集,集合Av表示模型中方差函數(shù)的活躍指標(biāo)集。因此,我們可用作為目標(biāo)集合的估計(jì),其中γn是預(yù)先確定的閾值參數(shù),需要注意的是,此時(shí)估計(jì)。由于此條件特征篩選方法是EL-CFS的修正版,所以我們簡稱之為:mEL-CFS。顯然,可以做為異方差模型中方差函數(shù)的活躍指標(biāo)集D∩Av的估計(jì)。而且,我們證明了集合是方差函數(shù)活躍指標(biāo)集的一個(gè)相合估計(jì)。因此,通過EL-CFS和mEL-CFS兩步條件特征篩選,我們能夠分別得到多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)活躍指標(biāo)集的相合估計(jì)。EL-CFS 和 mEL-CFS避免了多指標(biāo)異方差模型中未知的link函數(shù)gμ和gv的非參數(shù)估計(jì),而且在強(qiáng)相關(guān)的協(xié)變量情況下,依然能很好的工作。理論結(jié)果表明當(dāng)模型維數(shù)以樣本容量的指數(shù)級增長時(shí),條件特征篩選方法EL-CFS和mEL-CFS仍然具有sure screening性質(zhì)。在數(shù)值模擬研究中,通過不同的模型設(shè)置證實(shí)了EL-CFS和mEL-CFS的有效性。而且,作為條件特征篩選方法,EL-CFS和mEL-CFS對條件預(yù)測變量集合選擇具有穩(wěn)健性。
【關(guān)鍵詞】:變量選擇 對偶 超高維數(shù)據(jù) 經(jīng)驗(yàn)似然 特征篩選 異方差 多指標(biāo)
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:O212.1
【目錄】:
  • 中文摘要7-12
  • 英文摘要12-18
  • 第一章 緒論18-28
  • 1.1 高維模型變量選擇和自由度18-23
  • 1.1.1 變量選擇18-20
  • 1.1.2 自由度20-23
  • 1.2 超高維模型特征篩選23-26
  • 1.3 半?yún)?shù)異方差回歸模型26-28
  • 第二章 線性約束廣義Lasso的對偶和自由度28-50
  • 2.1 引言28-30
  • 2.2 對偶問題以及解的性質(zhì)30-34
  • 2.2.1 對偶問題30-32
  • 2.2.2 KKT條件與邊界集32-33
  • 2.2.3 估計(jì)和擬合33-34
  • 2.3 自由度34-37
  • 2.4 算法實(shí)現(xiàn)37-39
  • 2.5 模擬研究39-41
  • 2.6 小結(jié)41-42
  • 2.7 附錄:定理的證明42-50
  • 第三章 超高維參數(shù)回歸模型的條件特征篩選50-83
  • 3.1 引言50-52
  • 3.2 條件邊際經(jīng)驗(yàn)似然52-60
  • 3.2.1 線性模型下的條件邊際經(jīng)驗(yàn)似然53-56
  • 3.2.2 廣義線性模型下的條件邊際經(jīng)驗(yàn)似然56-58
  • 3.2.3 基于條件邊際經(jīng)驗(yàn)似然比的條件特征篩選方法58-60
  • 3.3 理論性質(zhì)60-63
  • 3.4 模擬研究63-72
  • 3.4.1 線性回歸模型64-65
  • 3.4.2 線性異方差模型65-67
  • 3.4.3 廣義線性回歸模型67
  • 3.4.4 條件集合的穩(wěn)健性和選擇67-72
  • 3.5 小結(jié)72-74
  • 3.6 附錄:引理和定理的證明74-83
  • 第四章 半?yún)?shù)異方差模型的條件特征篩選83-103
  • 4.1 引言83-85
  • 4.2 特征篩選方法85-90
  • 4.2.1 均值函數(shù)的條件特征篩選方法——EL-CFS85-88
  • 4.2.2 方差函數(shù)的條件特征篩選方法——mEL-CFS88-90
  • 4.3 EL-CFS和mEL-CFS的理論性質(zhì)90-93
  • 4.4 數(shù)值模擬研究93-98
  • 4.5 小結(jié)98-100
  • 4.6 附錄:定理的證明100-103
  • 參考文獻(xiàn)103-111
  • 致謝111-112
  • 攻讀博士學(xué)位期間完成論文情況112-113
  • 附件113

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 韓立新;孔繁玲;;品種間雙列雜交的Gardner-Eberhart模式的參數(shù)估計(jì)量方差與預(yù)測變量方差[J];北京農(nóng)業(yè)大學(xué)學(xué)報(bào);1989年01期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條

1 雷靂;李洋;;欺負(fù)情境中幾種角色行為的預(yù)測變量[A];第十屆全國心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2005年

2 陳作松;周愛光;;運(yùn)動(dòng)員倦怠的測量及其預(yù)測變量的實(shí)證研究[A];第九屆全國體育科學(xué)大會(huì)論文摘要匯編(2)[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 胡琴琴;高維模型的約束變量選擇和條件特征篩選[D];山東大學(xué);2015年


  本文關(guān)鍵詞:高維模型的約束變量選擇和條件特征篩選,由筆耕文化傳播整理發(fā)布。



本文編號(hào):265929

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/265929.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶65b20***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com