天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

若干模型下的變量選擇和特征篩選

發(fā)布時(shí)間:2020-10-29 14:44
   隨著現(xiàn)代科技的迅猛發(fā)展,研究人員能夠收集到大量的數(shù)據(jù),其中包含大維數(shù)的變量,例如基因調(diào)控網(wǎng)絡(luò)(gene regulatory network),基因表達(dá)序列(gene expression mi-croarray),單核苷酸多態(tài)性(single nucleotide poly morphism),金融數(shù)據(jù)(financial data),生物醫(yī)學(xué)數(shù)據(jù)(biomedical data)等.在變量維數(shù)增大的同時(shí),我們也發(fā)現(xiàn),其中或許有很多變量是與響應(yīng)變量無(wú)關(guān)的.這些數(shù)據(jù)中包含的信息很多,但除了有價(jià)值的信息之外,還會(huì)包含一些贅余的信息以及錯(cuò)誤信息,如果在做統(tǒng)計(jì)數(shù)據(jù)分析時(shí)不加以選擇地將這些全部的數(shù)據(jù)都考慮在內(nèi)的話,那么不僅僅會(huì)增加計(jì)算的復(fù)雜度,同時(shí)也會(huì)對(duì)數(shù)據(jù)分析的結(jié)果產(chǎn)生不良影響.因此我們研究的意義就在于從這些復(fù)雜的數(shù)據(jù)中,在減少無(wú)用變量的同時(shí)能確保不丟失有效的數(shù)據(jù)信息.在超高維模型中,當(dāng)變量的維數(shù)p關(guān)于樣本個(gè)數(shù)n指數(shù)增長(zhǎng)的時(shí)候,很多經(jīng)典的統(tǒng)計(jì)方法就失效了,例如經(jīng)典的最小二乘法,由于變量維數(shù)較高,使得樣本協(xié)方差矩陣通常為奇異矩陣;如果極大似然估計(jì)方法中的似然方程個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于未知參數(shù)的個(gè)數(shù),就會(huì)導(dǎo)致參數(shù)的不可識(shí)別.因此,研究人員需要尋求創(chuàng)新的能夠適應(yīng)超高維數(shù)據(jù)發(fā)展變化的變量選擇方法,于是出現(xiàn)了各種懲罰最小二乘法,懲罰極大似然法,懲罰經(jīng)驗(yàn)似然法以及特征篩選法等等.本文總結(jié)了高維變量特征篩選和變量選擇的方法,提出了新的特征篩選和變量選擇的方法.本文主要考慮的幾點(diǎn)問(wèn)題包括:1).高維變量間的相關(guān)性,2).對(duì)已知先驗(yàn)信息的利用,3).model-free的考慮,4).高維下非參數(shù)方法的維數(shù)災(zāi)難,5).數(shù)據(jù)中存在異常值問(wèn)題.出于這幾方面的考量,促使我們提出了幾種特征篩選與變量選擇的方法.本文的主體結(jié)構(gòu)分為五個(gè)章節(jié).第一章中介紹了一些在不同模型下的特征篩選與變量選擇問(wèn)題,并簡(jiǎn)述了異常值檢測(cè)的發(fā)展歷程.第二章中利用經(jīng)驗(yàn)似然與條件SIRS相結(jié)合,對(duì)高維變量提出一種新的特征篩選方法,解決了上述1),2),3)點(diǎn)問(wèn)題.第三章中在一般單指標(biāo)模型下進(jìn)行變量選擇,結(jié)合了參數(shù)和非參數(shù)方法的優(yōu)點(diǎn),有效避免了非參數(shù)模型的維數(shù)災(zāi)難問(wèn)題,值得一提的是,我們通過(guò)利用模型轉(zhuǎn)換,將復(fù)雜的難以估計(jì)的一般單指標(biāo)模型轉(zhuǎn)換為簡(jiǎn)單的易于處理的線性模型.第四章中對(duì)數(shù)據(jù)中存在的異常點(diǎn)進(jìn)行檢測(cè),結(jié)合懲罰方法與經(jīng)驗(yàn)似然方法,提出了穩(wěn)健的變量選擇方法.第五章中對(duì)全文進(jìn)行了總結(jié).1.第二章.我們利用經(jīng)驗(yàn)似然方法結(jié)合條件的SIRS構(gòu)造特征篩選.眾所周知,經(jīng)驗(yàn)似然是一種非參數(shù)推斷方法,它基于一個(gè)數(shù)據(jù)驅(qū)動(dòng)(data-driven)的似然比函數(shù).與其他方法(例如極大似然)相比,經(jīng)驗(yàn)似然方法不需要很多關(guān)于模型結(jié)構(gòu)和誤差分布的假設(shè);并且可以利用很多約束信息或者先驗(yàn)分布信息.因此,可以將經(jīng)驗(yàn)似然看作是一種model-free的方法.本章中利用了經(jīng)驗(yàn)似然的這個(gè)性質(zhì),將其應(yīng)用到非參數(shù)特征篩選中.為了解決第1)點(diǎn)問(wèn)題,本章采用了條件的SIRS方法,對(duì)經(jīng)典的SIRS中的邊際相關(guān)性函數(shù)進(jìn)行處理,減弱變量Xk與條件變量之間的相關(guān)性,達(dá)到降低假陽(yáng)性率和假陰性率的目的.對(duì)于先驗(yàn)信息,第二章中充分考慮其重要性,將已知的重要變量作為條件變量來(lái)處理,不再對(duì)其進(jìn)行變量選擇,并且降低了備選變量Xk與已知重要變量之間的相關(guān)性.我們所提出的方法有效的結(jié)合了經(jīng)驗(yàn)似然與條件的SIRS,構(gòu)造了一種基于經(jīng)驗(yàn)似然比的邊際效應(yīng),并對(duì)其進(jìn)行排序,達(dá)到特征篩選的目的.我們首先對(duì)SIRS進(jìn)行研究分析發(fā)現(xiàn)它對(duì)于變量間的相關(guān)性依賴較強(qiáng),因此自然而然地構(gòu)造出條件的SIRS,減弱它對(duì)變量間相關(guān)性的依賴.所構(gòu)造出的條件邊際相關(guān)性函數(shù)能夠在給定的條件集合Xc下度量Xk與響應(yīng)變量之間的相關(guān)性.根據(jù)該相關(guān)性函數(shù)所構(gòu)造的邊際經(jīng)驗(yàn)似然比lk(C)為:其中λ為拉格朗日乘子,gkl(C)=E2{[Xk-E(Xk|βcτxc)]1(YYl}(k ∈ D).對(duì)該邊際量進(jìn)行排序即可作為特征篩選的標(biāo)準(zhǔn),它需要滿足兩點(diǎn)要求,其一當(dāng)變量Xk是不重要變量的話,那么它所對(duì)應(yīng)的邊際經(jīng)驗(yàn)似然比lk(C)應(yīng)該很小;否則,若Xk是重要變量,那么它所對(duì)應(yīng)的lk(C)應(yīng)該很大.這兩點(diǎn)要求能夠保證在正確選擇閾值時(shí),能夠?qū)⒅匾兞康倪呺H經(jīng)驗(yàn)似然比全部排在較靠前的位置并將其篩選出來(lái).我們給出了該邊際效應(yīng)在兩種情況下的樣本表達(dá)形式,在該形式下,所選重要變量集為Mγn={k∈D:lk(C)≥γn}.為了保證所選子集能包含真實(shí)的活躍變量,我們分別給出了邊際經(jīng)驗(yàn)似然比lk(C)在總體水平和樣本水平下的分布性質(zhì),定理2.1和定理2.2說(shuō)明了當(dāng)?shù)趉個(gè)變量為重要變量時(shí),那么它所對(duì)應(yīng)的邊際經(jīng)驗(yàn)似然比的值不會(huì)太小,因此在對(duì)邊際值排序時(shí)能夠被選擇出來(lái).由于我們的方法是一種特征篩選方法,因此在定理2.3中構(gòu)造了確定篩選性,用以保證所有的重要變量能包含在我們所選的子集中,用以實(shí)施進(jìn)一步的精細(xì)變量選擇.在進(jìn)行特征篩選時(shí),除了保證真實(shí)重要變量都包含在所選子集中之外,還需要說(shuō)明子集Mγn中所包含的變量個(gè)數(shù)不能過(guò)多,我們給出了定理2.5說(shuō)明了這一性質(zhì).該方法保持了經(jīng)驗(yàn)似然與SIRS兩者的優(yōu)勢(shì),所提出的條件邊際經(jīng)驗(yàn)似然比方法是model-free的,具有確定篩選性,有效解決了我們所提出的1),2),3)點(diǎn)問(wèn)題.我們的模擬研究和實(shí)例數(shù)據(jù)分析結(jié)果也證明了該方法的優(yōu)良性質(zhì).2.第三章.本章主要研究的是一般單指標(biāo)模型:Y = G(XTβ,ε),其中G(·)代表未知的連接函數(shù).該模型涵蓋了很多半?yún)?shù)模型,包括單指標(biāo)模型,異方差模型等,在生物醫(yī)學(xué),計(jì)量經(jīng)濟(jì)學(xué)等方面都有著廣泛應(yīng)用.一般單指標(biāo)模型中響應(yīng)變量Y與解釋變量X之間僅僅通過(guò)一個(gè)線性組合XTββ相依賴.這個(gè)半?yún)?shù)模型的引入有效避免了我們提出的第4)點(diǎn)問(wèn)題:非參數(shù)回歸中的維數(shù)災(zāi)難問(wèn)題,并且兼具非參數(shù)回歸的靈活性與參數(shù)回歸的可解釋性.第三章的目的就是在該模型下進(jìn)行變量選擇.由于連接函數(shù)G(·)形式未知,誤差與響應(yīng)變量的關(guān)系也未知,因此直接處理該模型是有一定難度的.我們重新定義一個(gè)參數(shù)βF= ∑-1σ,根據(jù)引理3.1,可以看出在適當(dāng)?shù)木性條件下,βF與初始參數(shù)β是成比例的,我們只要選取非零的βF即可達(dá)到降維的目的.根據(jù)βF的表達(dá)式可以將其看做是一個(gè)線性模型的最小二乘估計(jì),因此我們構(gòu)造了一個(gè)轉(zhuǎn)換模型F(Y)-1/2=XTη + ε,其中η為p維參數(shù),F(·)為Y的分布函數(shù),ε為新模型的誤差,該誤差的分布未知.這樣,就將一個(gè)難以處理的一般單指標(biāo)模型轉(zhuǎn)換為一個(gè)普通的線性模型,變得更加容易估計(jì).但是這個(gè)轉(zhuǎn)換也損失了一些誤差信息,因?yàn)樵谛履P椭姓`差的分布未知,對(duì)該模型進(jìn)行分析時(shí)用最小二乘估計(jì)之類(lèi)的方法是不適用的,因?yàn)槠鋵?duì)誤差分布較為敏感.一種比較自然的想法就是把ε的概率密度函數(shù)用非參核估計(jì)表示出來(lái).我們提出用一種穩(wěn)健的輪廓似然方法來(lái)進(jìn)行參數(shù)估計(jì),該估計(jì)方法利用新誤差的非參數(shù)核密度估計(jì)來(lái)構(gòu)造似然函數(shù),利用如下懲罰輪廓似然同時(shí)達(dá)到壓縮變量和參數(shù)估計(jì)的目的在該參數(shù)估計(jì)下,最終所選擇的重要變量子集為M0={j:ηj≠0,j= 1,…,p}.我們所提出的方法不需要對(duì)連接函數(shù)進(jìn)行估計(jì),因此更為簡(jiǎn)便,并且對(duì)于誤差的假設(shè)更為寬泛.對(duì)厚尾誤差和誤差方差較大的情況都穩(wěn)健.我們的理論性質(zhì)定理3.1和定理3.2說(shuō)明了所得到的估計(jì)具有相合性和漸進(jìn)正態(tài)性,并且滿足oraclc性質(zhì)(定理3.3).這說(shuō)明我們所得到的估計(jì)是收斂于真實(shí)參數(shù)的.在衡量變量選擇優(yōu)劣性方面,我們也展示了所選集合M0與真實(shí)重要變量集合在很大概率上是相等的,說(shuō)明我們的方法可以正確地選擇出真實(shí)模型.該方法的模擬研究與實(shí)例數(shù)據(jù)分析也證明了這些性質(zhì).3.第四章.針對(duì)我們提出的第5)個(gè)問(wèn)題,在數(shù)據(jù)采集中,由于測(cè)量誤差或是人為因素可能會(huì)產(chǎn)生異常值,如何在這些數(shù)據(jù)中剔除受污染的數(shù)據(jù)影響,得到一個(gè)好的變量選擇和參數(shù)估計(jì)結(jié)果是我們本章研究的重點(diǎn).在異常值存在的情況下,許多經(jīng)典的統(tǒng)計(jì)方法都面臨失效的風(fēng)險(xiǎn),因此我們需要找到一種穩(wěn)健的估計(jì)方法來(lái)識(shí)別出數(shù)據(jù)中的異常值.為了反映異常值的效應(yīng),我們采用均值漂移模型y = Xβ + γ + ε,其中y =(y1,…,yn)T是n元響應(yīng)向量,X =(X1T.…,XnT)是設(shè)計(jì)矩陣.β =(β1.…,βp)T是p維回歸系數(shù),γ=(γ1,…,γn)T是n維的線性漂移參數(shù).當(dāng)γi= 0時(shí)表示第i個(gè)觀測(cè)不是異常值;當(dāng)γn ≠ 0時(shí)表示第i個(gè)觀測(cè)是異常值.本章的目的是在該均值漂移模型下進(jìn)行變量選擇,參數(shù)估計(jì)和異常值檢測(cè),其中未知參數(shù)為β和γ,維數(shù)之和是n+p大于樣本量n.因此從這個(gè)角度來(lái)看該方法是一個(gè)高維的變量選擇問(wèn)題.為達(dá)到本章的目的.我們首先進(jìn)行稀疏性假設(shè),我們認(rèn)為大部分βj=0,說(shuō)明大部分的變量是不重要的變量.γ是稀疏的.說(shuō)明雖然數(shù)據(jù)受到了污染,但是還有相當(dāng)一部分?jǐn)?shù)據(jù)是正常數(shù)據(jù).在剔除受污染數(shù)據(jù)之后仍然可以進(jìn)行變量選擇和參數(shù)估計(jì).根據(jù)誤差的分布性質(zhì),我們可以得到估計(jì)方程1/n∑i=1nXiT(yi-Xiβ0-γni)= 0,然后由該估計(jì)方程得到經(jīng)驗(yàn)似然的約束條件.考慮到β和γ的稀疏性,我們采用懲罰經(jīng)驗(yàn)似然的方法分別對(duì)β和γ進(jìn)行壓縮懲罰:其中 g(Zi:β,γ)=XiT(yi-Xiβ-γi),對(duì) p2(|γi|)采取適應(yīng)性的懲罰,用 adaptive lasso的懲罰函數(shù),其初值采用SLTS估計(jì)得到的殘差.該殘差作為懲罰項(xiàng)的權(quán)重,其目的是為了保證非零的γi權(quán)重要大,而正常數(shù)據(jù)對(duì)應(yīng)的γi權(quán)重要小.我們的方法具有高崩潰點(diǎn),并且滿足完全漸進(jìn)有效性,理論結(jié)果證實(shí)了這一性質(zhì),最終所得的估計(jì)是具有相合性的,表明我們的方法所估計(jì)的參數(shù)與真實(shí)參數(shù)之間差異較小.模擬研究從異常值檢測(cè)和參數(shù)估計(jì)兩個(gè)方面入手,說(shuō)明了我們方法在不同污染比例下以及不同異常值類(lèi)型下表現(xiàn)的優(yōu)異性.實(shí)例數(shù)據(jù)研究也表明我們的方法所選擇的變量是稀疏的.4.第五章.對(duì)全文進(jìn)行總結(jié)并對(duì)未來(lái)的研究進(jìn)行規(guī)劃.
【學(xué)位單位】:山東大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類(lèi)】:O212
【文章目錄】:
中文摘要
英文摘要
第一章 緒論
    1.1 變量選擇和特征篩選
        1.1.1 特征篩選
        1.1.2 變量選擇
    1.2 經(jīng)驗(yàn)似然
    1.3 異常值
第二章 條件邊際經(jīng)驗(yàn)似然特征篩選
    2.1 引言
    2.2 SIRS
    2.3 CELSIRS
        2.3.1 情況1
        2.3.2 情況2
        2.3.3 條件集合選取
    2.4 理論性質(zhì)
        2.4.1 假設(shè)條件
        2.4.2 理論性質(zhì)
    2.5 模擬研究
        2.5.1 模型和評(píng)定準(zhǔn)則
        2.5.2 模擬
        2.5.3 結(jié)論
    2.6 實(shí)例數(shù)據(jù)研究
    2.7 引理和定理證明
第三章 一般高維單指標(biāo)模型的變量選擇
    3.1 引言
    3.2 方法
        3.2.1 線性模型下的懲罰輪廓似然
        3.2.2 一般單指標(biāo)模型下的懲罰輪廓似然
    3.3 調(diào)節(jié)參數(shù)選取以及算法
    3.4 理論性質(zhì)
    3.5 模擬研究
    3.6 實(shí)例數(shù)據(jù)分析
    3.7 引理和定理證明
第四章 均值漂移模型的異常值識(shí)別及變量選擇
    4.1 引言
    4.2 方法
        4.2.1 懲罰經(jīng)驗(yàn)似然
        4.2.2 懲罰函數(shù)的選取
    4.3 調(diào)節(jié)參數(shù)選取與算法
    4.4 理論結(jié)果
    4.5 模擬研究
    4.6 實(shí)例數(shù)據(jù)分析
    4.7 定理證明
第五章 總結(jié)與展望
參考文獻(xiàn)
攻讀博士學(xué)位期間完成論文情況
致謝
學(xué)位論文評(píng)閱及答辯情況表

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 牟建波;劉赪;;基于懲罰方法的貝葉斯群組變量選擇[J];綿陽(yáng)師范學(xué)院學(xué)報(bào);2017年02期

2 戴伯新;;回歸變量選擇中的數(shù)據(jù)診斷[J];應(yīng)用概率統(tǒng)計(jì);1992年04期

3 王銀輝;徐文科;;基于風(fēng)險(xiǎn)函數(shù)評(píng)價(jià)自變量選擇對(duì)預(yù)測(cè)的影響[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào);2012年01期

4 張春霞;李俊麗;;變量選擇集成方法[J];工程數(shù)學(xué)學(xué)報(bào);2019年01期

5 李太福;易軍;蘇盈盈;胡文金;余春嬌;;基于特征子空間虛假鄰點(diǎn)判別的軟傳感器模型變量選擇[J];機(jī)械工程學(xué)報(bào);2011年12期

6 張慶;李云霞;;函數(shù)型變量選擇法用于空氣質(zhì)量影響因素實(shí)證分析[J];安慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年04期

7 李揚(yáng);許文甫;馬雙鴿;;污染數(shù)據(jù)的穩(wěn)健稀疏成組變量選擇方法研究[J];統(tǒng)計(jì)與信息論壇;2018年06期

8 徐安察;王瑋明;;應(yīng)用統(tǒng)計(jì)類(lèi)專業(yè)探究性教學(xué)模式探索與實(shí)踐——以變量選擇準(zhǔn)則為例[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年19期

9 楊紅;陳德棉;;個(gè)人住房抵押貸款違約相關(guān)變量選擇[J];現(xiàn)代管理科學(xué);2009年04期

10 鐘先樂(lè);樊亞莉;張?zhí)教?;基于t函數(shù)的穩(wěn)健變量選擇方法[J];上海理工大學(xué)學(xué)報(bào);2017年06期


相關(guān)博士學(xué)位論文 前10條

1 初一;若干模型下的變量選擇和特征篩選[D];山東大學(xué);2018年

2 王延新;高維模型的變量選擇與稀疏正則化[D];武漢大學(xué);2013年

3 李子林;高維基因數(shù)據(jù)中的統(tǒng)計(jì)方法[D];清華大學(xué);2016年

4 唐凱臨;變量選擇和變換的新方法研究[D];同濟(jì)大學(xué);2008年

5 秦志敏;我國(guó)上市公司財(cái)務(wù)預(yù)警變量選擇研究[D];東北財(cái)經(jīng)大學(xué);2012年

6 袁晶;貝葉斯方法在變量選擇問(wèn)題中的應(yīng)用[D];山東大學(xué);2013年

7 姬永剛;分位數(shù)回歸中的貝葉斯變量選擇[D];東北師范大學(xué);2012年

8 趙軍;Expectile回歸和最優(yōu)資產(chǎn)組合中的變量選擇問(wèn)題[D];浙江大學(xué);2017年

9 蘇盈盈;基于核方法的非線性系統(tǒng)變量選擇及其應(yīng)用[D];重慶大學(xué);2014年

10 王歆旸;幾類(lèi)整值時(shí)間序列模型的擬似然推斷和變量選擇問(wèn)題[D];吉林大學(xué);2017年


相關(guān)碩士學(xué)位論文 前10條

1 陶文惠;基于指數(shù)平方損失的兩類(lèi)半?yún)?shù)模型的變量選擇[D];山東師范大學(xué);2019年

2 何琪琪;帶測(cè)量誤差的可加模型的變量選擇[D];廈門(mén)大學(xué);2018年

3 胡蓉;基于隨機(jī)Lasso的Meta分析[D];北京建筑大學(xué);2019年

4 楊陽(yáng);SGL-SVM方法及其應(yīng)用研究[D];廈門(mén)大學(xué);2017年

5 楊小輝;集成變量選擇在個(gè)人信用評(píng)分中的應(yīng)用研究[D];天津財(cái)經(jīng)大學(xué);2018年

6 劉璐;引入基因型線性模型的變量選擇[D];廣西師范大學(xué);2019年

7 崔琨鵬;基于Lasso的變量選擇方法及其在貝葉斯網(wǎng)絡(luò)中的應(yīng)用[D];山東師范大學(xué);2019年

8 武杰;Logistic回歸中的隨機(jī)Lasso方法[D];北京建筑大學(xué);2018年

9 耿瑩;Random Lasso在Logistic模型中的應(yīng)用研究[D];暨南大學(xué);2018年

10 郝寬;Lasso及其改進(jìn)方法在變量選擇中的優(yōu)劣性研究[D];哈爾濱工業(yè)大學(xué);2018年



本文編號(hào):2861048

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2861048.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7d25***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本中文在线不卡视频| 欧美韩日在线观看一区| 欧美精品在线观看国产| 亚洲国产四季欧美一区| 中文字幕禁断介一区二区| 国产成人精品一区二区在线看| 91精品国产综合久久福利| 国产精品视频一级香蕉| 午夜日韩在线观看视频| 在线亚洲成人中文字幕高清| 久草视频这里只是精品| 午夜视频成人在线免费| 日韩欧美三级视频在线| 丁香六月婷婷基地伊人| 五月天丁香婷婷狠狠爱| 午夜日韩在线观看视频| 国产av熟女一区二区三区四区 | 国产欧美精品对白性色| 黑色丝袜脚足国产一区二区| 人妻巨大乳一二三区麻豆| 亚洲欧美中文日韩综合| 亚洲国产成人一区二区在线观看 | 少妇肥臀一区二区三区| 天海翼精品久久中文字幕| 在线免费国产一区二区| 久久亚洲精品成人国产| 国产美女网红精品演绎| 激情爱爱一区二区三区| 东京热加勒比一区二区三区| 日韩女优视频国产一区| 国产又粗又爽又猛又黄的 | 中文字幕亚洲精品人妻| 国产精品一区二区日韩新区| 免费观看日韩一级黄色大片| 高清欧美大片免费在线观看| 亚洲一区二区三区在线中文字幕| 欧美精品女同一区二区| 暴力性生活在线免费视频| 欧美午夜一级艳片免费看| 国产主播精品福利午夜二区| 国产av一区二区三区四区五区|