超高維特征篩選方法SEVIS及其應(yīng)用
本文關(guān)鍵詞: 超高維數(shù)據(jù) 特征篩選 SEVIS 非參數(shù)估計(jì) 高頻夏普比率 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年博士論文 論文類型:學(xué)位論文
【摘要】:隨著科技水平的飛速發(fā)展和數(shù)據(jù)收集能力的大幅提高,超高維數(shù)據(jù)(即變量個(gè)數(shù)p遠(yuǎn)大于樣本個(gè)數(shù)n)已經(jīng)越來(lái)越頻繁地出現(xiàn)在包括金融學(xué),基因?qū)W等各個(gè)領(lǐng)域中.在這樣的大數(shù)據(jù)時(shí)代背景下,如何從超高維數(shù)據(jù)中篩選出真正重要的變量成為許多相關(guān)行業(yè)研究者們廣泛關(guān)注的一個(gè)問(wèn)題.而在處理此類問(wèn)題時(shí),傳統(tǒng)的罰函數(shù)方法普遍在計(jì)算復(fù)雜性,統(tǒng)計(jì)準(zhǔn)確性與算法穩(wěn)定性等方面存在不足(見(jiàn)Fan et al.[13]).與罰函數(shù)思想不同,特征篩選的核心思想在于通過(guò)排除那些明顯與因變量不相關(guān)的變量來(lái)達(dá)到降低維度的目的.在本文第二章中,我們提出一個(gè)新的特征篩選方法SEVIS(Sure Explained Variability and Independence Screening).與大多數(shù)基于中心性出發(fā)的特征篩選方法不同,SEVIS考慮的是統(tǒng)計(jì)推斷中另一個(gè)重要的性質(zhì):變異性.因此,SEVIS在處理非對(duì)稱,非線性數(shù)據(jù)時(shí)要在一定程度上優(yōu)于之前的特征篩選模型.在該章中,我們給出SEVIS的一個(gè)非參數(shù)核估計(jì)方法并證明在該估計(jì)方法下,SEVIS滿足特征篩選領(lǐng)域最重要的兩個(gè)性質(zhì):確保篩選性(sure screening property)和秩相合性(ranking consistency property).另外,SEVIS 還是一種無(wú)模型(model-free)方法,即不需要事先指定因變量和自變量之間的相依關(guān)系,無(wú)模型方法相比許多基于模型出發(fā)(model-based)的特征篩選方法,其優(yōu)勢(shì)在于不會(huì)出現(xiàn)錯(cuò)誤假定模型結(jié)構(gòu)的問(wèn)題.同時(shí),我們還將SEVIS方法同幾個(gè)具有代表性的無(wú)模型特征篩選方法進(jìn)行比較以檢驗(yàn)其有限樣本性質(zhì),從幾組蒙特卡洛模擬的結(jié)果可以看出,SEVIS在當(dāng)數(shù)據(jù)存在交互項(xiàng),異方差,刪失等許多情況下都能取得比對(duì)照方法更好的結(jié)果.一組關(guān)于卵巢癌基因的實(shí)證數(shù)據(jù)也能夠說(shuō)明,SEVIS方法所選擇的基因不但對(duì)因變量更具解釋能力,并且在與其它方法選擇的基因互相解釋時(shí)也具有更強(qiáng)的解釋能力.考慮到用核函數(shù)對(duì)非參數(shù)部分進(jìn)行估計(jì)的方式仍存在進(jìn)一步改進(jìn)的空間.因此,在第三章中,我們將SEVIS的核估計(jì)方法調(diào)整為局部線性估計(jì),并考慮部分特殊情況下的特征篩選過(guò)程.結(jié)果顯示,基于局部線性估計(jì)的SEVIS方法在準(zhǔn)確性和運(yùn)行效率上都要略微優(yōu)于基于核估計(jì)的SEVIS方法.考慮到在可投資資產(chǎn)種類大幅增加的現(xiàn)代金融環(huán)境下,基于均值方差模型的傳統(tǒng)估計(jì)方式的誤差較大.因此,在第四章中,我們將SEVIS方法運(yùn)用到金融領(lǐng)域的資產(chǎn)選擇過(guò)程之中,給出一種新的組合構(gòu)造方式.簡(jiǎn)單來(lái)說(shuō),我們先基于全市場(chǎng)所有可投資資產(chǎn)的日內(nèi)高頻數(shù)據(jù)構(gòu)造一個(gè)新的日內(nèi)高頻夏普比率,然后結(jié)合SEVIS方法進(jìn)行初步的資產(chǎn)選擇,以挑選出歷史走勢(shì)高度相關(guān)于該指數(shù)的資產(chǎn).值得一提的是,包括SEVIS在內(nèi)的現(xiàn)有特征篩選方法均是在假定樣本獨(dú)立同分布這一前提下進(jìn)行的,考慮到金融數(shù)據(jù)通常是一組時(shí)間序列而非獨(dú)立樣本.因此,在將SEVIS運(yùn)用到實(shí)際資產(chǎn)選擇之前,我們先將其推廣到相依變量中,證明SEVIS在平穩(wěn)α混合序列的條件下同樣擁有確保篩選性和秩相合性,并通過(guò)幾組蒙特卡洛模擬對(duì)其有限樣本表現(xiàn)進(jìn)行驗(yàn)證.在該章的最后,我們通過(guò)對(duì)中國(guó)股市2014-15年的數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn),結(jié)果證實(shí)我們的方法確實(shí)可以獲得一定程度的超額收益.
[Abstract]:With the rapid development of scientific and technological level and the increase of data collection ability , the data of ultra - high dimension ( i.e . the number of variables p is much larger than the number of samples ) has appeared more and more frequently in various fields including finance and genetics . Unlike the idea of penalty function , the core idea of characteristic screening is to achieve the goal of reducing dimension by excluding those which are not related to the dependent variables . In chapter 2 of this paper , we propose a new characteristic screening method SEVIS . Unlike most of the central - based feature screening methods , SEVIS is considered another important property in statistical inference : variability . Therefore , SEVIS is somewhat superior to previous feature screening models when dealing with asymmetric , non - linear data . In this chapter , we present a non - parametric kernel estimation method for SEVIS and demonstrate that SEVIS satisfies two of the most important properties in the domain of feature selection : ensuring screening property and rank consistency property . In chapter 3 , we apply the SEVIS method to the asset selection process based on the mean variance model .
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:O212
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 武森;馮小東;吳慶海;;基于稀疏指數(shù)排序的高維數(shù)據(jù)并行聚類算法[J];系統(tǒng)工程理論與實(shí)踐;2011年S2期
2 楊力行 ,劉金清;投影尋蹤應(yīng)用技術(shù)在水文領(lǐng)域中喜獲豐收[J];水文;1993年02期
3 蔡利平;周緒川;;高維數(shù)據(jù)上的自適應(yīng)譜聚類降維方法研究[J];西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
4 毛林;陸全華;程濤;;基于高維數(shù)據(jù)的集成邏輯回歸分類算法的研究與應(yīng)用[J];科技通報(bào);2013年12期
5 陳曉明;;海量高維數(shù)據(jù)下分布式特征選擇算法的研究與應(yīng)用[J];科技通報(bào);2013年08期
6 劉立月;黃兆華;劉遵雄;;高維數(shù)據(jù)分類中的特征降維研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期
7 李祚泳;投影尋蹤技術(shù)及其應(yīng)用進(jìn)展[J];自然雜志;1997年04期
8 王家耀;謝明霞;郭建忠;陳科;;基于相似性保持和特征變換的高維數(shù)據(jù)聚類改進(jìn)算法[J];測(cè)繪學(xué)報(bào);2011年03期
9 張嬌;裘國(guó)永;張奇;;基于二分K均值的SVM決策樹(shù)的高維數(shù)據(jù)分類方法[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年07期
10 周迪斌;蔣健明;胡斌;張量;;基于多GPU的千萬(wàn)級(jí)高維空間實(shí)時(shí)檢索[J];科技通報(bào);2013年01期
相關(guān)會(huì)議論文 前6條
1 周煜人;彭輝;桂衛(wèi)華;;基于映射的高維數(shù)據(jù)聚類方法[A];04'中國(guó)企業(yè)自動(dòng)化和信息化建設(shè)論壇暨中南六省區(qū)自動(dòng)化學(xué)會(huì)學(xué)術(shù)年會(huì)專輯[C];2004年
2 梁俊杰;楊澤新;馮玉才;;大規(guī)模高維數(shù)據(jù)庫(kù)索引結(jié)構(gòu)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
3 陳冠華;馬秀莉;楊冬青;唐世渭;帥猛;;面向高維數(shù)據(jù)的低冗余Top-k異常點(diǎn)發(fā)現(xiàn)方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
4 劉運(yùn)濤;鮑玉斌;吳丹;冷芳玲;孫煥良;于戈;;CBFrag-Cubing:一種基于壓縮位圖的高維數(shù)據(jù)立方創(chuàng)建算法(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
5 劉文慧;;PCA與PLS用于高維數(shù)據(jù)分類的比較性研究[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 劉喜蘭;馮德益;王公恕;朱成喜;馮雯;;臉譜分析在中進(jìn)期地震跟蹤預(yù)報(bào)中的應(yīng)用[A];中國(guó)地震學(xué)會(huì)第四次學(xué)術(shù)大會(huì)論文摘要集[C];1992年
相關(guān)重要報(bào)紙文章 前1條
1 本報(bào)記者 李雙藝;引領(lǐng)高維數(shù)據(jù)分析先河[N];吉林日?qǐng)?bào);2013年
相關(guān)博士學(xué)位論文 前10條
1 劉勝藍(lán);余弦度量下的高維數(shù)據(jù)降維及分類方法研究[D];大連理工大學(xué);2015年
2 黃曉輝;高維數(shù)據(jù)的若干聚類問(wèn)題及算法研究[D];哈爾濱工業(yè)大學(xué);2015年
3 楊崇;高維數(shù)據(jù)流上的K近鄰問(wèn)題研究[D];山東大學(xué);2016年
4 路梅;面向高維數(shù)據(jù)的特征學(xué)習(xí)理論與應(yīng)用研究[D];蘇州大學(xué);2016年
5 徐微微;高維數(shù)據(jù)降維可視化研究及其在生物醫(yī)學(xué)中的應(yīng)用[D];武漢大學(xué);2016年
6 連亦e,
本文編號(hào):1475668
本文鏈接:http://sikaile.net/kejilunwen/yysx/1475668.html