若干特征篩選方法及其模擬研究
本文關(guān)鍵詞:若干特征篩選方法及其模擬研究
更多相關(guān)文章: 變量選擇 特征篩選 確定篩選性質(zhì) 排序相合性 選擇相合性 模擬研究
【摘要】:在實(shí)際中,為了應(yīng)用回歸分析方法,人們通常首先要對(duì)回歸自變量進(jìn)行選擇,以剔除掉對(duì)因變量的影響較弱的自變量。當(dāng)自變量的維數(shù)p比樣本容量n小或者p相對(duì)于n來(lái)說(shuō)不是很大時(shí),變量選擇問(wèn)題有許多成熟的有效的方法,如Lasso、Adaptive Lasso、Elastic Net、SCAD等方法。近幾年來(lái),隨著數(shù)據(jù)收集技術(shù)的發(fā)展以及數(shù)據(jù)收集成本的下降,高維數(shù)據(jù)甚至超高維數(shù)據(jù)越來(lái)越多地出現(xiàn)在科學(xué)的各個(gè)領(lǐng)域中。所謂的超高維數(shù)據(jù)是指p遠(yuǎn)遠(yuǎn)大于n的情況。這所謂的“大p小n”問(wèn)題給上述方法帶來(lái)了嚴(yán)重的挑戰(zhàn),如統(tǒng)計(jì)的精確性、模型的可解釋性、算法的復(fù)雜度等。針對(duì)這樣的超高維數(shù)據(jù),統(tǒng)計(jì)學(xué)者們提出了所謂的特征篩選方法,即從這非常多的p個(gè)變量中剔除對(duì)因變量影響較小的變量,這樣就可以對(duì)保留下來(lái)的自變量進(jìn)行精確的選擇并估計(jì)參數(shù)。經(jīng)常使用的一些特征篩選方法包括:SIS、SIRS、NRS、DC-SIS、RRCS等。統(tǒng)計(jì)學(xué)家已經(jīng)證明這些方法具有良好的性質(zhì),如確定篩選性質(zhì)、選擇相合性質(zhì)等,這就可以確保它們能進(jìn)行有效的特征篩選。本文旨在對(duì)這些常用的特征篩選方法進(jìn)行全面的介紹與比較分析。文章首先詳細(xì)地介紹這些特征篩選方法,包括它們的理論依據(jù)、估計(jì)量、篩選準(zhǔn)則以及理論性質(zhì)等,并對(duì)它們采用的準(zhǔn)則、適用的模型范圍、以及優(yōu)缺點(diǎn)等進(jìn)行了比較分析;從理論上對(duì)這些方法以及它們的異同有了明確的認(rèn)識(shí)。然后,文章又通過(guò)數(shù)值模擬研究對(duì)這些方法的篩選效果進(jìn)行了對(duì)比分析。本文設(shè)置的模型考慮了自變量之間不同的相關(guān)性、不同的誤差分布、不同的活躍預(yù)測(cè)變量個(gè)數(shù)等諸多情況;通過(guò)模擬研究,對(duì)這些方法的適用范圍以及模擬效果有了直觀的印象。分析模擬結(jié)果可以發(fā)現(xiàn),這幾種方法的模擬效果和它們的理論性質(zhì)基本是吻合的,它們都能較好地進(jìn)行特征篩選。在線性模型下,只要信噪比不是很小,本文研究的這幾種方法都有很好的模擬效果,能準(zhǔn)確地對(duì)預(yù)測(cè)變量進(jìn)行排序和篩選;在本文設(shè)置的這幾種模擬情形下,SIS方法只在誤差分布非厚尾的線性模型下有良好的篩選效果,SIRS方法在多指標(biāo)模型和變換模型下的篩選效果比較理想,NRS方法和RRCS方法都在厚尾分布、多指標(biāo)模型、變換模型以及非參數(shù)模型下的有著不錯(cuò)的篩選效果,DC-SIS方法在厚尾分布和非參數(shù)模型下的模擬結(jié)果有明顯的改善;而在預(yù)測(cè)變量與響應(yīng)變量對(duì)稱相關(guān)的設(shè)置下,本文的模擬試驗(yàn)結(jié)果表明,沒(méi)有哪一種方法明顯地優(yōu)于其它方法。隨著大數(shù)據(jù)時(shí)代的到來(lái),超高維數(shù)據(jù)越來(lái)越多地出現(xiàn)在科學(xué)研究以及人們的生活中。因此研究特征篩選的方法不但具有重要的理論意義,而且也有著重要的實(shí)用價(jià)值。本文通過(guò)理論介紹以及模擬研究認(rèn)為,在實(shí)際中使用這些特征篩選方法時(shí),首先要盡量根據(jù)實(shí)際的問(wèn)題以及經(jīng)驗(yàn)確定合適的模型,然后選擇一個(gè)較好的方法,這樣才能確保有良好的使用效果。
【關(guān)鍵詞】:變量選擇 特征篩選 確定篩選性質(zhì) 排序相合性 選擇相合性 模擬研究
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:F224
【目錄】:
- 中文摘要8-10
- 英文摘要10-12
- 第一章 緒論12-17
- §1.1 背景介紹12-13
- §1.2 研究現(xiàn)狀13-16
- §1.3 本文結(jié)構(gòu)16-17
- 第二章 常用特征篩選方法概述17-39
- §2.1 SIS方法17-21
- §2.1.1 SIS方法的基本原理17-19
- §2.1.2 迭代SIS方法:ISIS19-20
- §2.1.3 SIS方法的基本性質(zhì)20-21
- §2.2 SIRS方法21-24
- §2.2.1 SIRS方法的基本原理21-22
- §2.2.2 估計(jì)量22
- §2.2.3 篩選準(zhǔn)則22-23
- §2.2.4 排序相合性23-24
- §2.3 NRS方法24-29
- §2.3.1 NRS方法的基本原理25-26
- §2.3.2 估計(jì)量26-27
- §2.3.3 篩選準(zhǔn)則27-28
- §2.3.4 排序相合性28-29
- §2.4 DC-SIS方法29-33
- §2.4.1 距離相關(guān)系數(shù)及其估計(jì)29-31
- §2.4.2 篩選準(zhǔn)則31-32
- §2.4.3 確定篩選性32-33
- §2.5 RRCS方法33-37
- §2.5.1 Kendall τ相關(guān)系數(shù)及其性質(zhì)33-34
- §2.5.2 特征篩選34-35
- §2.5.3 確定篩選性35-37
- §2.6 本章總結(jié)37-39
- 第三章 模擬研究39-52
- §3.1 線性模型39-41
- §3.2 厚尾分布41-42
- §3.3 多指標(biāo)模型42-45
- §3.4 變換模型45-48
- §3.5 非參數(shù)模型48-49
- §3.6 對(duì)稱相關(guān)的情形49-50
- §3.7 本章總結(jié)50-52
- 第四章 結(jié)語(yǔ)52-53
- 參考文獻(xiàn)53-57
- 致謝57-58
- 學(xué)位論文評(píng)閱及答辯情況表58
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 李旭;;隨機(jī)右截尾情形下一種生存模型估計(jì)的強(qiáng)相合性證明[J];統(tǒng)計(jì)與決策;2011年23期
2 ;本期導(dǎo)讀[J];統(tǒng)計(jì)與決策;2008年10期
3 李冬梅;劉維奇;;具有無(wú)限方差的一階自回歸非平穩(wěn)過(guò)程[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期
4 方婧;章溢;溫利民;;聚合風(fēng)險(xiǎn)模型下的信度估計(jì)[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
5 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 李永紅;;可加模型回歸函數(shù)估計(jì)的強(qiáng)相合性[A];數(shù)學(xué)·物理·力學(xué)·高新技術(shù)研究進(jìn)展——1998(7)卷——中國(guó)數(shù)學(xué)力學(xué)物理學(xué)高新技術(shù)交叉研究會(huì)第7屆學(xué)術(shù)研討會(huì)論文集[C];1998年
2 孫燕;柴根象;;縱向數(shù)據(jù)混合效應(yīng)模型參數(shù)估計(jì)的強(qiáng)相合性[A];2003中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)第十一屆學(xué)術(shù)年會(huì)論文集(下)[C];2003年
3 金明仲;吳賢毅;金良瓊;;Gauss-Markov條件下最小二乘估計(jì)的強(qiáng)相合性[A];貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文集[C];2005年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 劉繼學(xué);關(guān)于線性EV模型的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉萃;若干特征篩選方法及其模擬研究[D];山東大學(xué);2016年
2 劉天澤;WOD樣本遞歸密度核估計(jì)的相合性[D];北華大學(xué);2016年
3 潘茂林;經(jīng)驗(yàn)費(fèi)率的相合性[D];華東師范大學(xué);2007年
4 宋會(huì)杰;半?yún)?shù)模型中估計(jì)的相合性及方法的研究[D];西北大學(xué);2009年
5 王星惠;弱誤差半?yún)?shù)和非參數(shù)回歸模型估計(jì)的相合性[D];安徽大學(xué);2011年
6 熊蘋(píng);NA相依樣本在統(tǒng)計(jì)模型中的研究[D];武漢大學(xué);2005年
7 方紅;一般形式的密度估計(jì)[D];安徽大學(xué);2005年
8 雷靜;平衡損失函數(shù)下信度保費(fèi)的相合性研究[D];吉林大學(xué);2011年
9 周躍進(jìn);結(jié)構(gòu)型EV模型參數(shù)估計(jì)的相合性[D];安徽大學(xué);2006年
10 陳向紅;重尾分布尾部指數(shù)的Crovella估計(jì)的性質(zhì)研究[D];南京師范大學(xué);2006年
,本文編號(hào):1005702
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/1005702.html