超高維數據的特征篩選研究
發(fā)布時間:2017-09-29 15:28
本文關鍵詞:超高維數據的特征篩選研究
更多相關文章: 超高維數據 判別分析 穩(wěn)健秩篩選 多元響應變量 投影篩選
【摘要】:隨著數據收集技術的快速發(fā)展,很多領域的研究者可以用較低的成本獲得超高維數據,例如基因組學,功能磁共振成像,X線斷層攝影術,金融等領域.然而,許多降維方法和變量選擇方法受困于計算成本、統(tǒng)計精度和算法穩(wěn)定性,并不能解決超高維問題.自從基于線性模型的準確獨立篩選(sure independence screening, SIS)過程被提出來以后,統(tǒng)計學家提出了許多各具特色的特征篩選方法,它們適用于不同的統(tǒng)計模型以及不同類型的數據.超高維判別分析以及超高維線性模型是超高維特征篩選研究中的兩個常見且重要的問題,仍然具有很大的研究空間.首先考慮超高維判別分析中的準確特征篩選問題,本文基于預測變量樣本秩的條件數學期望和無條件數學期望的差異,提出了一種新的篩選指標,稱之為穩(wěn)健秩篩選.基于一些假設條件,本文證明出新的特征篩選過程具有準確篩選性質.新的篩選方法具有以下五個特點.第一,該方法對于預測變量是重尾分布、存在潛在異常值的情形以及樣本量極端不平衡的情形具有穩(wěn)健性.第二,它是一個模型自由的篩選過程,不需要任何具體參數模型的設定.第三,本文提出的篩選過程可以直接應用到響應變量具有多個類別的情形.第四,穩(wěn)健秩篩選指標中使用了示性函數,這大大簡化了理論推導,因為示性函數構成的最終統(tǒng)計量是有界的.第五,本文提出的篩選標準具有簡單的結構,這決定了篩選過程的計算成本是很低的.最后,蒙特卡羅模擬和實例分析被用來驗證有限樣本下穩(wěn)健秩法的效果.接著,本文考慮帶有多元響應變量的超高維線性模型的特征篩選.本文考慮多元響應變量張成的線性空間,而不是將每一個響應變量進行單獨考慮.基于投影理論,本文將每個自變量投影到多元響應變量張成的線性空間上,提出了一個新的投影篩選(PS)過程,并在一定約束條件的基礎上證明了準確篩選性質.SIS指出,超高維線性模型的邊緣特征篩選會遇到三大困難:與重要變量高度相關的不重要變量有很大的概率被選進模型;重要變量可能與響應變量邊緣不相關,但是與響應變量聯(lián)合相關;協(xié)變量之間可能存在的多重共線性.為了解決以上困難并加強PS篩選的效果,本文進一步提出了迭代投影篩選(IPS)過程.本文利用蒙特卡羅模擬來評價PS和IPS在有限樣本下的效果,并通過一個真實數據的實例分析來說明PS和IPS在應用中的有效性.
【關鍵詞】:超高維數據 判別分析 穩(wěn)健秩篩選 多元響應變量 投影篩選
【學位授予單位】:南京信息工程大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:O212.1
【目錄】:
- 中文摘要5-7
- Abstract7-9
- 第一章 緒論9-13
- 1.1 超高維判別分析問題的研究歷史與現狀9-10
- 1.2 超高維線性模型的研究歷史與現狀10-12
- 1.3 研究內容和創(chuàng)新點12-13
- 第二章 超高維判別分析數據的特征篩選13-32
- 2.1 穩(wěn)健秩方法(RRS)13-16
- 2.2 準確篩選性質16-18
- 2.3 數值模擬18-22
- 2.4 實例分析22-25
- 2.4.1 肺癌數據22-23
- 2.4.2 惡性纖維組織細胞瘤數據23-25
- 2.5 理論證明25-31
- 2.6 本章小結31-32
- 第三章 多元響應變量線性模型的特征篩選32-54
- 3.1 投影篩選方法(PS)33-34
- 3.2 準確篩選性質34-36
- 3.3 迭代算法(IPS)36-37
- 3.4 數值模擬37-44
- 3.5 實例分析44-45
- 3.6 理論證明45-52
- 3.7 本章小結52-54
- 第四章 結論與展望54-56
- 4.1 結論54
- 4.2 展望54-56
- 參考文獻56-59
- 附錄一59-65
- A.1 超高維判別分析的特征篩選方法59-60
- A.2 判別分析方法60-62
- A.3 線性模型特征篩選方法62-65
- 附錄二 個人簡介65-66
- 附錄三 致謝66
本文編號:942790
本文鏈接:http://sikaile.net/kejilunwen/yysx/942790.html