天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

高維數(shù)據(jù)的檢驗(yàn)問題和上期望參數(shù)回歸

發(fā)布時(shí)間:2020-05-21 09:20
【摘要】:近幾十年來,生物科學(xué)、醫(yī)學(xué)、信息技術(shù)和金融學(xué)等領(lǐng)域高速發(fā)展,許多需要解決的實(shí)際問題會(huì)涉及到各種類型的數(shù)據(jù).面對(duì)如此繁雜的數(shù)據(jù),統(tǒng)計(jì)學(xué)的作用尤為凸顯.本論文中,我們主要研究高維數(shù)據(jù)的檢驗(yàn)問題并對(duì)分布隨機(jī)性數(shù)據(jù)進(jìn)行建模.在論文的檢驗(yàn)部分,我們考慮高維數(shù)據(jù)聚類的顯著性檢驗(yàn)以及雙樣本均值向量的檢驗(yàn).在分布隨機(jī)性數(shù)據(jù)的分析中,我們先給出分布隨機(jī)性的定義,針對(duì)這類數(shù)據(jù)構(gòu)造上期望回歸模型,并提出以兩步懲罰的最大最小二乘方法估計(jì)上期望模型中的均值函數(shù)和誤差項(xiàng)的上期望.這兩大類問題具有一個(gè)共同特點(diǎn),即數(shù)據(jù)集中的樣本可能來自多個(gè)分布.本文主體框架分為四個(gè)章節(jié):第一章簡(jiǎn)單介紹聚類方法以及相關(guān)檢驗(yàn)、均值向量檢驗(yàn)的經(jīng)典方法、經(jīng)典參數(shù)回歸模型以及上期望的概念,并在章節(jié)最后給出論文的主要結(jié)構(gòu).第二章和第三章都圍繞高維數(shù)據(jù)的檢驗(yàn)展開.其中,第二章提出新的聚類顯著性檢驗(yàn)方法NewSig,并應(yīng)用到癌癥數(shù)據(jù)的分析中.第三章構(gòu)造Neyman截?cái)嘟y(tǒng)計(jì)量檢驗(yàn)雙樣本的均值向量,并應(yīng)用到白血病基因數(shù)據(jù)中.第四章研究分布隨機(jī)性數(shù)據(jù)的特點(diǎn),定義與之對(duì)應(yīng)的上期望回歸模型并提供相關(guān)參數(shù)估計(jì)方法.下面我們分別對(duì)第二、三、四章節(jié)進(jìn)行簡(jiǎn)要介紹.第二章:研究高維數(shù)據(jù)的聚類顯著性檢驗(yàn)問題.面對(duì)大量數(shù)據(jù),人們首先想到歸納整理,這就涉及到聚類方法,比如基于平方距離的K-means聚類和基于樹狀圖的層次聚類.目前已存在眾多聚類方法,對(duì)某一確定的數(shù)據(jù)集,肯定存在某種聚類方法能將其劃分為幾個(gè)子類.但是,極少有學(xué)者在聚類之前判斷數(shù)據(jù)集是否存在真實(shí)的子類,亦或是僅僅因?yàn)榕既欢斐傻慕Y(jié)果.雖然這個(gè)問題經(jīng)常被忽視,但這卻是實(shí)施聚類方法并進(jìn)行實(shí)際應(yīng)用之前的一個(gè)重要步驟.本文這一部分即是對(duì)高維數(shù)據(jù)集是否具有真實(shí)子類這個(gè)顯著性檢驗(yàn)問題展開討論的.這一章節(jié)首先引入一個(gè)小案例,即在正態(tài)分布N(0,1)中隨機(jī)生成n個(gè)樣本,將其分為兩個(gè)極端子類,然后通過常用的t統(tǒng)計(jì)量來檢驗(yàn)兩個(gè)子類之間的差異.檢驗(yàn)所得結(jié)果中的P-值近似為零,意味著拒絕原假設(shè),即數(shù)據(jù)不是來自于同一分布,這一結(jié)論與事實(shí)相互矛盾.這個(gè)案例說明均值檢驗(yàn)不適用于檢驗(yàn)聚類顯著性,統(tǒng)計(jì)學(xué)中明顯缺乏系統(tǒng)的聚類顯著性檢驗(yàn)方法.Liu et al.(2008)[47]提出SigClust檢驗(yàn),但該方法對(duì)第一類錯(cuò)誤的過度保守控制導(dǎo)致檢驗(yàn)功效降低.對(duì)此,我們仔細(xì)研究SigClust檢驗(yàn)的統(tǒng)計(jì)量CT,剔除掉統(tǒng)計(jì)量里面一些重復(fù)和無用的項(xiàng),并基于不同觀測(cè)值之間的平方距離來構(gòu)建新的統(tǒng)計(jì)量BCI.該統(tǒng)計(jì)量具有位移和旋轉(zhuǎn)不變性,可避免檢驗(yàn)過程中對(duì)均值和協(xié)方差矩陣的估計(jì).原假設(shè)H0下,BCI僅由協(xié)方差矩陣的最大特征值和所有特征值的總和決定.在備擇假設(shè)H1下,滿足一定條件時(shí),檢驗(yàn)功效趨于1.之后我們還將新方法NewSig推廣至部分標(biāo)記數(shù)據(jù)集的檢驗(yàn)中.與SigClust檢驗(yàn)相比,新統(tǒng)計(jì)量的變異系數(shù)(CV)顯著降低,使得整個(gè)模擬過程更加穩(wěn)定.在模擬實(shí)驗(yàn)和兩例癌癥數(shù)據(jù)分析中,NewSig檢驗(yàn)在控制第一類錯(cuò)誤的同時(shí),也獲得更大的檢驗(yàn)功效.第三章:研究高維數(shù)據(jù)的雙樣本均值檢驗(yàn)問題.在第二章我們?cè)岬竭^t檢驗(yàn),這是一元均值檢驗(yàn)的經(jīng)典方法.對(duì)于多元變量,檢驗(yàn)均值向量一般使用Hotelling-T2檢驗(yàn)方法.然而,在高維數(shù)據(jù)情況下,檢驗(yàn)問題通常涉及到樣本協(xié)方差矩陣的估計(jì),并且高維數(shù)據(jù)本身會(huì)受累計(jì)誤差的影響.因此,Hotelling-T2統(tǒng)計(jì)量不適合檢驗(yàn)高維數(shù)據(jù).從Dempster的非精確檢驗(yàn)到Chen-Qin檢驗(yàn)及Cai-Liu檢驗(yàn),高維數(shù)據(jù)的均值檢驗(yàn)方法日趨成熟.目前存在的均值向量檢驗(yàn)方法主要分"Sum-of-Squares"和"Max"兩種類型.但是這兩種方法都有局限性,"Sum-of-Squares"類型的檢驗(yàn)方法更適用于高維稠密數(shù)據(jù),而不適用于高維稀疏數(shù)據(jù);"Max”類型的檢驗(yàn)方法雖然可以檢驗(yàn)高維稀疏數(shù)據(jù),但對(duì)于既不稠密也不稀疏的數(shù)據(jù)檢驗(yàn)功效明顯降低.受Fan(1996)[21]的啟發(fā),我們?cè)谶@一章節(jié)提出一種"Max-Partial-Sum"類型的檢驗(yàn)方法——Neyman截?cái)鄼z驗(yàn),即由邊際統(tǒng)計(jì)量最大的部分和構(gòu)造而成."Sum-of-Squares"類型和"Max"類型統(tǒng)計(jì)量可視為"Max-Partial-Sum"類型統(tǒng)計(jì)量的兩種極端情況.Neyman截?cái)嘟y(tǒng)計(jì)量的構(gòu)造方式不僅使Neyman檢驗(yàn)繼承了"Sum-of-Squares"類型和"Max"類型統(tǒng)計(jì)量分別在檢驗(yàn)稠密和稀疏數(shù)據(jù)時(shí)的較高功效.而且使它在檢驗(yàn)既不稀疏也不稠密的信號(hào)時(shí)同樣表現(xiàn)良好.為使檢驗(yàn)方法對(duì)高維微弱信號(hào)更加敏感,我們通過樣本變換的方式對(duì)其進(jìn)行修正,在削弱樣本每個(gè)分量之間依賴性的同時(shí),也增強(qiáng)兩個(gè)樣本間信號(hào)差異的強(qiáng)度.在理論上我們給出Neyman截?cái)嘟y(tǒng)計(jì)量在原假設(shè)H0下的漸近分布——雙指數(shù)分布,在備擇假設(shè)H1下,數(shù)據(jù)滿足一定條件時(shí)檢驗(yàn)功效趨于1.因?yàn)殡p指數(shù)分布收斂速度較慢,實(shí)際應(yīng)用中我們采用Boostrap方法模擬統(tǒng)計(jì)量的分布.在模擬實(shí)驗(yàn)和白血病基因?qū)嵗治鲋?Neyman截?cái)鄼z驗(yàn)表現(xiàn)優(yōu)異.第四章:研究分布隨機(jī)性數(shù)據(jù)的上期望回歸問題.回歸問題在多元數(shù)據(jù)分析時(shí)應(yīng)用廣泛,主要來源于其概念性的邏輯過程,即用模型方程的形式表達(dá)響應(yīng)變量與預(yù)測(cè)變量之間的關(guān)系.本章節(jié)開始部分對(duì)斯普林菲爾德第五國(guó)家銀行1995年的數(shù)據(jù)集進(jìn)行簡(jiǎn)要分析,以年薪作為響應(yīng)變量,工作水平、教育水平、性別和一個(gè)虛擬變量作為與之相關(guān)的預(yù)測(cè)變量.經(jīng)典線性回歸擬合結(jié)果的殘差十分分散,甚至出現(xiàn)明顯的集群現(xiàn)象.之后我們嘗試了非線性模型,但結(jié)果并未有太大改善.這引發(fā)了我們的思考:是否存在未被觀測(cè)到或被忽略的預(yù)測(cè)變量.事實(shí)表明,在回歸分析中,的確可能存在一些不可觀測(cè)的、未被觀測(cè)到或被忽略的預(yù)測(cè)變量,而這些因子會(huì)隨機(jī)地影響響應(yīng)變量.當(dāng)給定這些因子時(shí),觀測(cè)值服從相應(yīng)的條件分布,我們定義這類現(xiàn)象為分布的隨機(jī)性.針對(duì)這類數(shù)據(jù),我們將Huber(1981)[39]提出的上期望融入到傳統(tǒng)的參數(shù)回歸中,構(gòu)造出上期望回歸模型.之后,我們還給出兩步懲罰的最大最小二乘方法,用以估計(jì)均值函數(shù)和誤差項(xiàng)的上期望.需要一提的是,在估計(jì)過程中我們需要選擇可用的觀測(cè)值來估計(jì)誤差上期望,這與我們?cè)诘谌轮羞x取部分邊際統(tǒng)計(jì)量的思想有異曲同工之妙.在一定條件下,我們通過理論可證明所得的估計(jì)量是一致漸近正態(tài)的.模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析也同樣展示了上期望回歸模型和相應(yīng)參數(shù)估計(jì)方法的良好表現(xiàn).
【圖文】:

箱線圖


對(duì)角線元素等于%剩余P邋-邋s個(gè)等于1.我們考慮r邋=邋100和s邋=邋1的情況,并對(duì)逡逑p邋=邋1,2,邋■??,120中的每一個(gè)p分別進(jìn)行實(shí)驗(yàn).對(duì)任意p,我們重復(fù)1000次模擬來計(jì)逡逑算SigClust和NewSig相應(yīng)檢驗(yàn)統(tǒng)計(jì)量的CV值,并將結(jié)果繪制成箱線圖.圖2.1右側(cè)逡逑的箱線圖表明的CV值大部分集中在區(qū)間(0.043,邋0.050)中,而左側(cè)的箱線圖表明逡逑的CV值大部分聚集在區(qū)間(0.063,邋0.088)中,有些值甚至己遠(yuǎn)離箱線圖的中心.這逡逑個(gè)案例表明,在不考慮特征值估計(jì)值的情況下,NewSig檢驗(yàn)統(tǒng)計(jì)量的大多數(shù)CV值小于逡逑SigClust的CV值.換而言之,在具有極大特征值的情況下,5CT比CJ更集中.此外,第逡逑2.2節(jié)和第2.3節(jié)中新統(tǒng)計(jì)量5(71的理論性質(zhì)也表明,NewSig方法控制第一類錯(cuò)誤的逡逑同時(shí),也提高了檢驗(yàn)功效.更多的模擬研宄以及對(duì)實(shí)際癌癥數(shù)據(jù)的分析在第2.4節(jié)和第逡逑2.5節(jié)中給出,這進(jìn)一步體現(xiàn)了邋5C7的優(yōu)異之處.逡逑現(xiàn)在我們回到之前Liu邋et邋al.邋(2008)丨47]給出的那個(gè)極端聚類的例子中

顯著性檢驗(yàn),箱線圖,模擬案例,對(duì)角線元素


Cl邐BCI逡逑圖2.1:邋CV^和CVs0r的箱線圖逡逑用.我們將在第2.2節(jié)中表明BCT的CV值在理論上明顯小于CT的CV值,這確保逡逑5CT的分散程度低于C7,因此?會(huì)更加穩(wěn)定.逡逑現(xiàn)在,我們暫時(shí)通過一個(gè)簡(jiǎn)單的模擬案例來說明這一觀點(diǎn).首先從iV(0,邋_D)多元逡逑高斯分布中隨機(jī)生成n個(gè)樣本觀測(cè)值.分布的協(xié)方差矩陣_D是一個(gè)對(duì)角陣,其中s個(gè)逡逑對(duì)角線元素等于%剩余P邋-邋s個(gè)等于1.我們考慮r邋=邋100和s邋=邋1的情況,并對(duì)逡逑p邋=邋1,2,邋■??,,120中的每一個(gè)p分別進(jìn)行實(shí)驗(yàn).對(duì)任意p,我們重復(fù)1000次模擬來計(jì)逡逑算SigClust和NewSig相應(yīng)檢驗(yàn)統(tǒng)計(jì)量的CV值,并將結(jié)果繪制成箱線圖.圖2.1右側(cè)逡逑的箱線圖表明的CV值大部分集中在區(qū)間(0.043
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:O212.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳紅彬;;基于大數(shù)據(jù)的高維數(shù)據(jù)挖掘探究[J];通訊世界;2018年03期

2 于君;范文彬;杜永軍;;智能電網(wǎng)中高維數(shù)據(jù)聚類方法研究[J];智能計(jì)算機(jī)與應(yīng)用;2016年01期

3 張凌潔;;淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期

4 李澤安;;淺談高維數(shù)據(jù)挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期

5 宋懷波;何東健;;面向精細(xì)農(nóng)業(yè)的高維數(shù)據(jù)本征維數(shù)估計(jì)方法研究進(jìn)展[J];中國(guó)科學(xué):信息科學(xué);2010年S1期

6 張航;PP型擬合優(yōu)度檢驗(yàn)[J];系統(tǒng)科學(xué)與數(shù)學(xué);1988年03期

7 余立蘋;李云飛;朱世行;;基于高維數(shù)據(jù)流的異常檢測(cè)算法[J];計(jì)算機(jī)工程;2018年01期

8 虞翔;李青;;大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘在入侵檢測(cè)中的有效應(yīng)用[J];電腦編程技巧與維護(hù);2016年22期

9 宋玉林;訾雪e

本文編號(hào):2674057


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/2674057.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶491e0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com