聚類Knockoff方法控制FDR的高維變量選擇
發(fā)布時(shí)間:2021-06-12 23:48
近年來(lái),隨著科學(xué)技術(shù)的進(jìn)步,收集到數(shù)據(jù)的維數(shù)也越來(lái)越大。因此如何有效地從海量數(shù)據(jù)中挖掘出有用的信息逐漸成為科學(xué)研究的熱點(diǎn)問(wèn)題。尤其是在生物統(tǒng)計(jì)以及基因研究的領(lǐng)域,數(shù)據(jù)的維度通常都是遠(yuǎn)高于樣本數(shù)量(n>>p),又稱之為超高維數(shù)據(jù)。目前統(tǒng)計(jì)學(xué)中的多數(shù)方法以及很多機(jī)器學(xué)習(xí)中的算法只能適用于低維數(shù)據(jù),而高維以及超高維領(lǐng)域的研究卻相對(duì)較少。在超高維的研究范疇中,通常會(huì)先將數(shù)據(jù)的維度降低到可以處理的范圍,然后再進(jìn)行下一步的運(yùn)算,因此如何提高變量選擇的準(zhǔn)確性就成為了一個(gè)亟待解決的問(wèn)題。其中,多重檢驗(yàn)就是解決這一困難的方法之一,而近年來(lái)對(duì)于這個(gè)領(lǐng)域的研究較少。多重檢驗(yàn)的方法最常用的是通過(guò)控制整體錯(cuò)誤率(FWER)或錯(cuò)誤發(fā)現(xiàn)率(FDR)來(lái)控制第一類錯(cuò)誤率,即在FWER或FDR不超過(guò)某一閾值的條件下進(jìn)行變量選擇。Barber和Candes(2014)[1]首次提出了采用knockoff的方法來(lái)控制FDR,并發(fā)現(xiàn)其檢驗(yàn)功效比經(jīng)典BH方法更好,在多重檢驗(yàn)這一領(lǐng)域產(chǎn)生了一定的突破。而這種方法只能應(yīng)用在低維數(shù)據(jù)當(dāng)中,即約束了n<p,這一約束使其不能很好的在生物統(tǒng)計(jì)以及其他一些高維領(lǐng)域的得到應(yīng)用。...
【文章來(lái)源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1:?LASSO優(yōu)化過(guò)程的二維映射圖??
圖2:原始變量和knockoff變量的交換性??
圖3:?knockoff變量選擇結(jié)果??
【參考文獻(xiàn)】:
期刊論文
[1]基于DNA微陣列數(shù)據(jù)的癌癥分類問(wèn)題研究進(jìn)展[J]. 于化龍,顧國(guó)昌,趙靖,劉海波,沈晶. 計(jì)算機(jī)科學(xué). 2010(10)
[2]一種SRBCT亞型識(shí)別與特征基因選取方法[J]. 何愛(ài)香,朱云華,安凱. 計(jì)算機(jī)工程與應(yīng)用. 2007(03)
[3]Permutation Test在假設(shè)檢驗(yàn)中的應(yīng)用[J]. 荀鵬程,趙楊,易洪剛,柏建嶺,于浩,陳峰. 數(shù)理統(tǒng)計(jì)與管理. 2006(05)
[4]微陣列數(shù)據(jù)的多重比較[J]. 荀鵬程,趙楊,柏建嶺,易洪剛,于浩,陳峰. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2006(01)
[5]基因微陣列數(shù)據(jù)的聚類分析算法研究[J]. 馬煜,陳莉,歐立奇. 計(jì)算機(jī)工程與應(yīng)用. 2006(05)
[6]小圓藍(lán)細(xì)胞瘤預(yù)測(cè)模型研究[J]. 阮曉鋼,李鵬. 北京工業(yè)大學(xué)學(xué)報(bào). 2005(01)
[7]基于基因表達(dá)譜的SRBCT分類研究[J]. 朱云華,李穎新,阮曉鋼. 計(jì)算機(jī)工程與應(yīng)用. 2005(01)
[8]數(shù)據(jù)挖掘中變量聚類方法的應(yīng)用研究[J]. 湯效琴,戴汝源,徐琪. 計(jì)算機(jī)工程與應(yīng)用. 2004(24)
[9]DNA微陣列(或芯片)技術(shù)原理及應(yīng)用[J]. 何志巍,姚開(kāi)泰. 生物化學(xué)與生物物理進(jìn)展. 1999(05)
碩士論文
[1]基于FDR控制的多重假設(shè)檢驗(yàn)及其應(yīng)用研究[D]. 張黎.北京工業(yè)大學(xué) 2017
[2]多重檢驗(yàn)技術(shù)及其在微陣列數(shù)據(jù)分析中的應(yīng)用[D]. 陳昊.華東交通大學(xué) 2016
[3]超高維數(shù)據(jù)的特征篩選研究[D]. 李星祥.南京信息工程大學(xué) 2016
[4]多重檢驗(yàn)相關(guān)研究及其在生物數(shù)據(jù)上的應(yīng)用[D]. 李偉.山東大學(xué) 2014
[5]多重假設(shè)檢驗(yàn)中錯(cuò)誤率控制過(guò)程的分析[D]. 楊柳.黑龍江大學(xué) 2009
[6]生物統(tǒng)計(jì)中多重檢驗(yàn)問(wèn)題的分析研究[D]. 姜凌.山東大學(xué) 2008
[7]多重假設(shè)檢驗(yàn)問(wèn)題中關(guān)于三種錯(cuò)誤測(cè)度-FWER,F(xiàn)DR和pFDR的討論[D]. 裴艷波.東北師范大學(xué) 2005
[8]基于基因表達(dá)譜的小圓藍(lán)細(xì)胞瘤亞型識(shí)別研究[D]. 朱云華.北京工業(yè)大學(xué) 2005
本文編號(hào):3226546
【文章來(lái)源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1:?LASSO優(yōu)化過(guò)程的二維映射圖??
圖2:原始變量和knockoff變量的交換性??
圖3:?knockoff變量選擇結(jié)果??
【參考文獻(xiàn)】:
期刊論文
[1]基于DNA微陣列數(shù)據(jù)的癌癥分類問(wèn)題研究進(jìn)展[J]. 于化龍,顧國(guó)昌,趙靖,劉海波,沈晶. 計(jì)算機(jī)科學(xué). 2010(10)
[2]一種SRBCT亞型識(shí)別與特征基因選取方法[J]. 何愛(ài)香,朱云華,安凱. 計(jì)算機(jī)工程與應(yīng)用. 2007(03)
[3]Permutation Test在假設(shè)檢驗(yàn)中的應(yīng)用[J]. 荀鵬程,趙楊,易洪剛,柏建嶺,于浩,陳峰. 數(shù)理統(tǒng)計(jì)與管理. 2006(05)
[4]微陣列數(shù)據(jù)的多重比較[J]. 荀鵬程,趙楊,柏建嶺,易洪剛,于浩,陳峰. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2006(01)
[5]基因微陣列數(shù)據(jù)的聚類分析算法研究[J]. 馬煜,陳莉,歐立奇. 計(jì)算機(jī)工程與應(yīng)用. 2006(05)
[6]小圓藍(lán)細(xì)胞瘤預(yù)測(cè)模型研究[J]. 阮曉鋼,李鵬. 北京工業(yè)大學(xué)學(xué)報(bào). 2005(01)
[7]基于基因表達(dá)譜的SRBCT分類研究[J]. 朱云華,李穎新,阮曉鋼. 計(jì)算機(jī)工程與應(yīng)用. 2005(01)
[8]數(shù)據(jù)挖掘中變量聚類方法的應(yīng)用研究[J]. 湯效琴,戴汝源,徐琪. 計(jì)算機(jī)工程與應(yīng)用. 2004(24)
[9]DNA微陣列(或芯片)技術(shù)原理及應(yīng)用[J]. 何志巍,姚開(kāi)泰. 生物化學(xué)與生物物理進(jìn)展. 1999(05)
碩士論文
[1]基于FDR控制的多重假設(shè)檢驗(yàn)及其應(yīng)用研究[D]. 張黎.北京工業(yè)大學(xué) 2017
[2]多重檢驗(yàn)技術(shù)及其在微陣列數(shù)據(jù)分析中的應(yīng)用[D]. 陳昊.華東交通大學(xué) 2016
[3]超高維數(shù)據(jù)的特征篩選研究[D]. 李星祥.南京信息工程大學(xué) 2016
[4]多重檢驗(yàn)相關(guān)研究及其在生物數(shù)據(jù)上的應(yīng)用[D]. 李偉.山東大學(xué) 2014
[5]多重假設(shè)檢驗(yàn)中錯(cuò)誤率控制過(guò)程的分析[D]. 楊柳.黑龍江大學(xué) 2009
[6]生物統(tǒng)計(jì)中多重檢驗(yàn)問(wèn)題的分析研究[D]. 姜凌.山東大學(xué) 2008
[7]多重假設(shè)檢驗(yàn)問(wèn)題中關(guān)于三種錯(cuò)誤測(cè)度-FWER,F(xiàn)DR和pFDR的討論[D]. 裴艷波.東北師范大學(xué) 2005
[8]基于基因表達(dá)譜的小圓藍(lán)細(xì)胞瘤亞型識(shí)別研究[D]. 朱云華.北京工業(yè)大學(xué) 2005
本文編號(hào):3226546
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3226546.html
最近更新
教材專著