高維基因數(shù)據(jù)中的統(tǒng)計方法
本文關鍵詞: 掃描統(tǒng)計量 全基因組關聯(lián)分析 漸近性質(zhì) 廣義線性模型 變量選擇 出處:《清華大學》2016年博士論文 論文類型:學位論文
【摘要】:人類遺傳學研究的一個重要目標是發(fā)現(xiàn)和識別人類疾病的遺傳基礎,F(xiàn)有的檢驗方法是檢驗表型和指定區(qū)域中遺傳變異體的關聯(lián)性,例如檢驗疾病和基因間的相關性。然而由于全基因組測序數(shù)據(jù)中包含大量的基因間區(qū)段,因此序列中的分析單位并沒有很清晰的界定。鑒于此,我們提出了一種基于二次掃描統(tǒng)計量的檢驗方法。該方法通過連續(xù)掃描全基因組序列來檢驗信號區(qū)域的存在和位置。我們提出的方法考慮到了以下三種情況:由連鎖不平衡引起的單核苷酸多態(tài)性間的相關性,在信號區(qū)域中同時出現(xiàn)致病性和非致病性突變,以及在信號區(qū)域中同時出現(xiàn)正效應和負效應致病性突變。本文給出了所提出掃描方法的漸近性質(zhì)。我們得到了可以漸近控制族錯誤率的理論閾值并表明在一定的正則性條件下,所提出的方法能以趨于1的概率選擇出確切的信號區(qū)間。我們通過模擬研究來評估上述方法的有限樣本性質(zhì)。模擬結(jié)果顯示,我們的方法在以下三種情況下優(yōu)于現(xiàn)有的其他方法:信號區(qū)域中的突變相關,信號區(qū)域中出現(xiàn)非致病性突變,信號區(qū)域中同時出現(xiàn)正效應和負效應致病性突變。我們將所提出的方法應用到一組肺癌全基因組關聯(lián)研究中,得到了與肺癌相關的遺傳變異區(qū)域。在遺傳學研究中,人們關心的另一個重要問題是估計所選變量的效應量。從高維基因數(shù)據(jù)中選擇出一組與疾病相關的變量同時基于這些變量建立合理的預測模型是一項非常具有挑戰(zhàn)性的任務。合理的變量選擇和準確的效應量估計可以幫助我們建立易于解釋且有效的預測模型。懲罰似然法提供了一種可以同時進行變量選擇和參數(shù)估計的統(tǒng)計方法。受此啟發(fā),本文提出了一種在廣義線性模型中利用SELO懲罰來進行變量選擇和參數(shù)估計的方法,我們稱之為SELO-GLM。SELO懲罰是一種近似非光滑L0懲罰的光滑懲罰函數(shù)。在文章中,我們給出SELOGLM的高效算法,同時證明了SELO-GLM估計的Oracle性質(zhì)。在較寬泛的正則性條件下,我們指出應用BIC選擇調(diào)整參數(shù),SELO-GLM/BIC能以趨于1的概率選擇出正確的模型。文章中應用數(shù)值模擬的方法比較了SELO-GLM和現(xiàn)有的幾種似然懲罰方法。模擬結(jié)果指出,在變量個數(shù)較多和信號較弱的情況下,SELO-GLM的有限樣本性質(zhì)要優(yōu)于現(xiàn)有的其他方法。最后我們應用SELO-GLM分析了一組乳腺癌基因數(shù)據(jù)并從中選出了與乳腺癌發(fā)生率相關的SNPs。
[Abstract]:An important objective of human genetics research is to identify and identify the genetic basis of human diseases. Existing testing methods examine the association of phenotypes with genetic variants in designated regions. For example, testing the correlation between disease and genes. However, because the whole genome sequencing data contain a large number of intergenic segments, the units of analysis in the sequence are not clearly defined. We propose a test method based on quadratic scan statistics. This method checks the existence and location of the signal region by continuously scanning the whole genome sequence. The proposed method takes into account the following three situations:. The association of single nucleotide polymorphisms caused by linkage disequilibrium, Both pathogenicity and non-pathogenicity mutations occur in the signal region. In this paper, the asymptotic properties of the proposed scanning method are given. The theoretical threshold of error rate of asymptotically controlled families is obtained and it is shown that under certain regularity conditions, The proposed method can select the exact signal interval with the probability of approaching 1. We evaluate the finite sample properties of the above method by simulation study. The simulation results show that, Our method is superior to other existing methods in three cases: mutation correlation in the signal region, non-pathogenic mutation in the signal region, Both positive and negative mutations occur in the signal region. We applied the proposed method to a whole genome association study of lung cancer and obtained genetic variation regions associated with lung cancer. Another important concern is to estimate the effect of selected variables. It is highly selective to select a set of disease-related variables from high-dimensional genetic data and to build a reasonable prediction model based on these variables. Reasonable variable selection and accurate estimation of effect quantities can help us to establish an easily explained and effective prediction model. The penalty likelihood method provides a system for variable selection and parameter estimation at the same time. Method of calculation. Inspired by this, In this paper, we propose a method of variable selection and parameter estimation using SELO penalty in generalized linear model. We call SELO-GLM.SELO penalty a smooth penalty function that approximates non-smooth L0 penalty. We give an efficient algorithm for SELOGLM and prove the Oracle property of SELO-GLM estimator. We point out that the correct model can be selected with the probability of approaching 1 by using BIC to select the adjustment parameter. In this paper, we use numerical simulation to compare SELO-GLM with several existing likelihood penalty methods. The simulation results show that, The finite sample properties of SELO-GLM are superior to those of other methods when the number of variables and signals are weak. Finally, we use SELO-GLM to analyze a group of breast cancer gene data and select the SNPs related to the incidence of breast cancer.
【學位授予單位】:清華大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:O212
【相似文獻】
相關期刊論文 前10條
1 戴伯新;;回歸變量選擇中的數(shù)據(jù)診斷[J];應用概率統(tǒng)計;1992年04期
2 楊麗霞;魏立力;;基于粗糙集方法的有序尺度變量選擇[J];寧夏大學學報(自然科學版);2009年02期
3 趙宇;黃思明;;帶有變量選擇過程的分類模型誤差分析[J];數(shù)學的實踐與認識;2010年17期
4 樊亞莉;徐群芳;;穩(wěn)健的變量選擇方法及其應用[J];上海理工大學學報;2013年03期
5 陶靖軒;多元分析中的變量選擇問題研究[J];中國計量學院學報;2001年01期
6 李樹軍,紀宏金;對應聚類分析與變量選擇[J];地球物理學進展;2005年03期
7 陳黎明;趙永紅;;轉(zhuǎn)換函數(shù)未知時轉(zhuǎn)換模型的變量選擇[J];四川大學學報(自然科學版);2011年05期
8 劉民千,張潤楚;超飽和設計的變量選擇[J];南開大學學報(自然科學版);2000年03期
9 王進;;聚類分析中的距離與變量選擇[J];山西財經(jīng)大學學報;2007年S1期
10 張波;方國斌;;高維面板數(shù)據(jù)降維與變量選擇方法研究[J];統(tǒng)計與信息論壇;2012年06期
相關會議論文 前6條
1 張俊華;方偉武;;調(diào)查表分析中變量選擇的一些方法(英文)[A];中國運籌學會第六屆學術(shù)交流會論文集(下卷)[C];2000年
2 李洪東;梁逸曾;;高維數(shù)據(jù)變量選擇新方法研究[A];中國化學會第27屆學術(shù)年會第15分會場摘要集[C];2010年
3 李慷;席裕庚;;復雜過程系統(tǒng)中操作變量選擇與定位的方法研究[A];1993年控制理論及其應用年會論文集[C];1993年
4 云永歡;王為婷;梁逸曾;;迭代的保留有信息變量來篩選最佳變量子集的一種多元校正變量選擇方法[A];中國化學會第29屆學術(shù)年會摘要集——第19分會:化學信息學與化學計量學[C];2014年
5 徐登;范偉;梁逸曾;;紫外光譜結(jié)合變量選擇和偏最小二乘回歸同時測定水中重金屬鎘、鋅、鈷[A];中國化學會第29屆學術(shù)年會摘要集——第19分會:化學信息學與化學計量學[C];2014年
6 梁逸曾;李洪東;許青松;曹東升;張志敏;;灰色化學建模與模型集群分析——兼論過擬合、穩(wěn)健估計、變量選擇與模型評價[A];中國化學會第27屆學術(shù)年會第15分會場摘要集[C];2010年
相關博士學位論文 前10條
1 呂晶;幾類半?yún)?shù)回歸模型的穩(wěn)健估計與變量選擇[D];重慶大學;2015年
2 王康寧;幾類高維復雜數(shù)據(jù)半?yún)?shù)模型的結(jié)構(gòu)識別、變量選擇及穩(wěn)健估計[D];山東大學;2016年
3 李子林;高維基因數(shù)據(jù)中的統(tǒng)計方法[D];清華大學;2016年
4 王大榮;分散度量模型中的變量選擇[D];北京工業(yè)大學;2009年
5 王明秋;高維數(shù)據(jù)下若干回歸模型的變量選擇問題研究[D];大連理工大學;2012年
6 劉吉彩;生存數(shù)據(jù)統(tǒng)計模型的變量選擇方法[D];華東師范大學;2014年
7 樊亞莉;穩(wěn)健變量選擇方法的若干問題研究[D];復旦大學;2013年
8 唐凱臨;變量選擇和變換的新方法研究[D];同濟大學;2008年
9 董瑩;高維共線性統(tǒng)計模型的參數(shù)估計與變量選擇[D];大連理工大學;2014年
10 葉飛;相對誤差準則下的估計理論和變量選擇方法的研究[D];清華大學;2013年
相關碩士學位論文 前10條
1 趙冬琦;基于變量選擇的股指期貨對股票市場影響的實證研究[D];蘭州大學;2015年
2 程勇;多水平模型的變量選擇在農(nóng)戶人均收入數(shù)據(jù)中的應用[D];云南財經(jīng)大學;2015年
3 鄧秋玲;SCAD和ADS方法在比例風險模型中的應用[D];廣西大學;2015年
4 韋新星;幾種變量選擇方法在Cox模型中的應用[D];廣西大學;2015年
5 王唯;部分線性模型的變量選擇問題研究[D];湘潭大學;2015年
6 潘玉婷;含多元非線性結(jié)構(gòu)的高維Logistic模型的同時變量選擇及半?yún)?shù)估計[D];中國科學技術(shù)大學;2016年
7 劉丹;Cox模型及變系數(shù)Cox模型中的變量選擇問題研究[D];暨南大學;2016年
8 羅昊;基于自適應LASSO變量選擇的Logistic信用評分模型研究[D];東南大學;2016年
9 王雙寶;基于變量選擇偏差的變量選擇過程[D];電子科技大學;2016年
10 溫征;縱向和生存數(shù)據(jù)聯(lián)合模型的一個變量選擇問題[D];云南師范大學;2016年
,本文編號:1513063
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1513063.html