基因水平的疾病遺傳關(guān)聯(lián)分析方法研究
發(fā)布時(shí)間:2017-10-27 00:02
本文關(guān)鍵詞:基因水平的疾病遺傳關(guān)聯(lián)分析方法研究
更多相關(guān)文章: 遺傳關(guān)聯(lián)數(shù)據(jù) Monte-Carlo模擬 基因水平的關(guān)聯(lián)分析 網(wǎng)絡(luò)分析 全基因組關(guān)聯(lián)分析
【摘要】:目的: 基于單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)的全基因組關(guān)聯(lián)研究(Genome wide association study,GWAS)能夠有效地挖掘多基因復(fù)雜性狀疾病的易感基因,在國(guó)內(nèi)外的疾病遺傳關(guān)聯(lián)研究中已得到了廣泛應(yīng)用。但由于單純SNP的關(guān)聯(lián)分析存在一些缺點(diǎn)和限制,近年來(lái)更多研究開(kāi)始發(fā)展基因水平的疾病遺傳關(guān)聯(lián)分析方法。本研究目的是發(fā)展一種新的基于連鎖不平衡(Linkagedisequilibrium,LD)結(jié)構(gòu)的基因水平關(guān)聯(lián)分析方法,利用Monte Carlo數(shù)據(jù)模擬方法對(duì)其及其它幾種常用的基因水平的關(guān)聯(lián)分析方法進(jìn)行評(píng)價(jià),了解各種方法的優(yōu)缺點(diǎn)和適用條件,并將新方法應(yīng)用到真實(shí)的冠心病GWAS數(shù)據(jù),挖掘冠心病相關(guān)的易感網(wǎng)絡(luò)模塊和基因,為復(fù)雜性狀疾病的發(fā)病機(jī)制研究提供新線(xiàn)索。 方法: 1、利用Monte Carlo方法模擬基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)。首先假定基因型數(shù)據(jù)為連續(xù)型變量數(shù)據(jù)且服從多元正態(tài)分布,根據(jù)預(yù)先設(shè)定好的相關(guān)矩陣即LD系數(shù)矩陣(初始LD陣),產(chǎn)生連續(xù)型模擬數(shù)據(jù);然后根據(jù)預(yù)設(shè)的病例組和對(duì)照組的基因型頻率將模擬數(shù)據(jù)分段離散化,產(chǎn)生符合各項(xiàng)預(yù)設(shè)條件的遺傳模擬數(shù)據(jù),且基因型模擬數(shù)據(jù)的相關(guān)陣等于初始LD陣。 2、利用Monte Carlo模擬數(shù)據(jù)評(píng)價(jià)基因水平的關(guān)聯(lián)分析方法。我們發(fā)展了一種新的基于LD結(jié)構(gòu)的基因水平關(guān)聯(lián)分析方法(LD-Fisher):首先利用單倍型分析算法對(duì)基因的LD結(jié)構(gòu)進(jìn)行分析,獲得基因上相對(duì)獨(dú)立的單倍域,并獲得每個(gè)單倍域中關(guān)聯(lián)最顯著的SNP,然后利用Fisher組合法獲得基因水平的整合分析結(jié)果。我們根據(jù)病例組和對(duì)照組的等位基因頻率、SNP與疾病之間的關(guān)聯(lián)系數(shù)、SNP數(shù)量、單倍域數(shù)量、易感SNP數(shù)量、SNP的LD結(jié)構(gòu)等參數(shù),采用Monte Carlo方法對(duì)參數(shù)的各種預(yù)設(shè)值和組合進(jìn)行模擬,利用這些模擬數(shù)據(jù)評(píng)價(jià)多種基因水平的關(guān)聯(lián)分析方法的統(tǒng)計(jì)功效。 3、應(yīng)用基因水平的關(guān)聯(lián)分析方法分析冠心病GWAS數(shù)據(jù),挖掘冠心病易感網(wǎng)絡(luò)模塊和基因。在對(duì)冠心病GWAS數(shù)據(jù)基因水平的關(guān)聯(lián)分析基礎(chǔ)上,構(gòu)建冠心病相關(guān)生物信息網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)模塊和特征進(jìn)行分析,挖掘冠心病相關(guān)的易感網(wǎng)絡(luò)模塊和基因。 結(jié)果: 1、利用SAS程序我們實(shí)現(xiàn)了基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)的Monte Carlo模擬,結(jié)果顯示,模擬遺傳數(shù)據(jù)的等位基因頻率和LD結(jié)構(gòu)等參數(shù)均非常接近預(yù)先設(shè)定的參數(shù)。 2、在幾種基因水平的關(guān)聯(lián)分析方法中, Logistic主成分分析法(Principalcomponent analysis-logistic regression,,PCA-logistic)和我們發(fā)展的LD-Fisher表現(xiàn)最為突出。PCA-logistic在設(shè)定較高累積貢獻(xiàn)率參數(shù)95%(PCA95)后,無(wú)論單倍域數(shù)目多少,其統(tǒng)計(jì)功效都接近1,而降低累積貢獻(xiàn)率閾值為85%(PCA85)后模擬結(jié)果并不理想;LD-Fisher克服了Fisher組合法所存在的受到SNP的LD結(jié)構(gòu)影響的問(wèn)題,在1個(gè)單倍域的情況下統(tǒng)計(jì)功效接近1,比PCA95略低,超過(guò)PCA85;而在多個(gè)單倍域的情況下,達(dá)到PCA95的統(tǒng)計(jì)功效。 3、通過(guò)對(duì)冠心病的基因水平關(guān)聯(lián)分析(LD-Fisher)和生物網(wǎng)絡(luò)分析發(fā)現(xiàn)了四個(gè)冠心病的易感網(wǎng)絡(luò)模塊,其中最重要的一個(gè)模塊包含15個(gè)相互連通的的子功能模塊。我們發(fā)現(xiàn)模塊中存在兩個(gè)重要的冠心病易感基因MAPK10(OR=32.5,P3.51011)和COL4A2(OR=2.7,P2.81010),它們得到了其他基因水平的關(guān)聯(lián)分析方法和GWAS數(shù)據(jù)集的獨(dú)立驗(yàn)證。 結(jié)論: 1、我們所發(fā)展的基因水平的遺傳關(guān)聯(lián)數(shù)據(jù)的Monte Carlo模擬方法能夠產(chǎn)生滿(mǎn)足預(yù)設(shè)參數(shù)的模擬數(shù)據(jù),并用于基因水平的關(guān)聯(lián)分析方法的評(píng)價(jià)分析,也可以用于其他遺傳關(guān)聯(lián)分析方法的評(píng)價(jià)。 2、我們所發(fā)展的基因水平關(guān)聯(lián)分析方法LD-Fisher不僅具有和PCA-logistic相近的很高的統(tǒng)計(jì)功效,而且因?yàn)槠渚哂兄庇^(guān)簡(jiǎn)潔的遺傳學(xué)解釋?zhuān)梢杂糜诙嗷驈?fù)雜疾病的基因水平的關(guān)聯(lián)分析。 3、通過(guò)對(duì)冠心病真實(shí)GWAS數(shù)據(jù)的應(yīng)用,我們發(fā)現(xiàn)基因水平的關(guān)聯(lián)分析方法和生物網(wǎng)絡(luò)分析方法能夠改善目前單純應(yīng)用SNP關(guān)聯(lián)分析所存在的不足,促進(jìn)多基因復(fù)雜疾病的易感性研究和疾病分子機(jī)制的闡明。
【關(guān)鍵詞】:遺傳關(guān)聯(lián)數(shù)據(jù) Monte-Carlo模擬 基因水平的關(guān)聯(lián)分析 網(wǎng)絡(luò)分析 全基因組關(guān)聯(lián)分析
【學(xué)位授予單位】:寧波大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:R394
【目錄】:
- 摘要4-7
- Abstract7-11
- 引言11-13
- 第一部分 遺傳關(guān)聯(lián)數(shù)據(jù)的模擬及 SAS 實(shí)現(xiàn)13-24
- 1 背景和目的13-14
- 2 材料和方法14-16
- 2.1 模擬原理14
- 2.2 初始 LD 陣14
- 2.3 連續(xù)型基因型數(shù)據(jù)的模擬14-15
- 2.4 基因型頻率的設(shè)定15
- 2.5 連續(xù)型基因型數(shù)據(jù)的離散化15-16
- 2.6 產(chǎn)生批量模擬數(shù)據(jù)16
- 3 結(jié)果分析16-22
- 3.1 模擬一個(gè)單倍域的遺傳關(guān)聯(lián)數(shù)據(jù)16-18
- 3.2 模擬兩個(gè)單倍域的遺傳關(guān)聯(lián)數(shù)據(jù)18-22
- 4 討論22-24
- 第二部分 利用模擬數(shù)據(jù)評(píng)價(jià)基因水平的關(guān)聯(lián)分析方法24-32
- 1 背景和目的24
- 2 材料和方法24-26
- 2.1 遺傳關(guān)聯(lián)數(shù)據(jù)的模擬24-25
- 2.2 常用的基因水平的關(guān)聯(lián)分析方法25-26
- 2.3 我們發(fā)展的基因水平的關(guān)聯(lián)分析方法(LDFisher)26
- 3 結(jié)果分析26-30
- 4 討論30-32
- 第三部分 應(yīng)用基因水平的關(guān)聯(lián)分析方法挖掘冠心病易感網(wǎng)絡(luò)模塊和易感基因32-44
- 1 背景和目的32
- 2 材料和方法32-35
- 2.1 冠心病的基因水平的關(guān)聯(lián)分析(LDFisher)32-33
- 2.2 構(gòu)建和分析冠心病的蛋白質(zhì)相互作用網(wǎng)絡(luò)33-34
- 2.3 通過(guò)最顯著 SNP 法和 VEGAS 驗(yàn)證功能模塊中的易感基因34
- 2.4 通過(guò) CARDIoGRAMplusC4D 數(shù)據(jù)集驗(yàn)證功能模塊和易感基因34-35
- 2.5 通過(guò)我們基于 GWAS 的網(wǎng)絡(luò)分析驗(yàn)證之前報(bào)道的冠心病易感基因35
- 3 結(jié)果分析35-42
- 3.1 冠心病的 PPI 網(wǎng)絡(luò)和易感模塊35-38
- 3.2 通過(guò)文獻(xiàn)檢索驗(yàn)證結(jié)果38-41
- 3.3 通過(guò)最顯著 SNP 法和 VEGAS 進(jìn)行驗(yàn)證41
- 3.4 通過(guò)獨(dú)立的數(shù)據(jù)集進(jìn)行驗(yàn)證41
- 3.5 驗(yàn)證之前報(bào)道的冠心病易感基因41-42
- 4 討論42-44
- 參考文獻(xiàn)44-47
- 附錄A 綜述47-55
- 參考文獻(xiàn)52-55
- 附錄B 程序代碼55-69
- 在學(xué)研究成果69-70
- 致謝70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李桂源,潘世[
本文編號(hào):1101012
本文鏈接:http://sikaile.net/yixuelunwen/shiyanyixue/1101012.html
最近更新
教材專(zhuān)著