主成分分析用于校正人群分層時(shí)位點(diǎn)選擇策略的探討
發(fā)布時(shí)間:2018-03-16 02:12
本文選題:全基因組關(guān)聯(lián)研究 切入點(diǎn):千人基因組計(jì)劃 出處:《南京醫(yī)科大學(xué)》2015年碩士論文 論文類型:學(xué)位論文
【摘要】:全基因組關(guān)聯(lián)研究(Genome-wide association study,GWAS)已經(jīng)成功鑒別出了許多與復(fù)雜疾病(complex disease)/可測性狀(observable trait)有關(guān)的易感性位點(diǎn)。眾所周知,在復(fù)雜疾病的全基因組關(guān)聯(lián)研究中,人群分層(population stratification)現(xiàn)象是一個(gè)重要的問題。如果這種混雜效應(yīng)沒有得到適當(dāng)?shù)目刂?可能會(huì)增加結(jié)果的假陽性率,導(dǎo)致虛假關(guān)聯(lián)。因此,在GWAS中充分考慮人群遺傳結(jié)構(gòu),控制人群分層是十分必要的。目前,用于全基因組關(guān)聯(lián)研究中控制人群分層的方法有很多,比如:主成分分析(principal component analysis,PCA),基因組對(duì)照(genomic control,GC),混合模型(mixed models)等。PCA由Hotelling于1933年提出,是經(jīng)典的多元統(tǒng)計(jì)分析方法之一。該方法通過將高維空間的問題投影到低維空間,在損失少許信息的基礎(chǔ)上,最終提取到最有效的信息。在GWAS中,PCA被廣泛用于檢測人群亞結(jié)構(gòu)、校正人群分層和對(duì)人類歷史變遷做出合理的推論等方面。本研究利用“千人基因組計(jì)劃”中的低覆蓋度全基因組測序數(shù)據(jù)(low-coverage whole genome sequencing dataset)與高覆蓋度全基因組測序數(shù)據(jù)(high-coverage whole genome sequencing dataset),探討基于不同種類變異位點(diǎn)構(gòu)建主成分是否可以用于識(shí)別不同大陸人群(European,Asian和African),尤其是識(shí)別遺傳結(jié)構(gòu)上更為相近的European和Asian。最終旨在提供全基因組關(guān)聯(lián)研究中校正人群分層時(shí)位點(diǎn)選擇的策略,同時(shí)進(jìn)一步闡明各個(gè)大陸人群歷史起源及變遷過程。研究內(nèi)容包括以下三個(gè)方面:(1)基于“1000genome”網(wǎng)站上下載到的2010年8月份完成的低覆蓋度全基因組測序(low-coveragewgs)數(shù)據(jù),首先利用其中的1號(hào)染色體數(shù)據(jù),將不同種族人群之間的變異位點(diǎn)進(jìn)行匹配以得到共同的位點(diǎn),然后將共有的變異位點(diǎn)進(jìn)行分類,分為常見變異(commonvariants,cv),低頻變異(low-frequencyvariants,lfv)和罕見變異(rarevariants,rv)。之后,基于每一種變異位點(diǎn)以及它們的組合構(gòu)建主成分,來檢測利用不同位點(diǎn)構(gòu)建主成分時(shí)用于人群分層的效果。(2)基于以上low-coveragewgs數(shù)據(jù)中所有染色體數(shù)據(jù),首先針對(duì)每條染色體上不同種族人群間的位點(diǎn)進(jìn)行匹配得到相同位點(diǎn),然后將22條染色體的位點(diǎn)進(jìn)行整合得到三個(gè)人群的全基因組共有變異位點(diǎn)數(shù)據(jù),將整合后的變異位點(diǎn)進(jìn)行分類,分為cv,lfv與rv。最終,基于每一種變異位點(diǎn)以及它們的組合構(gòu)建主成分,探索利用不同位點(diǎn)構(gòu)建主成分時(shí)用于人群分層的效果。(3)基于“1000genome”網(wǎng)站上下載到的2011年6月份完成的高覆蓋度全基因組測序(high-coveragewgs)數(shù)據(jù),利用其中五條染色體數(shù)據(jù)(1號(hào),5號(hào),10號(hào),15號(hào)與20號(hào)染色體),其余數(shù)據(jù)預(yù)處理步驟及構(gòu)建主成分的方式均與以上相同。本研究的主要結(jié)果是:(1)low-coveragewgs數(shù)據(jù)中1號(hào)染色體結(jié)果:基于cvs或lfvs所構(gòu)建的前兩個(gè)主成分便能夠很好的將eur、asn和afr人群分開,cvs的表現(xiàn)稍優(yōu)于lfvs,但rvs的效果并不理想。除此之外,基于不同組合的位點(diǎn)構(gòu)建主成分,即cvs+lfvs、cvs+rvs和cvs+lfvs+rvs,三者識(shí)別不同種族的能力與單獨(dú)利用cvs效果相近,但相對(duì)于單獨(dú)利用lfvs有明顯的改善。與此同時(shí),選擇以上效果最優(yōu)的cvs用于每個(gè)洲的亞群分層,發(fā)現(xiàn)其能夠較好的識(shí)別亞群遺傳結(jié)構(gòu),尤其是對(duì)于afr的亞群分層。(2)low-coverage WGS數(shù)據(jù)中所有染色體結(jié)果:與以上的結(jié)果一致。但值得一提的是,在利用全基因組數(shù)據(jù)之后,每種變異位點(diǎn)進(jìn)行人群分層的效果有了進(jìn)一步提升。且CVs用于亞群分層的結(jié)果也有了進(jìn)一步的提升。以上兩種結(jié)果都可以從人群分層的定量結(jié)果中獲得。(3)high-coverage WGS數(shù)據(jù)中五條染色體結(jié)果:與以上的結(jié)果基本一致。但值得一提的是,被分開的每個(gè)洲的人群都有較高的集中程度,尤其對(duì)于歐洲和亞洲來說,人群較集中,沒有多余的散點(diǎn)。同時(shí)發(fā)現(xiàn)RVs的效果優(yōu)于以上低覆蓋度數(shù)據(jù)中RVs的結(jié)果,其能夠很明顯地將AFR和non-AFR分開。
[Abstract]:......
【學(xué)位授予單位】:南京醫(yī)科大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:R440
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 范p,
本文編號(hào):1617869
本文鏈接:http://sikaile.net/huliyixuelunwen/1617869.html
最近更新
教材專著