一種全基因組關(guān)聯(lián)性分析新流程及其在孤獨(dú)癥的應(yīng)用
發(fā)布時(shí)間:2020-11-13 08:44
全基因組關(guān)聯(lián)性分析(genome-wide association study, GWAS)是對(duì)大量分析樣本建立病例-對(duì)照關(guān)系,并在全基因組水平上進(jìn)行分析掃描,最終找出與某一特定表型(疾病)緊密相關(guān)的基因標(biāo)記。GWAS對(duì)于復(fù)雜的多基因疾病研究有很好的效果。然而由于GWAS本身的特點(diǎn),決定了一個(gè)好的GWAS研究需要大量的訓(xùn)練樣本及有效的建模方法。這些都屬于計(jì)算生物學(xué)中的未圓滿解決的問(wèn)題。我們?cè)诒菊撐闹刑岢隽艘环N全新的全基因組關(guān)聯(lián)性分析流程,該流程可以整合異源SNP芯片數(shù)據(jù),減小收集大樣本的難度,并通過(guò)應(yīng)用合適的機(jī)器學(xué)習(xí)算法,能夠以極高的準(zhǔn)確率找到于與某一特定表型相關(guān)的基因譜系。 孤獨(dú)癥是一種典型的多基因遺傳病,即具有眾多基因共同控制,且單個(gè)基因的作用較小的特點(diǎn),非常適用于GWAS研究。目前孤獨(dú)癥的機(jī)理尚未確定,因此我們將本流程運(yùn)用于孤獨(dú)癥關(guān)聯(lián)譜系的分析。經(jīng)分析837個(gè)樣本(400個(gè)訓(xùn)練集,437個(gè)驗(yàn)證集)、全基因組500 568個(gè)SNP位點(diǎn),我們得到了一個(gè)由隨機(jī)森林建模而成的孤獨(dú)癥顯著關(guān)聯(lián)譜系,共包括37個(gè)SNP位點(diǎn)。該譜系無(wú)論是在訓(xùn)練時(shí)還是獨(dú)立驗(yàn)證時(shí)都有非常高的準(zhǔn)確率。而且跟該譜系相關(guān)的一個(gè)SNP位點(diǎn)、三個(gè)基因以及七個(gè)染色體區(qū)段(cytoband)都有報(bào)道證實(shí)其與孤獨(dú)癥發(fā)病密切相關(guān)?傊,我們建立的GWAS流程可以整合異源數(shù)據(jù),并且可以以極高的準(zhǔn)確率找到與某一特定表型相關(guān)的基因組譜系,對(duì)該種表性的生物學(xué)研究有很好的指導(dǎo)作用,具有廣闊的應(yīng)用前景。
【學(xué)位單位】:清華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類】:R749.9
【部分圖文】:
26圖3.1 基因型數(shù)據(jù)示例3.2.1 質(zhì)量控制標(biāo)準(zhǔn)選取以下標(biāo)準(zhǔn)分別對(duì) case 和 control 樣本的訓(xùn)練集進(jìn)行 SNP 位點(diǎn)質(zhì)量控制:(1)基因型分型率(genotype call rate)大于 90%,即去除那些基因型分型率低的 SNP 位點(diǎn),防止過(guò)多的空值影響結(jié)果。(2)哈迪-溫伯格檢驗(yàn) p 值(HWE p value)大于 10-7。HWE 即哈迪-溫伯格平衡(Hardy-Weinberg equilibrium)。哈迪-溫伯格定律為:在一個(gè)無(wú)窮大的隨機(jī)交配的群體中,且沒(méi)有進(jìn)化的壓力下,基因頻率和基因型頻率將保持平衡。如:p2表示 AA 的基因型的頻率,2pq 表示 AB 基因型的頻率 q2表示 BB 基因型的頻率。其中 p 是等位基因 A 的頻率;q 是等位基因 B 的頻率,則基因型頻率之和應(yīng)等于 1,即 p2+ 2pq + q2= 1。HWE 檢驗(yàn)即檢測(cè)該 SNP 位點(diǎn)的基因型頻率是否復(fù)合該平衡,認(rèn)為 p value 小于 10-7的 SNP 位點(diǎn)不符合并去除該位點(diǎn)。
位基因頻率十分相似,而與 D 組 case 有顯著不同,這才是我們真正想要的與孤獨(dú)癥有關(guān)聯(lián) SNP 位點(diǎn)。圖3.2 假陽(yáng)性及真陽(yáng)性SNP位點(diǎn)基因型頻率密度圖
基因型關(guān)聯(lián)分析pvalue的全基因組視圖
【參考文獻(xiàn)】
本文編號(hào):2881999
【學(xué)位單位】:清華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2010
【中圖分類】:R749.9
【部分圖文】:
26圖3.1 基因型數(shù)據(jù)示例3.2.1 質(zhì)量控制標(biāo)準(zhǔn)選取以下標(biāo)準(zhǔn)分別對(duì) case 和 control 樣本的訓(xùn)練集進(jìn)行 SNP 位點(diǎn)質(zhì)量控制:(1)基因型分型率(genotype call rate)大于 90%,即去除那些基因型分型率低的 SNP 位點(diǎn),防止過(guò)多的空值影響結(jié)果。(2)哈迪-溫伯格檢驗(yàn) p 值(HWE p value)大于 10-7。HWE 即哈迪-溫伯格平衡(Hardy-Weinberg equilibrium)。哈迪-溫伯格定律為:在一個(gè)無(wú)窮大的隨機(jī)交配的群體中,且沒(méi)有進(jìn)化的壓力下,基因頻率和基因型頻率將保持平衡。如:p2表示 AA 的基因型的頻率,2pq 表示 AB 基因型的頻率 q2表示 BB 基因型的頻率。其中 p 是等位基因 A 的頻率;q 是等位基因 B 的頻率,則基因型頻率之和應(yīng)等于 1,即 p2+ 2pq + q2= 1。HWE 檢驗(yàn)即檢測(cè)該 SNP 位點(diǎn)的基因型頻率是否復(fù)合該平衡,認(rèn)為 p value 小于 10-7的 SNP 位點(diǎn)不符合并去除該位點(diǎn)。
位基因頻率十分相似,而與 D 組 case 有顯著不同,這才是我們真正想要的與孤獨(dú)癥有關(guān)聯(lián) SNP 位點(diǎn)。圖3.2 假陽(yáng)性及真陽(yáng)性SNP位點(diǎn)基因型頻率密度圖
基因型關(guān)聯(lián)分析pvalue的全基因組視圖
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 羅星光,江開(kāi)達(dá);兒童孤獨(dú)癥分子遺傳學(xué)研究進(jìn)展[J];國(guó)外醫(yī)學(xué).遺傳學(xué)分冊(cè);2000年05期
本文編號(hào):2881999
本文鏈接:http://sikaile.net/yixuelunwen/jsb/2881999.html
最近更新
教材專著