一種全基因組關(guān)聯(lián)性分析新流程及其在孤獨癥的應(yīng)用
發(fā)布時間:2020-11-13 08:44
全基因組關(guān)聯(lián)性分析(genome-wide association study, GWAS)是對大量分析樣本建立病例-對照關(guān)系,并在全基因組水平上進行分析掃描,最終找出與某一特定表型(疾病)緊密相關(guān)的基因標記。GWAS對于復(fù)雜的多基因疾病研究有很好的效果。然而由于GWAS本身的特點,決定了一個好的GWAS研究需要大量的訓(xùn)練樣本及有效的建模方法。這些都屬于計算生物學(xué)中的未圓滿解決的問題。我們在本論文中提出了一種全新的全基因組關(guān)聯(lián)性分析流程,該流程可以整合異源SNP芯片數(shù)據(jù),減小收集大樣本的難度,并通過應(yīng)用合適的機器學(xué)習(xí)算法,能夠以極高的準確率找到于與某一特定表型相關(guān)的基因譜系。 孤獨癥是一種典型的多基因遺傳病,即具有眾多基因共同控制,且單個基因的作用較小的特點,非常適用于GWAS研究。目前孤獨癥的機理尚未確定,因此我們將本流程運用于孤獨癥關(guān)聯(lián)譜系的分析。經(jīng)分析837個樣本(400個訓(xùn)練集,437個驗證集)、全基因組500 568個SNP位點,我們得到了一個由隨機森林建模而成的孤獨癥顯著關(guān)聯(lián)譜系,共包括37個SNP位點。該譜系無論是在訓(xùn)練時還是獨立驗證時都有非常高的準確率。而且跟該譜系相關(guān)的一個SNP位點、三個基因以及七個染色體區(qū)段(cytoband)都有報道證實其與孤獨癥發(fā)病密切相關(guān)?傊,我們建立的GWAS流程可以整合異源數(shù)據(jù),并且可以以極高的準確率找到與某一特定表型相關(guān)的基因組譜系,對該種表性的生物學(xué)研究有很好的指導(dǎo)作用,具有廣闊的應(yīng)用前景。
【學(xué)位單位】:清華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2010
【中圖分類】:R749.9
【部分圖文】:
26圖3.1 基因型數(shù)據(jù)示例3.2.1 質(zhì)量控制標準選取以下標準分別對 case 和 control 樣本的訓(xùn)練集進行 SNP 位點質(zhì)量控制:(1)基因型分型率(genotype call rate)大于 90%,即去除那些基因型分型率低的 SNP 位點,防止過多的空值影響結(jié)果。(2)哈迪-溫伯格檢驗 p 值(HWE p value)大于 10-7。HWE 即哈迪-溫伯格平衡(Hardy-Weinberg equilibrium)。哈迪-溫伯格定律為:在一個無窮大的隨機交配的群體中,且沒有進化的壓力下,基因頻率和基因型頻率將保持平衡。如:p2表示 AA 的基因型的頻率,2pq 表示 AB 基因型的頻率 q2表示 BB 基因型的頻率。其中 p 是等位基因 A 的頻率;q 是等位基因 B 的頻率,則基因型頻率之和應(yīng)等于 1,即 p2+ 2pq + q2= 1。HWE 檢驗即檢測該 SNP 位點的基因型頻率是否復(fù)合該平衡,認為 p value 小于 10-7的 SNP 位點不符合并去除該位點。
位基因頻率十分相似,而與 D 組 case 有顯著不同,這才是我們真正想要的與孤獨癥有關(guān)聯(lián) SNP 位點。圖3.2 假陽性及真陽性SNP位點基因型頻率密度圖
基因型關(guān)聯(lián)分析pvalue的全基因組視圖
【參考文獻】
本文編號:2881999
【學(xué)位單位】:清華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2010
【中圖分類】:R749.9
【部分圖文】:
26圖3.1 基因型數(shù)據(jù)示例3.2.1 質(zhì)量控制標準選取以下標準分別對 case 和 control 樣本的訓(xùn)練集進行 SNP 位點質(zhì)量控制:(1)基因型分型率(genotype call rate)大于 90%,即去除那些基因型分型率低的 SNP 位點,防止過多的空值影響結(jié)果。(2)哈迪-溫伯格檢驗 p 值(HWE p value)大于 10-7。HWE 即哈迪-溫伯格平衡(Hardy-Weinberg equilibrium)。哈迪-溫伯格定律為:在一個無窮大的隨機交配的群體中,且沒有進化的壓力下,基因頻率和基因型頻率將保持平衡。如:p2表示 AA 的基因型的頻率,2pq 表示 AB 基因型的頻率 q2表示 BB 基因型的頻率。其中 p 是等位基因 A 的頻率;q 是等位基因 B 的頻率,則基因型頻率之和應(yīng)等于 1,即 p2+ 2pq + q2= 1。HWE 檢驗即檢測該 SNP 位點的基因型頻率是否復(fù)合該平衡,認為 p value 小于 10-7的 SNP 位點不符合并去除該位點。
位基因頻率十分相似,而與 D 組 case 有顯著不同,這才是我們真正想要的與孤獨癥有關(guān)聯(lián) SNP 位點。圖3.2 假陽性及真陽性SNP位點基因型頻率密度圖
基因型關(guān)聯(lián)分析pvalue的全基因組視圖
【參考文獻】
相關(guān)期刊論文 前1條
1 羅星光,江開達;兒童孤獨癥分子遺傳學(xué)研究進展[J];國外醫(yī)學(xué).遺傳學(xué)分冊;2000年05期
本文編號:2881999
本文鏈接:http://sikaile.net/yixuelunwen/jsb/2881999.html
最近更新
教材專著