天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的基因型填充方法研究

發(fā)布時間:2020-12-05 14:17
  全基因組關(guān)聯(lián)分析(GWAS,Genome-wide association study)是指在人類全基因組范圍內(nèi)找出存在的序列變異,即單核苷酸多態(tài)性(SNP,Single Nucleotide Polymorphism),從中篩選出與疾病相關(guān)的SNPs。GWAS通常專注于單核苷酸多態(tài)性(SNP)與人類疾病之類的性狀之間的關(guān)聯(lián),但同樣可以應(yīng)用于任何其他遺傳變異和任何其他生物的基因與遺傳性狀的分析。全基因組測序為GWAS分析提供基因數(shù)據(jù)支撐,是基因分析必不可少的源頭。現(xiàn)代基因組測序過程中,由于基因檢測技術(shù)能力的限制導致很多SNPs位點無法準確檢測,使得GWAS結(jié)果具有一定的假陽性,尤其會給小樣本的GWAS的分析造成較多的假陽性結(jié)果。因此,開發(fā)一個能有效填補出那些無法準確檢測的SNP的工具是非常重要的,能彌補基因型缺失帶來的全基因組關(guān)聯(lián)分析的不足。現(xiàn)在通常的做法是通過計算機軟件的方法對未觀測的基因型數(shù)據(jù)進行填充,根據(jù)遺傳的動態(tài)連鎖不平衡特性盡最大可能還原真實基因測序過程中無法檢測的SNPs位點數(shù)據(jù)。比如,Impute v2方法是用于對觀察到的基因型進行分型并估算缺失基因型的計算機軟件;Min... 

【文章來源】:中國科學院大學(中國科學院深圳先進技術(shù)研究院)廣東省

【文章頁數(shù)】:77 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的基因型填充方法研究


LiandStephens模型填充示意圖

示意圖,示意圖,分型,樣本


緒論5盡管大多數(shù)現(xiàn)代插補工具都采用HMM框架,但是它們在定義狀態(tài)空間和HMM參數(shù)方面的方式有所不同。盡管fastPHASE,MaCH(Li,etal.2010)和IMPUTE非常相似,但第一個Beagle插補算法卻有所不同,因為它沒有采用通常的轉(zhuǎn)移和發(fā)射函數(shù),并且單倍型模型是由參考樣品和待填充樣品構(gòu)建的,而不是僅參考樣品(Marchini,etal.2006)。但是,第二個Beagle插補算法(在版本4.1中引入)使用LiandStephens模型,并且與其他工具類似。Imputev2算法基于HMM算法,通過提高分型SNP的精度來提高未分型SNP的插補精度。大多數(shù)基于HMM的估算方法在估算參考樣本的基因型時,會同時估算缺失的基因型,并對待填充中的未分型SNP進行分析整合。相比之下,在假設(shè)參考樣本是正確分型的情況下,我們建議交替估計參考樣本和待填充樣本的共享基因中SNP的單倍型和待填充樣本中獨享的SNP的等位基因。同時,我們通過在馬爾可夫鏈蒙特卡洛(MCMC)框架中重復這些步驟來解決數(shù)據(jù)中分型不確定性的問題。將分型和插補步驟分開可以使我們將更多的計算能力集中于分型并使用更多可用信息。此方法中使用的額外計算在很大程度上由后續(xù)步驟中的快速單倍體插補來平衡。這種方法可以提高傳統(tǒng)的基于HMM的方法的插補精度,然而下一代參考樣本將為插補提出新的挑戰(zhàn),包括更大的樣本量,不分型和不完整的基因型,以及包含不同SNP位點的多個參考樣本。我們的方法旨在利用以上概述的原理來應(yīng)對這些挑戰(zhàn),并提高下一代研究中的估算準確性。圖1.2Imputev2填充示意圖

流程圖,流程,方法,單倍型


基于深度學習的基因型填充方法研究6Minimac3也是基于以上HMM算法做出了一些改進。為了使許多研究人員能夠使用更大的參考面板,可以從大型的參考樣本中收益,同時可以為極少變異等位基因的攜帶者提高檢測效率并進行有針對性的分析,Minimac3方法提出了一種新的,更快的插補算法。該算法基于共享單體型的HMM的“狀態(tài)空間縮減”;該方法利用微小基因組片段中單倍型之間的相似性來減少HMM迭代的有效狀態(tài)數(shù)。我們的模型將基因組分為連續(xù)的區(qū)塊,并僅在每個基因組區(qū)塊的唯一單倍型上進行迭代。然后,該方法使用可逆的映射函數(shù),該函數(shù)可以精確地重構(gòu)Minimac3和Imputev2使用的狀態(tài)空間。該算法的兩個重要特征是,其產(chǎn)生的結(jié)果與原始狀態(tài)空間中較繁瑣的分析完全相同,并且在缺少數(shù)據(jù)的情況下仍保持計算效率。圖1.3Minimac3填充流程方法1.2.2基因型的預分型由于概率框架和高丟失率,基因型填充是一個高度計算密集的過程。降低LiandStephens框架中的計算負擔的主要里程碑之一是引入預分型。這個想法涉及兩步插補過程:GWAS基因型的預先分型(即單倍型估計)和待填充單倍型的推算(Howieetal.2012),如圖1.3所表述的過程。單獨對待填充樣本進行分型可

【參考文獻】:
期刊論文
[1]SNP芯片基因型填充至測序數(shù)據(jù)的策略[J]. 李樂義,邵東東,丁向東,張勤.  中國科技論文. 2016(12)
[2]基因型填充方法介紹及比較[J]. 何桑,丁向東,張勤.  中國畜牧雜志. 2013(23)



本文編號:2899585

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2899585.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f4719***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com