天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 基因論文 >

基于群體基因組信息的個體基因變異檢測算法

發(fā)布時間:2021-03-24 22:30
  研究證實,關于人類進化、疾病以及遺傳的信息都蘊含在人類基因組數(shù)據(jù)中。從出現(xiàn)人類現(xiàn)代生命科學以來,對于基因組數(shù)據(jù)和基因變異的研究一直是學界的熱點問題;驕y序技術對人類設計基因變異檢測算法有著至關重要的影響,由于高通量測序技術的蓬勃發(fā)展,因此研究出了大量基于高通量測序數(shù)據(jù)的基因變異檢測算法。盡管如此,基因變異檢測技術仍面臨嚴峻的挑戰(zhàn),這是由于高通量測序技術本身的局限以及高重復的基因組數(shù)據(jù)決定的。在解決人類疾病的方面,基因組測序和基因組變異檢測扮演者重要的角色,因而,在生物信息學研究中,檢測基因組的變異信息成為熱點研究方向。通過研究基因組變異檢測技術的現(xiàn)狀、基因組拼接算法的基本思想和有關基因組測序技術的發(fā)展。為了檢測個體基因組出現(xiàn)的變異信息,本文提出了基于群體基因組信息的個體基因變異檢測算法。本文的主要研究工作如下:(1)識別基因組數(shù)據(jù)中未知變異的變異區(qū)域。在基因組數(shù)據(jù)中通過滑動窗口機制識別變異區(qū)域,從而在變異區(qū)域之中判斷基因變異類型;蚪M數(shù)據(jù)劃分成多個連續(xù)的滑動窗口,并且保證滑動窗口中reads的覆蓋度,通過統(tǒng)計各個滑動窗口中變異位置占比得到滑動窗口變異占比曲線,進而獲得變異區(qū)域,利用... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:59 頁

【學位級別】:碩士

【部分圖文】:

基于群體基因組信息的個體基因變異檢測算法


基于貪心思想的拼接算法Fig.2-1Assemblyalgorithmbasedongreedythought

流程圖,流程,滑動窗口,基因


哈爾濱工業(yè)大學工學碩士學位論文-20-(3)利用得到的變異位點信息進行分析。GATK的HaplotypeCaller用以完成對SNP、INDEL變異的精確檢測。HaplotypeCaller檢測的過程見圖2-2。HaplotypeCaller的變異檢測通過檢測得到ActiveRegions,在ActiveRegions進行局部重組裝并確定單倍型,通過計算單倍型的正確率進行基因型檢測。圖2-2HaplotypeCaller進行變異檢測流程Fig.2-2variantsdetectionprocessinHaplotypeCaller2.4.2基于群體基因組信息的個體基因變異檢測算法流程基于群體基因組信息的個體基因變異檢測算法是將未知變異區(qū)域中的reads拼接為多條contigs,再通過contigs集合與參考基因比對得到基因組變異信息。因此上可以將算法分為變異區(qū)域識別與分類、未知變異局部拼接和基因變異信息識別三個部分。在變異區(qū)域(ActiveRegions)識別與分類部分,本算法設計了滑動窗口機制,在參考基因上設置定長滑動窗口并保證滑動窗口中reads覆蓋深度,統(tǒng)計滑動窗口中每個位置的變異概率,將變異概率超過閾值的位置定義為變異位置,統(tǒng)計滑動窗口中變異位置占比,得到變異位置占比曲線。通過設置閾值可以將滑動窗口分為兩類,其中變異位置占比沒有超過閾值的為不存在變異滑動窗口,在閾值之上的區(qū)域為存在變異的滑動窗口。在存在變異的滑動窗口中根據(jù)已知

曲線,信號,滑動窗口,閾值


哈爾濱工業(yè)大學工學碩士學位論文-26-這樣計算得出每一個滑動窗口中的變異位置占比,同樣開辟和滑動窗口個數(shù)相同大小的數(shù)組,在數(shù)組相應位置記錄每一個滑動窗口的變異位置占比,便可以得到滑動窗口變異位置占比曲線。圖3-1reads變異信號檢測Fig.3-1readsvariantssignaldetection3.4變異區(qū)域識別分類通過上述方法獲得了滑動窗口變異位置占比曲線,根據(jù)每個滑動窗口中變異位置占比在變異位置占比曲線上的位置,可以設置一個閾值,將閾值之下的滑動窗口認為是不存在變異的滑動窗口,相應的這些滑動窗口所覆蓋的區(qū)域也認為不存在變異。而閾值之上的滑動窗口則是存在變異區(qū)間的。而本文在輸入中有已知變異信息,那么可以根據(jù)這些已知變異信息將存在變異的這些滑動窗口進一步劃分為存在已知變異信息的滑動窗口和不存在已知變異的滑動窗口。如此可以將存在已知變異信息的滑動窗口刪除,這些滑動窗口中包含已知變異則不用再進行拼接和變異檢測,如此減少了變異檢測算法的執(zhí)行時間和空間。下面將介紹變異區(qū)域的識別分類,并且獲得后續(xù)局部拼接所需要的未知變異的變異區(qū)域。3.4.1變異區(qū)域識別分類在所有的變異區(qū)域之中存在部分區(qū)域中的變異是已知變異,所以這部分區(qū)域是不需要進行后續(xù)的拼接與變異檢測工作的。因此需要根據(jù)已知變異信息識別已知變異的變異區(qū)間,只留下未知變異的變異區(qū)間。而根據(jù)上述方法已經(jīng)獲得了滑動窗口中的變異位置占比曲線,通過設置一個閾值,將滑動窗口分為閾值之上與閾值之下兩部分,其中閾值之上部分是存在變異的滑動窗口,而閾值之下是不存在變異的滑動窗口。不存在變異的滑動窗口是對后續(xù)工作沒有用的區(qū)域,所以該部分滑動窗口可以丟棄,從而減少算法的內存消耗。而存在變異

【參考文獻】:
期刊論文
[1]三代測序技術及其應用研究進展[J]. 馬麗娜,楊進波,丁逸菲,李穎康.  中國畜牧獸醫(yī). 2019(08)
[2]一種只利用序列信息預測RNA結合蛋白的深度學習模型[J]. 李洪順,于華,宮秀軍.  計算機研究與發(fā)展. 2018(01)
[3]遺傳變異與人類健康[J]. 黃輝,鄧建蓮,張欣鑫,李揚,彭智宇.  科學通報. 2016(25)
[4]PacBio Sequencing and Its Applications[J]. Anthony Rhoads,Kin Fai Au.  Genomics,Proteomics & Bioinformatics. 2015(05)
[5]下一代測序技術:技術回顧與展望[J]. 周曉光,任魯風,李運濤,張猛,俞育德,于軍.  中國科學:生命科學. 2010(01)
[6]基于FPGA的帶回溯的Smith-Waterman算法加速器的設計與實現(xiàn)[J]. 鄒丹,竇勇,夏飛,倪時策.  國防科技大學學報. 2009(05)

博士論文
[1]基于基因組測序數(shù)據(jù)的拷貝數(shù)變異檢測方法研究[D]. 譚仁杰.哈爾濱工業(yè)大學 2017
[2]基于高通量測序數(shù)據(jù)的基因組變異檢測方法研究[D]. 劉永壯.哈爾濱工業(yè)大學 2016

碩士論文
[1]基于序列比對骨架的基因組結構變異片段檢測算法[D]. 蘇俊豪.哈爾濱工業(yè)大學 2019



本文編號:3098513

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3098513.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ecd83***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com