天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

基于鏈讀測(cè)序數(shù)據(jù)對(duì)長(zhǎng)讀拼接糾錯(cuò)的算法研究

發(fā)布時(shí)間:2020-04-02 23:32
【摘要】:針對(duì)第三代測(cè)序數(shù)據(jù)自身存在相對(duì)高錯(cuò)誤率的問題,提出一種基于l0x Genomics測(cè)序平臺(tái)的鏈讀(Linked Reads)測(cè)序數(shù)據(jù)對(duì)PacBio測(cè)序平臺(tái)的長(zhǎng)讀數(shù)據(jù)(long reads)進(jìn)行糾錯(cuò)的算法。首先運(yùn)用拼接算法Wtdbg2將人類基因組第三代長(zhǎng)讀測(cè)序數(shù)據(jù)拼接成重疊鏈(contigs),將contigs打碎成相同k堿基長(zhǎng)度的短讀(k-mers)并存儲(chǔ)于哈希表中;然后將同一 Barcode的鏈讀數(shù)據(jù)打碎成k值相同的短序k-mers,選取每一個(gè)k-mer去遍歷哈希表尋找與之相匹配的contig編號(hào)及位置信息,這樣,可快速地將Linked Reads序列分配到contigs中;再利用比對(duì)工具Bowtie 2把Linked Reads序列比對(duì)到contigs上;最后,使用超幾何分布公式統(tǒng)計(jì)每個(gè)位置堿基的頻率,計(jì)算P值并識(shí)別錯(cuò)誤堿基或者單核酸多態(tài)性(SNP)。通過Linked Reads測(cè)序數(shù)據(jù)對(duì)來自人類不同細(xì)胞的基因組數(shù)據(jù)Human HG00733、Human NA24385、Human CHM1進(jìn)行糾錯(cuò)驗(yàn)證,結(jié)果表明所提算法能夠顯著提高基因組裝的Scaffold長(zhǎng)度,而且組裝的基因組具有較高的準(zhǔn)確性。我們實(shí)驗(yàn)數(shù)據(jù)集選擇人的三代PacBio基因組測(cè)序數(shù)據(jù)和10x Genomics的Linked Reads。Linked Reads數(shù)據(jù)本身具有一定的技術(shù)優(yōu)勢(shì),技術(shù)原理方面,在長(zhǎng)序列片段中引入barcode序列對(duì)DNA進(jìn)行精確分區(qū),并將長(zhǎng)片段分配到不同的油滴微粒中,使用GemCode平臺(tái)技術(shù)對(duì)長(zhǎng)片段序列進(jìn)行擴(kuò)增引入barcode序列及測(cè)序接頭引物,緊接著將序列打碎成適合測(cè)序大小的片段進(jìn)行測(cè)序,相同barcode序列的短序來源于同一條長(zhǎng)片段。該技術(shù)可與Illumina測(cè)序儀進(jìn)行無縫對(duì)接,利用短序列可獲得長(zhǎng)達(dá)100Kb的片段,利用長(zhǎng)片段信息結(jié)合Illumina組裝數(shù)據(jù)組裝的Scaffold N50長(zhǎng)度比只用Illumina方法提高十幾倍。通過對(duì)人的三代測(cè)序數(shù)據(jù)進(jìn)行糾錯(cuò),可以提高測(cè)序的精度,進(jìn)一步提高拼接的準(zhǔn)確度。該算法的研究對(duì)結(jié)構(gòu)變異預(yù)測(cè)和疾病預(yù)測(cè)具有重大意義。
【圖文】:

示意圖,結(jié)構(gòu)組成,示意圖,內(nèi)含子


egion)是指在基因表達(dá)過程中,能夠轉(zhuǎn)錄為相應(yīng)信使RNA,進(jìn)而指導(dǎo)蛋白質(zhì)合逡逑(也就是能編碼蛋白質(zhì))的DNA序列片段[18]。而非編碼區(qū)(Non-coding邋region;)[19]逡逑是不被表達(dá)的,位于編碼區(qū)前后,同屬于一個(gè)基因,控制著基因的表達(dá)和強(qiáng)弱。逡逑因的啟動(dòng)子和終止子都屬于非編碼區(qū)。非編碼區(qū)雖然不能夠編碼蛋白質(zhì)但在遺逡逑信息表達(dá)過程中起著至關(guān)重要的角色,,在非編碼上存在具有遺傳效應(yīng)的可調(diào)控逡逑傳信息表達(dá)的核苷酸序列,比如RNA聚合酶結(jié)合位點(diǎn)(亦稱轉(zhuǎn)錄酶),能夠催逡逑所有RNA的轉(zhuǎn)錄合成[2Q]。其中真核生物的編碼區(qū)又由外顯子和內(nèi)含子組成。逡逑名思義外顯子就是要表達(dá)的,內(nèi)含子是不被表達(dá),它們一般存在于一段基因中,逡逑般間隔排列。一個(gè)基因如果包含有內(nèi)含子,它就可以進(jìn)行轉(zhuǎn)錄得到前體RNA,逡逑后再被轉(zhuǎn)錄出來的那部分進(jìn)行自我切割,這樣才能得到成熟的mRNA。但在逡逑核生物中,也存在一些基因沒有包含內(nèi)含子,比如組蛋白基因和干擾素基因就逡逑有內(nèi)含子。而原核生物的基因沒有內(nèi)含子和外顯子之分。圖1-2真核生物某個(gè)逡逑因的示意圖。逡逑

過程圖,基因表達(dá),過程圖,內(nèi)含子


然后再被轉(zhuǎn)錄出來的那部分進(jìn)行自我切割,這樣才能得到成熟的mRNA。但在逡逑真核生物中,也存在一些基因沒有包含內(nèi)含子,比如組蛋白基因和干擾素基因就逡逑沒有內(nèi)含子。而原核生物的基因沒有內(nèi)含子和外顯子之分。圖1-2真核生物某個(gè)逡逑基因的示意圖。逡逑非編碼區(qū)邐非編碼區(qū)逡逑?邐邐編碼區(qū)(轉(zhuǎn)錄區(qū))邐邐?逡逑啟動(dòng)t邋一邋-?邐———il邋終止子逡逑轉(zhuǎn)錄邐轉(zhuǎn)錄逡逑g占邐效?占逡逑nj示外顯子:.!示內(nèi)含子逡逑圖1-2真核生物基因的結(jié)構(gòu)組成示意圖逡逑1.3.2基因表達(dá)逡逑生物體生命活動(dòng)的運(yùn)轉(zhuǎn)需要靠其內(nèi)部對(duì)應(yīng)細(xì)胞結(jié)構(gòu)的表達(dá),細(xì)胞中基因的表逡逑6逡逑
【學(xué)位授予單位】:天津師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q78;TP311.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 刁斗;;短篇長(zhǎng)讀(之一)[J];鴨綠江(上半月版);2017年07期

2 湯德懋;;!稄V西會(huì)計(jì)》創(chuàng)刊七周年[J];廣西會(huì)計(jì);1991年10期

3 鄭殿興;當(dāng)做長(zhǎng)讀[J];當(dāng)代司法;1997年09期

4 王學(xué)泰;;民命賤如螻蟻[J];文化博覽;2007年01期

5 曹建之;怎樣寫好描述性評(píng)語[J];班主任;2002年06期

6 祁和山;;不開竅[J];雜文選刊(上半月版);2014年12期

7 刁斗;;短篇長(zhǎng)讀(之四)[J];鴨綠江(上半月版);2018年04期

8 楊忠;;按摩局長(zhǎng)[J];大眾文藝(快活林);2002年11期

9 時(shí)嘉姝;;讀你千“日”也不厭倦[J];優(yōu)秀作文選評(píng)(高中版);2011年04期

10 王荔宏;羅義安;;“話”若有情“話”不老[J];青年教師;2011年11期

相關(guān)重要報(bào)紙文章 前5條

1 屈藝兵;“長(zhǎng)文短看 短文長(zhǎng)讀”[N];中華新聞報(bào);2009年

2 劉紫凌 廖君;勞民傷財(cái)?shù)墓阑顒?dòng)應(yīng)叫停[N];今日信息報(bào);2007年

3 劉紫凌邋廖君;特困縣砸大錢祭祖,“別有用心”易得不償失[N];新華每日電訊;2007年

4 曹葉秋(大學(xué)教師);藏在心里的,不叫愛[N];中國(guó)圖書商報(bào);2003年

5 記者 楊同玉;36個(gè)海外高科技項(xiàng)目將落戶哈爾濱新區(qū)[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2019年

相關(guān)碩士學(xué)位論文 前2條

1 馮艷霞;基于鏈讀測(cè)序數(shù)據(jù)對(duì)長(zhǎng)讀拼接糾錯(cuò)的算法研究[D];天津師范大學(xué);2019年

2 郭睿;基于長(zhǎng)讀的基因組重復(fù)序列查找技術(shù)研究[D];深圳大學(xué);2018年



本文編號(hào):2612588

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2612588.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶50544***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com