基于高通量轉(zhuǎn)錄組測(cè)序的序列比對(duì)算法研究
發(fā)布時(shí)間:2017-09-05 11:20
本文關(guān)鍵詞:基于高通量轉(zhuǎn)錄組測(cè)序的序列比對(duì)算法研究
更多相關(guān)文章: 生物信息學(xué) 序列比對(duì) 高通量轉(zhuǎn)錄組測(cè)序 索引結(jié)構(gòu) 剪接位點(diǎn)
【摘要】:近些年,下一代測(cè)序技術(shù)獲得了突飛猛進(jìn)的發(fā)展,由此產(chǎn)生了越來越多的測(cè)序數(shù)據(jù)。如何處理這些測(cè)試數(shù)據(jù)一直以來都是生物信息學(xué)領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容,下一代測(cè)序技術(shù)應(yīng)用到轉(zhuǎn)錄組研究領(lǐng)域產(chǎn)生了高通量轉(zhuǎn)錄組測(cè)序技術(shù),簡(jiǎn)稱為RNA-seq技術(shù)。RNA-seq數(shù)據(jù)分析軟件的一項(xiàng)重要功能便是重構(gòu)剪接之前的mRNA在細(xì)胞中的形態(tài),此外,還應(yīng)該能夠評(píng)估每種剪接異構(gòu)體的表達(dá)水平。但是,所有分析過程的第一步都是要把從RNA-seq中得到的測(cè)序片段比對(duì)到相應(yīng)的參考序列上。因?yàn)閮?nèi)含子序列在DNA轉(zhuǎn)錄為成熟mRNA時(shí)會(huì)被剪切除去,所以與傳統(tǒng)的序列比對(duì)問題相比,轉(zhuǎn)錄組序列比對(duì)有其固有的特殊之處,即需要將測(cè)序得到的序列分段比對(duì)到不同的外顯子序列上,因此需要設(shè)計(jì)專門針對(duì)RNA-seq的序列比對(duì)算法,F(xiàn)有的RNA-seq序列比對(duì)算法基本上都是依賴于經(jīng)典的剪接位點(diǎn)信號(hào),而許多非經(jīng)典的剪接信號(hào)位點(diǎn)具有重要的生物學(xué)功能,如GT-TG與人類腺苷酸環(huán)化酶刺激蛋白Gαs的形成有關(guān)。為此,我們?cè)O(shè)計(jì)了兩個(gè)新的RNA-seq序列比對(duì)算法,用來發(fā)現(xiàn)多種類型的剪接位點(diǎn)。(])獨(dú)立于剪接位點(diǎn)信號(hào)的轉(zhuǎn)錄組序列比對(duì)算法首先我們?cè)O(shè)計(jì)了一種采用重疊種子內(nèi)部擴(kuò)展策略的RNA-seq序列比對(duì)算法,命名為RNAMap o種子序列的重疊性能夠保證由種子的比對(duì)信息能夠組合出完整測(cè)序序列的定位信息。在掃描基因組時(shí),RNAMap建立一個(gè)靜態(tài)表和一個(gè)動(dòng)態(tài)表來索引種子序列及其比對(duì)信息,尋找左右錨點(diǎn)序列之間的剪接位點(diǎn),此時(shí)并不受經(jīng)典剪接位點(diǎn)信號(hào)的限制。實(shí)驗(yàn)結(jié)果表明,對(duì)于含有多種類型的剪接位點(diǎn)的數(shù)據(jù)集,RNAMap的召回率和精確度分別達(dá)到了92.53%和97.01%,優(yōu)于其它的轉(zhuǎn)錄組序列比對(duì)工具。(2)轉(zhuǎn)錄組序列比對(duì)算法改進(jìn)之后我們又設(shè)計(jì)了一種采用非重疊種子之間擴(kuò)展策略的RNA-seq序列比對(duì)算法,命名為RNAMap 2。該算法通過減少種子的數(shù)量來降低計(jì)算量,然后利用測(cè)序深度,即測(cè)序序列的重復(fù)性來進(jìn)行比對(duì)。這在一定程度上彌補(bǔ)了RNAMap在運(yùn)行速度方面的不足。實(shí)驗(yàn)結(jié)果表明,在測(cè)序序列的長(zhǎng)度為300bp時(shí),RNAMap2比RNAMap快將近40%。此外,RNAMap 2采用Needleman-Wunsch全局動(dòng)態(tài)規(guī)劃算法,能夠處理編輯距離的誤配情況,克服了RNAMap僅支持海明距離誤配的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,RNAMap 2的召回率比RNAMap高大約2%。
【關(guān)鍵詞】:生物信息學(xué) 序列比對(duì) 高通量轉(zhuǎn)錄組測(cè)序 索引結(jié)構(gòu) 剪接位點(diǎn)
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP301.6
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.2 研究現(xiàn)狀11-14
- 1.2.1 傳統(tǒng)的序列比對(duì)算法12-13
- 1.2.2 轉(zhuǎn)錄組序列比對(duì)算法13-14
- 1.3 本文研究?jī)?nèi)容14-15
- 1.3.1 獨(dú)立于剪接位點(diǎn)信號(hào)的轉(zhuǎn)錄組序列比對(duì)算法14-15
- 1.3.2 轉(zhuǎn)錄組序列比對(duì)算法改進(jìn)15
- 1.4 論文組織15-16
- 第2章 相關(guān)技術(shù)與知識(shí)16-32
- 2.1 測(cè)序平臺(tái)介紹16-21
- 2.1.1 Roche 454和SOLiD測(cè)序16-18
- 2.1.2 Ion Torrent測(cè)序18
- 2.1.3 Illumina測(cè)序18
- 2.1.4 PacBio RS測(cè)序18-19
- 2.1.5 測(cè)序系統(tǒng)綜合比較19-21
- 2.2 轉(zhuǎn)錄組測(cè)序介紹21-24
- 2.2.1 轉(zhuǎn)錄組測(cè)序流程21-22
- 2.2.2 轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析流程22-24
- 2.3 數(shù)據(jù)文件格式24-28
- 2.3.1 FASTA和FASTQ文件24-25
- 2.3.2 GFF和GTF文件25-26
- 2.3.3 SAM和BAM文件26-28
- 2.4 基因組索引技術(shù)28-32
- 2.4.1 FM-index索引28-30
- 2.4.2 Hash索引30-32
- 第3章 獨(dú)立于剪接位點(diǎn)信號(hào)的轉(zhuǎn)錄組序列比對(duì)算法32-46
- 3.1 相關(guān)生物學(xué)術(shù)語32-33
- 3.1.1 外顯子和內(nèi)含子32-33
- 3.1.2 剪接位點(diǎn)信號(hào)33
- 3.2 算法設(shè)計(jì)與實(shí)現(xiàn)33-42
- 3.2.1 算法設(shè)計(jì)初衷33
- 3.2.2 算法實(shí)現(xiàn)過程33-37
- 3.2.3 算法執(zhí)行示例37-42
- 3.3 實(shí)驗(yàn)結(jié)果與分析42-45
- 3.3.1 模擬數(shù)據(jù)集實(shí)驗(yàn)及分析43-44
- 3.3.2 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)及分析44-45
- 3.4 本章小結(jié)45-46
- 第4章 轉(zhuǎn)錄組序列比對(duì)算法改進(jìn)46-62
- 4.1 引言46-50
- 4.1.1 海明距離和編輯距離46
- 4.1.2 全局動(dòng)態(tài)規(guī)劃46-48
- 4.1.3 TopHat算法簡(jiǎn)介48-50
- 4.2 算法設(shè)計(jì)與實(shí)現(xiàn)50-55
- 4.2.1 算法設(shè)計(jì)初衷50-51
- 4.2.2 算法實(shí)現(xiàn)過程51-53
- 4.2.3 算法執(zhí)行示例53-55
- 4.3 實(shí)驗(yàn)結(jié)果與分析55-61
- 4.3.1 模擬數(shù)據(jù)集實(shí)驗(yàn)及分析55-59
- 4.3.2 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)及分析59-61
- 4.4 本章小結(jié)61-62
- 第5章 總結(jié)62-66
- 5.1 本文工作62-63
- 5.2 本文貢獻(xiàn)與創(chuàng)新之處63-64
- 5.3 進(jìn)一步工作64-66
- 參考文獻(xiàn)66-70
- 附錄1 插圖索引70-72
- 附錄2 表格索引72-74
- 致謝74-76
- 在讀期間發(fā)表的學(xué)術(shù)論文76-78
- 攻讀學(xué)位其間參加的科研項(xiàng)目78
本文編號(hào):797669
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/797669.html
最近更新
教材專著