天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于高通量轉(zhuǎn)錄組測序的序列比對算法研究

發(fā)布時間:2017-09-05 11:20

  本文關(guān)鍵詞:基于高通量轉(zhuǎn)錄組測序的序列比對算法研究


  更多相關(guān)文章: 生物信息學(xué) 序列比對 高通量轉(zhuǎn)錄組測序 索引結(jié)構(gòu) 剪接位點


【摘要】:近些年,下一代測序技術(shù)獲得了突飛猛進的發(fā)展,由此產(chǎn)生了越來越多的測序數(shù)據(jù)。如何處理這些測試數(shù)據(jù)一直以來都是生物信息學(xué)領(lǐng)域的一項重要研究內(nèi)容,下一代測序技術(shù)應(yīng)用到轉(zhuǎn)錄組研究領(lǐng)域產(chǎn)生了高通量轉(zhuǎn)錄組測序技術(shù),簡稱為RNA-seq技術(shù)。RNA-seq數(shù)據(jù)分析軟件的一項重要功能便是重構(gòu)剪接之前的mRNA在細(xì)胞中的形態(tài),此外,還應(yīng)該能夠評估每種剪接異構(gòu)體的表達(dá)水平。但是,所有分析過程的第一步都是要把從RNA-seq中得到的測序片段比對到相應(yīng)的參考序列上。因為內(nèi)含子序列在DNA轉(zhuǎn)錄為成熟mRNA時會被剪切除去,所以與傳統(tǒng)的序列比對問題相比,轉(zhuǎn)錄組序列比對有其固有的特殊之處,即需要將測序得到的序列分段比對到不同的外顯子序列上,因此需要設(shè)計專門針對RNA-seq的序列比對算法,F(xiàn)有的RNA-seq序列比對算法基本上都是依賴于經(jīng)典的剪接位點信號,而許多非經(jīng)典的剪接信號位點具有重要的生物學(xué)功能,如GT-TG與人類腺苷酸環(huán)化酶刺激蛋白Gαs的形成有關(guān)。為此,我們設(shè)計了兩個新的RNA-seq序列比對算法,用來發(fā)現(xiàn)多種類型的剪接位點。(])獨立于剪接位點信號的轉(zhuǎn)錄組序列比對算法首先我們設(shè)計了一種采用重疊種子內(nèi)部擴展策略的RNA-seq序列比對算法,命名為RNAMap o種子序列的重疊性能夠保證由種子的比對信息能夠組合出完整測序序列的定位信息。在掃描基因組時,RNAMap建立一個靜態(tài)表和一個動態(tài)表來索引種子序列及其比對信息,尋找左右錨點序列之間的剪接位點,此時并不受經(jīng)典剪接位點信號的限制。實驗結(jié)果表明,對于含有多種類型的剪接位點的數(shù)據(jù)集,RNAMap的召回率和精確度分別達(dá)到了92.53%和97.01%,優(yōu)于其它的轉(zhuǎn)錄組序列比對工具。(2)轉(zhuǎn)錄組序列比對算法改進之后我們又設(shè)計了一種采用非重疊種子之間擴展策略的RNA-seq序列比對算法,命名為RNAMap 2。該算法通過減少種子的數(shù)量來降低計算量,然后利用測序深度,即測序序列的重復(fù)性來進行比對。這在一定程度上彌補了RNAMap在運行速度方面的不足。實驗結(jié)果表明,在測序序列的長度為300bp時,RNAMap2比RNAMap快將近40%。此外,RNAMap 2采用Needleman-Wunsch全局動態(tài)規(guī)劃算法,能夠處理編輯距離的誤配情況,克服了RNAMap僅支持海明距離誤配的缺點。實驗結(jié)果表明,RNAMap 2的召回率比RNAMap高大約2%。
【關(guān)鍵詞】:生物信息學(xué) 序列比對 高通量轉(zhuǎn)錄組測序 索引結(jié)構(gòu) 剪接位點
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP301.6
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 緒論10-16
  • 1.1 研究背景及意義10-11
  • 1.2 研究現(xiàn)狀11-14
  • 1.2.1 傳統(tǒng)的序列比對算法12-13
  • 1.2.2 轉(zhuǎn)錄組序列比對算法13-14
  • 1.3 本文研究內(nèi)容14-15
  • 1.3.1 獨立于剪接位點信號的轉(zhuǎn)錄組序列比對算法14-15
  • 1.3.2 轉(zhuǎn)錄組序列比對算法改進15
  • 1.4 論文組織15-16
  • 第2章 相關(guān)技術(shù)與知識16-32
  • 2.1 測序平臺介紹16-21
  • 2.1.1 Roche 454和SOLiD測序16-18
  • 2.1.2 Ion Torrent測序18
  • 2.1.3 Illumina測序18
  • 2.1.4 PacBio RS測序18-19
  • 2.1.5 測序系統(tǒng)綜合比較19-21
  • 2.2 轉(zhuǎn)錄組測序介紹21-24
  • 2.2.1 轉(zhuǎn)錄組測序流程21-22
  • 2.2.2 轉(zhuǎn)錄組測序數(shù)據(jù)分析流程22-24
  • 2.3 數(shù)據(jù)文件格式24-28
  • 2.3.1 FASTA和FASTQ文件24-25
  • 2.3.2 GFF和GTF文件25-26
  • 2.3.3 SAM和BAM文件26-28
  • 2.4 基因組索引技術(shù)28-32
  • 2.4.1 FM-index索引28-30
  • 2.4.2 Hash索引30-32
  • 第3章 獨立于剪接位點信號的轉(zhuǎn)錄組序列比對算法32-46
  • 3.1 相關(guān)生物學(xué)術(shù)語32-33
  • 3.1.1 外顯子和內(nèi)含子32-33
  • 3.1.2 剪接位點信號33
  • 3.2 算法設(shè)計與實現(xiàn)33-42
  • 3.2.1 算法設(shè)計初衷33
  • 3.2.2 算法實現(xiàn)過程33-37
  • 3.2.3 算法執(zhí)行示例37-42
  • 3.3 實驗結(jié)果與分析42-45
  • 3.3.1 模擬數(shù)據(jù)集實驗及分析43-44
  • 3.3.2 真實數(shù)據(jù)集實驗及分析44-45
  • 3.4 本章小結(jié)45-46
  • 第4章 轉(zhuǎn)錄組序列比對算法改進46-62
  • 4.1 引言46-50
  • 4.1.1 海明距離和編輯距離46
  • 4.1.2 全局動態(tài)規(guī)劃46-48
  • 4.1.3 TopHat算法簡介48-50
  • 4.2 算法設(shè)計與實現(xiàn)50-55
  • 4.2.1 算法設(shè)計初衷50-51
  • 4.2.2 算法實現(xiàn)過程51-53
  • 4.2.3 算法執(zhí)行示例53-55
  • 4.3 實驗結(jié)果與分析55-61
  • 4.3.1 模擬數(shù)據(jù)集實驗及分析55-59
  • 4.3.2 真實數(shù)據(jù)集實驗及分析59-61
  • 4.4 本章小結(jié)61-62
  • 第5章 總結(jié)62-66
  • 5.1 本文工作62-63
  • 5.2 本文貢獻與創(chuàng)新之處63-64
  • 5.3 進一步工作64-66
  • 參考文獻66-70
  • 附錄1 插圖索引70-72
  • 附錄2 表格索引72-74
  • 致謝74-76
  • 在讀期間發(fā)表的學(xué)術(shù)論文76-78
  • 攻讀學(xué)位其間參加的科研項目78
,

本文編號:797669

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/797669.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f1dc1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com