天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

生物高通量測序片段拼接與分子標記識別算法研究

發(fā)布時間:2017-05-25 08:25

  本文關(guān)鍵詞:生物高通量測序片段拼接與分子標記識別算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:快速準確的獲取生物體的遺傳信息是生命科學研究的基石,基因組是生物體全部遺傳信息的載體。測序技術(shù)能夠獲得基因組的遺傳信息,進而較全面的揭示生物體的復雜性和多樣性,因而在生命科學研究中具有十分重要的作用。隨著科學的進步,下一代測序技術(shù)迅速發(fā)展并廣泛應用,使得生物序列數(shù)據(jù)的獲取效率和費用成本的快速下降都達到了前所未有的程度,這些對基因組的深度測序和重測序研究產(chǎn)生了極大的推動作用。序列數(shù)據(jù)生產(chǎn)速度越來越快,由此產(chǎn)生了數(shù)量巨大的生物序列數(shù)據(jù),而如何高效準確的對大數(shù)據(jù)量的生物序列數(shù)據(jù)進行分析和比較,成為了生物信息學領(lǐng)域的新挑戰(zhàn)。近幾年來計算機運算性能的增長趨于緩慢,為應對大數(shù)據(jù)時代的需求出現(xiàn)了Map Reduce、Spark等云計算技術(shù),但目前生物信息領(lǐng)域的各種工具和方法還未能充分利用這些新技術(shù)。因此,本文以序列分析為基礎(chǔ),利用Map Reduce技術(shù)結(jié)合序列比對、串和圖等算法,深入研究了高通量序列拼接與分子標記識別兩方面的幾個問題,主要內(nèi)容如下。(1)提出了基于Map Reduce的高通量序列數(shù)據(jù)的聚類分析算法。生物序列聚類可以為下游序列分析工作提供基礎(chǔ),高通量測序也為序列聚類提出了新內(nèi)容和新挑戰(zhàn)。針對這一問題,本文提出了基于兩種相似度的結(jié)合Map Reduce技術(shù)的貪心聚類方法。首先,從相似序列會共享一定數(shù)量k-mer這一事實出發(fā),本文提出了基于窗口內(nèi)非交疊共享k-mer計數(shù)的相似度計算方法,可以過濾掉不相關(guān)序列間的比對計算,從而大幅度提高比對效率;然后,對于相似序列的精確比對,本文提出了基于共享k-mer擴展塊的塊比對相似度計算方法。利用本文方法可對大規(guī)模序列數(shù)據(jù)如EST、高通量測序讀片段等進行聚類分析。(2)提出了基于序列聚類和Seeds Graph的高通量測序片段拼接算法。全基因組高通量測序數(shù)據(jù)的拼接,主要困難在于高通量序列數(shù)據(jù)讀長短、數(shù)量大和錯誤率高。本文針對這三方面的困難提出了基于Map Reduce和序列聚類的全基因組de novo拼接方法Seeds Graph。該方法利用云計算平臺解決數(shù)據(jù)量大的問題,用序列聚類將短片段以簇表示,并定義可容錯的seed結(jié)構(gòu)來糾正測序錯誤。然后利用seed為頂點建立的SeedsGraph圖來指導測序片段的拼接過程。最后,本文采用路徑相容分析技術(shù)和雙端讀片段信息方式解決重復序列導致的復雜路徑問題。實驗表明Seeds Graph有良好的可擴展性,可處理較大規(guī);蚪M的拼接問題。(3)提出了多供體高通量測序數(shù)據(jù)的基因組結(jié)構(gòu)變異分子標記識別算法。目前對生物個體重測序的研究普遍存在測序?qū)ο髷?shù)量較多而測序深度不夠的現(xiàn)象。在這種測序個體較多但深度都不大的數(shù)據(jù)中進行全基因組結(jié)構(gòu)變異識別,往往因為深度不夠而不能獲得準確的結(jié)果。本文針對這一問題,提出了基于多供體高通量重測序數(shù)據(jù)的全基因組結(jié)構(gòu)變異識別方法。該方法利用Map Reduce技術(shù)解決數(shù)據(jù)量巨大的問題,結(jié)合雙端讀片段和讀片段分隔方法進行結(jié)構(gòu)變異事件的識別;利用改進的仿射空位罰分的半全局序列比對算法,預測結(jié)構(gòu)變異精確的斷點位置。(4)綜合本文在序列分析的算法成果,設(shè)計并實現(xiàn)了基于同源搜索和集成分類的mi RNA分子標記識別方法。該方法利用已知mi RNA為參考,對EST或高通量測序數(shù)據(jù)進行同源搜索,使用RNAfold軟件分析發(fā)夾環(huán)結(jié)構(gòu),獲得粗略的mi RNA前體候選集。為了解決該候選集中假陽性率過高的不平衡分類問題,本文提出了基于投票機制的集成學習分類方法。利用已知mi RNA作為正例和適當選擇的反例以不平衡數(shù)據(jù)分類問題的策略訓練多種分類器,再集成為一個單獨的分類器,并對候選集進行分類。利用該方法可得到輸入數(shù)據(jù)集中高可信度的miRNA候選,可以用于指導下游mi RNA識別和分析的研究工作。
【關(guān)鍵詞】:序列比對 序列聚類 基因組拼接 結(jié)構(gòu)變異 高通量測序
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.4
【目錄】:
  • 摘要4-6
  • ABSTRACT6-14
  • 第1章 緒論14-30
  • 1.1 課題背景及意義14-16
  • 1.1.1 研究背景14-15
  • 1.1.2 研究意義15-16
  • 1.2 相關(guān)知識介紹16-24
  • 1.2.1 序列分析技術(shù)簡介16-17
  • 1.2.2 測序技術(shù)簡介17-22
  • 1.2.3 基因組結(jié)構(gòu)變異簡介22
  • 1.2.4 非編碼RNA簡介22-23
  • 1.2.5 Map Reduce技術(shù)簡介23-24
  • 1.3 國內(nèi)外研究現(xiàn)狀24-28
  • 1.3.1 高通量數(shù)據(jù)的聚類與拼接24-26
  • 1.3.2 生物分子標記的識別26-28
  • 1.4 本文主要工作28-30
  • 第2章 基于MAPREDUCE的生物序列聚類算法30-54
  • 2.1 引言30-34
  • 2.1.1 問題描述31-32
  • 2.1.2 相關(guān)算法32-34
  • 2.2 基于共享k-mer計數(shù)的序列相似度計算方法34-38
  • 2.2.1 基于共享k-mer計數(shù)的序列相似度34-35
  • 2.2.2 基于Map Reduce的序列共享k-mer計數(shù)算法35-38
  • 2.3 基于塊比對的序列相似度計算方法38-47
  • 2.3.1 全局比對和局部比對算法38-40
  • 2.3.2 基于共享k-mers擴展塊的局部塊比對40-43
  • 2.3.3 邊加權(quán)有向無環(huán)圖單源最長路徑算法43-46
  • 2.3.4 局部塊比對的優(yōu)化46-47
  • 2.4 序列聚類算法47-49
  • 2.5 實驗與分析49-52
  • 2.6 本章小結(jié)52-54
  • 第3章 基于讀片段聚類的高通量數(shù)據(jù)拼接算法54-79
  • 3.1 引言54-59
  • 3.1.1 拼接方法及相關(guān)算法55-57
  • 3.1.2 問題描述57-59
  • 3.2 NGS讀片段聚類算法59-65
  • 3.2.1 數(shù)據(jù)預處理59
  • 3.2.2 生成k-mer群組59-61
  • 3.2.3 讀片段的聚類61-65
  • 3.3 基于歐拉路徑的contig建立算法65-69
  • 3.3.1 Seeds Graph的構(gòu)建65-66
  • 3.3.2 Seeds Graph中重復路徑的分析66-68
  • 3.3.3 Contigs的生成方法68-69
  • 3.4 基于mate-pair的scaffold建立方法69-72
  • 3.4.1 Contigs間的相對方向70-71
  • 3.4.2 Contigs的定位方法71-72
  • 3.4.3 填充gap和生成scaffolds72
  • 3.5 實驗與分析72-77
  • 3.6 本章小結(jié)77-79
  • 第4章 基于高通量測序的多供體結(jié)構(gòu)變異識別算法79-104
  • 4.1 引言79-85
  • 4.1.1 結(jié)構(gòu)變異及其重要作用80-81
  • 4.1.2 結(jié)構(gòu)變異識別方法的研究現(xiàn)狀81-82
  • 4.1.3 問題描述82-85
  • 4.2 基于Map Reduce的讀片段定位方法85-89
  • 4.2.1 不一致的讀片段對86
  • 4.2.2 基于Map Reduce的篩選算法86-89
  • 4.2.3 合并多供體的候選讀片段89
  • 4.3 結(jié)構(gòu)變異的識別算法89-97
  • 4.3.1 小型indel事件的識別方法90-91
  • 4.3.2 插入事件的識別方法91-92
  • 4.3.3 缺失事件的識別方法92-93
  • 4.3.4 倒位事件的識別方法93-94
  • 4.3.5 易位事件的識別方法94-95
  • 4.3.6 重復事件的識別方法95-96
  • 4.3.7 識別算法96-97
  • 4.4 斷點精確預測算法97-100
  • 4.4.1 基于split-read的斷點預測方法97-99
  • 4.4.2 基于soft clipping的斷點預測方法99-100
  • 4.5 實驗與分析100-103
  • 4.6 本章小結(jié)103-104
  • 第5章 基于同源搜索與集成分類的MIRNA識別方法104-116
  • 5.1 引言104-108
  • 5.1.1 相關(guān)研究105-107
  • 5.1.2 識別流程107-108
  • 5.2 基于Map Reduce的同源序列搜索方法108-111
  • 5.2.1 數(shù)據(jù)的預處理108
  • 5.2.2 同源序列搜索108-111
  • 5.3 基于集成學習的分類器111-113
  • 5.3.1 樣本集的選擇111
  • 5.3.2 集成分類器的構(gòu)建111-113
  • 5.4 實驗與分析113-114
  • 5.5 本章小結(jié)114-116
  • 結(jié)論116-118
  • 參考文獻118-132
  • 攻讀博士學位期間發(fā)表的論文及其它成果132-136
  • 致謝136-137
  • 個人簡歷137

  本文關(guān)鍵詞:生物高通量測序片段拼接與分子標記識別算法研究,,由筆耕文化傳播整理發(fā)布。



本文編號:393192

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/393192.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶10b37***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com