基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究
發(fā)布時間:2017-05-20 09:13
本文關鍵詞:基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:基因測序技術可以幫助了解生物的遺傳信息,從而識別生物體的致病基因和研究正確有效的治療方法。由于現(xiàn)有技術的限制,DNA通常被打斷成短片段,再用基因組裝算法將其拼接。然而短片段序列中存在堿基錯誤,如何修正是組裝算法的重要研究問題,F(xiàn)有的串行Error correction算法基于這樣一種思想:來自于同一個基因組位置的reads共享某一段長度的子片段(K-mer),通過估算K-mer,找出最有可能出錯的堿基并修改。比如K-mer清單算法,利用K-mer青單圖來尋找錯誤堿基,雖然較為快速,但堿基糾錯準確率不高。而K-mer枚舉比對算法利用枚舉出的K-mer找到具有相同特征的reads,再由這些reads找到錯誤堿基,雖然提高了準確率,但是計算復雜,內存消耗過大。因此兩種算法無法勝任處理海量短片段序列的任務。本文提出并行Error correction算法,利用Hadoop的分布式文件系統(tǒng)(HDFS, Hadoop Distributed Filesystem)、Map/Reduce (Google Map/Reduce的開源實現(xiàn))并行編程模型和新的堿基修改規(guī)則,提高Error correction的速度和準確率,減少Error correction內存的占用。本文主要工作包括:(1)針對Hadoop的Map/Reduce并行編程模型對原有算法的操作流程以及整體架構進行改進。設計適合用于并行Error correction算法的鏈表,利用該鏈表存儲相關的K-mer信息和reads信息。利用Map/Reduce并行編程模型進行數(shù)據(jù)預處理:轉變短片段序列的存儲格式,過濾短片段序列中無用的信息,并行枚舉出所有的K-mer,為后續(xù)的reads比對做準備。(2)利用Map/Reduce并行編程模型完成K-mer與reads的序列比對,得到所有包含相同K-mer特征的reads序列,用設計好的鏈表分組存儲所有比對過后的序列。改進堿基修改規(guī)則,設計一種較為完善的計算平均堿基質量分數(shù)的規(guī)則,將之應用到并行算法中,并利用新規(guī)則修改錯誤堿基,以提高最終結果的準確率。(3)通過對并行算法和串行算法的運行時間、內存占用、以及糾錯準確率的比較和分析,實驗室結果表明并行Error correction算法是可行的,也是有效的。
【關鍵詞】:Error correction reads 云計算 基因組裝 并行化
【學位授予單位】:廣西大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:Q811.4;TP393.09
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-16
- 1.1 研究背景11
- 1.2 研究意義11-12
- 1.3 研究現(xiàn)狀12-14
- 1.3.1 Error correction算法的研究現(xiàn)狀12-13
- 1.3.2 Hadoop的研究現(xiàn)狀13-14
- 1.4 論文的研究內容和組織結構14-16
- 1.4.1 本文的研究內容14
- 1.4.2 論文組織結構14-16
- 第二章 相關知識介紹16-23
- 2.1 DNA序列測序相關知識16-17
- 2.1.1 測序技術簡介16
- 2.1.2 第一代測序技術16
- 2.1.3 第二代測序技術16-17
- 2.2 Error correction相關知識17-18
- 2.2.1 Error correction算法的作用17
- 2.2.2 Error correction算法的相關概念17-18
- 2.3 Hadoop相關知識18-22
- 2.3.1 Hadoop項目簡介18-20
- 2.3.2 HDFS與Map/Reduce的體系結構20-22
- 2.4 本章小結22-23
- 第三章 基于云平臺的Error correction算法23-47
- 3.1 Error correction算法23-26
- 3.1.1 幾種常見的串行Error correction算法23-25
- 3.1.2 并行化的Error correction算法25-26
- 3.1.3 并行化Error correction算法中Map/Reduce的工作流程與機制26
- 3.2 并行Error correction算法的數(shù)據(jù)結構26-28
- 3.3 并行Error correction算法的數(shù)據(jù)預處理28-33
- 3.3.1 修改文件格式28-29
- 3.3.2 過濾數(shù)據(jù)文件29-31
- 3.3.3 并行枚舉出所有K-mer31-33
- 3.4 并行Error correction算法K-mer與Reads的序列比對33-41
- 3.4.1 讀入K-mer與reads數(shù)據(jù)34-37
- 3.4.2 K-mer與reads的比對37-39
- 3.4.3 利用比對結果構建鏈表并演化鏈表39-41
- 3.5 完善堿基糾錯規(guī)則并修改錯誤堿基41-43
- 3.6 后續(xù)堿基微調工作43-46
- 3.7 本章小結46-47
- 第四章 實驗結果和分析47-54
- 4.1 Open stack云平臺的部署策略47-49
- 4.1.1 Open stac軟硬件環(huán)境介紹47
- 4.1.2 針對并行Error correction算法的云平臺部署47-49
- 4.2 Hadoop集群的部署策略49-50
- 4.2.1 針對并行Error correction算法的Hadoop部署49-50
- 4.3 實驗的數(shù)據(jù)來源50-51
- 4.4 實驗結果分析51-53
- 4.5 本章小結53-54
- 第五章 總結與展望54-56
- 5.1 本文工作總結54
- 5.2 工作展望54-56
- 參考文獻56-60
- 致謝60-61
- 攻讀碩士學位期間發(fā)表和錄用的論文61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期
2 白瑞俊;劉光明;張瑞虹;柴寶強;;虛擬化技術OpenStack在高性能計算集群上的應用與研究[J];計算機光盤軟件與應用;2013年15期
3 李知杰;趙健飛;;OpenStack開源云計算平臺[J];軟件導刊;2012年12期
4 李英壯;汪楠;李先毅;;基于OpenStack開發(fā)云平臺的設計與實現(xiàn)[J];武漢大學學報(理學版);2012年S1期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 曾培龍;基于reads引導的基因組序列拼接[D];哈爾濱工業(yè)大學;2012年
本文關鍵詞:基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究,由筆耕文化傳播整理發(fā)布。
本文編號:381192
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/381192.html
最近更新
教材專著