天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究

發(fā)布時間:2017-05-20 09:13

  本文關鍵詞:基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:基因測序技術可以幫助了解生物的遺傳信息,從而識別生物體的致病基因和研究正確有效的治療方法。由于現(xiàn)有技術的限制,DNA通常被打斷成短片段,再用基因組裝算法將其拼接。然而短片段序列中存在堿基錯誤,如何修正是組裝算法的重要研究問題,F(xiàn)有的串行Error correction算法基于這樣一種思想:來自于同一個基因組位置的reads共享某一段長度的子片段(K-mer),通過估算K-mer,找出最有可能出錯的堿基并修改。比如K-mer清單算法,利用K-mer青單圖來尋找錯誤堿基,雖然較為快速,但堿基糾錯準確率不高。而K-mer枚舉比對算法利用枚舉出的K-mer找到具有相同特征的reads,再由這些reads找到錯誤堿基,雖然提高了準確率,但是計算復雜,內存消耗過大。因此兩種算法無法勝任處理海量短片段序列的任務。本文提出并行Error correction算法,利用Hadoop的分布式文件系統(tǒng)(HDFS, Hadoop Distributed Filesystem)、Map/Reduce (Google Map/Reduce的開源實現(xiàn))并行編程模型和新的堿基修改規(guī)則,提高Error correction的速度和準確率,減少Error correction內存的占用。本文主要工作包括:(1)針對Hadoop的Map/Reduce并行編程模型對原有算法的操作流程以及整體架構進行改進。設計適合用于并行Error correction算法的鏈表,利用該鏈表存儲相關的K-mer信息和reads信息。利用Map/Reduce并行編程模型進行數(shù)據(jù)預處理:轉變短片段序列的存儲格式,過濾短片段序列中無用的信息,并行枚舉出所有的K-mer,為后續(xù)的reads比對做準備。(2)利用Map/Reduce并行編程模型完成K-mer與reads的序列比對,得到所有包含相同K-mer特征的reads序列,用設計好的鏈表分組存儲所有比對過后的序列。改進堿基修改規(guī)則,設計一種較為完善的計算平均堿基質量分數(shù)的規(guī)則,將之應用到并行算法中,并利用新規(guī)則修改錯誤堿基,以提高最終結果的準確率。(3)通過對并行算法和串行算法的運行時間、內存占用、以及糾錯準確率的比較和分析,實驗室結果表明并行Error correction算法是可行的,也是有效的。
【關鍵詞】:Error correction reads 云計算 基因組裝 并行化
【學位授予單位】:廣西大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:Q811.4;TP393.09
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-16
  • 1.1 研究背景11
  • 1.2 研究意義11-12
  • 1.3 研究現(xiàn)狀12-14
  • 1.3.1 Error correction算法的研究現(xiàn)狀12-13
  • 1.3.2 Hadoop的研究現(xiàn)狀13-14
  • 1.4 論文的研究內容和組織結構14-16
  • 1.4.1 本文的研究內容14
  • 1.4.2 論文組織結構14-16
  • 第二章 相關知識介紹16-23
  • 2.1 DNA序列測序相關知識16-17
  • 2.1.1 測序技術簡介16
  • 2.1.2 第一代測序技術16
  • 2.1.3 第二代測序技術16-17
  • 2.2 Error correction相關知識17-18
  • 2.2.1 Error correction算法的作用17
  • 2.2.2 Error correction算法的相關概念17-18
  • 2.3 Hadoop相關知識18-22
  • 2.3.1 Hadoop項目簡介18-20
  • 2.3.2 HDFS與Map/Reduce的體系結構20-22
  • 2.4 本章小結22-23
  • 第三章 基于云平臺的Error correction算法23-47
  • 3.1 Error correction算法23-26
  • 3.1.1 幾種常見的串行Error correction算法23-25
  • 3.1.2 并行化的Error correction算法25-26
  • 3.1.3 并行化Error correction算法中Map/Reduce的工作流程與機制26
  • 3.2 并行Error correction算法的數(shù)據(jù)結構26-28
  • 3.3 并行Error correction算法的數(shù)據(jù)預處理28-33
  • 3.3.1 修改文件格式28-29
  • 3.3.2 過濾數(shù)據(jù)文件29-31
  • 3.3.3 并行枚舉出所有K-mer31-33
  • 3.4 并行Error correction算法K-mer與Reads的序列比對33-41
  • 3.4.1 讀入K-mer與reads數(shù)據(jù)34-37
  • 3.4.2 K-mer與reads的比對37-39
  • 3.4.3 利用比對結果構建鏈表并演化鏈表39-41
  • 3.5 完善堿基糾錯規(guī)則并修改錯誤堿基41-43
  • 3.6 后續(xù)堿基微調工作43-46
  • 3.7 本章小結46-47
  • 第四章 實驗結果和分析47-54
  • 4.1 Open stack云平臺的部署策略47-49
  • 4.1.1 Open stac軟硬件環(huán)境介紹47
  • 4.1.2 針對并行Error correction算法的云平臺部署47-49
  • 4.2 Hadoop集群的部署策略49-50
  • 4.2.1 針對并行Error correction算法的Hadoop部署49-50
  • 4.3 實驗的數(shù)據(jù)來源50-51
  • 4.4 實驗結果分析51-53
  • 4.5 本章小結53-54
  • 第五章 總結與展望54-56
  • 5.1 本文工作總結54
  • 5.2 工作展望54-56
  • 參考文獻56-60
  • 致謝60-61
  • 攻讀碩士學位期間發(fā)表和錄用的論文61

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期

2 白瑞俊;劉光明;張瑞虹;柴寶強;;虛擬化技術OpenStack在高性能計算集群上的應用與研究[J];計算機光盤軟件與應用;2013年15期

3 李知杰;趙健飛;;OpenStack開源云計算平臺[J];軟件導刊;2012年12期

4 李英壯;汪楠;李先毅;;基于OpenStack開發(fā)云平臺的設計與實現(xiàn)[J];武漢大學學報(理學版);2012年S1期

中國碩士學位論文全文數(shù)據(jù)庫 前1條

1 曾培龍;基于reads引導的基因組序列拼接[D];哈爾濱工業(yè)大學;2012年


  本文關鍵詞:基于云平臺的轉錄組數(shù)據(jù)Error correction算法的研究,由筆耕文化傳播整理發(fā)布。



本文編號:381192

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/381192.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶25321***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品熟女少妇一区二区三区| 国产日韩欧美国产欧美日韩| 大香蕉伊人一区二区三区| 老司机精品视频在线免费看 | 六月丁香六月综合缴情| 青青操视频在线播放免费| 欧美精品亚洲精品日韩精品| 欧美一级黄片免费视频| 国产精品午夜性色视频| 久久国产精品亚州精品毛片| 沐浴偷拍一区二区视频| 日韩中文字幕欧美亚洲| 一区二区三区人妻在线| 国产不卡免费高清视频| 欧美日韩亚洲国产综合网| 日韩成人中文字幕在线一区| 尹人大香蕉中文在线播放| 五月天婷亚洲天婷综合网| 欧美日韩精品综合一区| 国产一级性生活录像片| 欧美丝袜诱惑一区二区| 国产精品一区二区三区日韩av| 暴力三级a特黄在线观看| 2019年国产最新视频| 欧美激情床戏一区二区三| 国产精品视频第一第二区| 日本欧美视频在线观看免费| 成人精品亚洲欧美日韩| 加勒比日本欧美在线观看| 国产又粗又猛又黄又爽视频免费| 色综合伊人天天综合网中文| 日韩国产亚洲一区二区三区| 亚洲视频偷拍福利来袭| 日韩av生活片一区二区三区| 日韩亚洲激情在线观看| 亚洲美女国产精品久久| 激情亚洲一区国产精品久久| 久久精品国产99精品最新| 精品视频一区二区不卡| 欧美胖熟妇一区二区三区| 黄色污污在线免费观看|