天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 理工論文 > 生物學論文 >

基于Spark的基因組學數(shù)據(jù)比對算法的并行化研究與比對平臺構建

發(fā)布時間:2020-05-26 13:14
【摘要】:近年來,隨著高通量測序技術的出現(xiàn),極大的推動了生物信息領域的發(fā)展,基因組序列比對是生物信息數(shù)據(jù)分析的關鍵環(huán)節(jié)。BLAST(Basic Local Alignment Search Tool)作為應用廣泛并且具有較高精度的基因序列局部比對算法,它在保持較高精度的前提下可以相對減少任務運行時間。然而,BLAST在比對海量或者較大數(shù)據(jù)集的高通量基因數(shù)據(jù)時存在一定的性能瓶頸,比對效率較低。針對BLAST存在的性能瓶頸問題,本文提出一種基于大數(shù)據(jù)技術內存計算框架Spark的Spark_BLAST分布式并行方法。該方法基于Spark內存計算的優(yōu)勢,對基因序列進行任務識別、劃分、計算等。采用Apache YARN資源調度器完成比對任務調度和資源分配,實現(xiàn)了 BLAST算法的分布式并行計算。本實驗通過5節(jié)點的Spark集群與單機BLAST實驗結果進行對比驗證,在不改變比對結果精度的情況下,Spark_BLAST的加速比可達4左右,實驗結果表明基于Spark的并行化方法可以大大提高BLAST運算效率,緩解其性能瓶頸問題,為生物信息學領域提供一個高效計算的Spark_BLAST比對方法。同時本課題采用大數(shù)據(jù)技術Hadoop的HDFS作為基因組數(shù)據(jù)存儲文件系統(tǒng),解決了海量高通量基因組數(shù)據(jù)可擴展增量存儲問題。另外,設計并開發(fā)了基于Web端的簡潔構建了便捷的圖形化界面操作基因比對平臺,為生物信息領域研究人員的基因數(shù)據(jù)比對分析帶了極大便利。
【圖文】:

基于Spark的基因組學數(shù)據(jù)比對算法的并行化研究與比對平臺構建


圖1邋Spark_BLAST分布式并行計算流程圖逡逑Figure邋1邋The邋flow邋chart邋of邋Spark邋BLAST邋distributed邋parallel邋computing逡逑

基于Spark的基因組學數(shù)據(jù)比對算法的并行化研究與比對平臺構建


圖2分發(fā)目標數(shù)據(jù)庫文件逡逑Fiure邋2邋Distribution邋of邋taret邋database邋files逡逑
【學位授予單位】:內蒙古農業(yè)大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:Q811.4;TP311.13

【參考文獻】

相關期刊論文 前2條

1 盧小賓;王濤;;Google三大云計算技術對海量數(shù)據(jù)分析流程的技術改進優(yōu)化研究[J];圖書情報工作;2015年03期

2 王興春;楊致榮;王敏;李瑋;李生才;;高通量測序技術及其應用[J];中國生物工程雜志;2012年01期

相關碩士學位論文 前5條

1 張軍;基于異構計算平臺的MapReduce編程模型的研究[D];山東大學;2016年

2 趙玉京;基于Zookeeper的分布式范圍鎖的設計與實現(xiàn)[D];華中科技大學;2015年

3 李青云;基于HBase的應用平臺的研究與實現(xiàn)[D];北京郵電大學;2015年

4 龍少杭;基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D];上海交通大學;2015年

5 王永洲;基于HDFS的存儲技術的研究[D];南京郵電大學;2013年



本文編號:2681893

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2681893.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶48dd0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com