基于Spark的基因組學(xué)數(shù)據(jù)比對(duì)算法的并行化研究與比對(duì)平臺(tái)構(gòu)建
發(fā)布時(shí)間:2020-05-26 13:14
【摘要】:近年來(lái),隨著高通量測(cè)序技術(shù)的出現(xiàn),極大的推動(dòng)了生物信息領(lǐng)域的發(fā)展,基因組序列比對(duì)是生物信息數(shù)據(jù)分析的關(guān)鍵環(huán)節(jié)。BLAST(Basic Local Alignment Search Tool)作為應(yīng)用廣泛并且具有較高精度的基因序列局部比對(duì)算法,它在保持較高精度的前提下可以相對(duì)減少任務(wù)運(yùn)行時(shí)間。然而,BLAST在比對(duì)海量或者較大數(shù)據(jù)集的高通量基因數(shù)據(jù)時(shí)存在一定的性能瓶頸,比對(duì)效率較低。針對(duì)BLAST存在的性能瓶頸問(wèn)題,本文提出一種基于大數(shù)據(jù)技術(shù)內(nèi)存計(jì)算框架Spark的Spark_BLAST分布式并行方法。該方法基于Spark內(nèi)存計(jì)算的優(yōu)勢(shì),對(duì)基因序列進(jìn)行任務(wù)識(shí)別、劃分、計(jì)算等。采用Apache YARN資源調(diào)度器完成比對(duì)任務(wù)調(diào)度和資源分配,實(shí)現(xiàn)了 BLAST算法的分布式并行計(jì)算。本實(shí)驗(yàn)通過(guò)5節(jié)點(diǎn)的Spark集群與單機(jī)BLAST實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比驗(yàn)證,在不改變比對(duì)結(jié)果精度的情況下,Spark_BLAST的加速比可達(dá)4左右,實(shí)驗(yàn)結(jié)果表明基于Spark的并行化方法可以大大提高BLAST運(yùn)算效率,緩解其性能瓶頸問(wèn)題,為生物信息學(xué)領(lǐng)域提供一個(gè)高效計(jì)算的Spark_BLAST比對(duì)方法。同時(shí)本課題采用大數(shù)據(jù)技術(shù)Hadoop的HDFS作為基因組數(shù)據(jù)存儲(chǔ)文件系統(tǒng),解決了海量高通量基因組數(shù)據(jù)可擴(kuò)展增量存儲(chǔ)問(wèn)題。另外,設(shè)計(jì)并開(kāi)發(fā)了基于Web端的簡(jiǎn)潔構(gòu)建了便捷的圖形化界面操作基因比對(duì)平臺(tái),為生物信息領(lǐng)域研究人員的基因數(shù)據(jù)比對(duì)分析帶了極大便利。
【圖文】:
圖1邋Spark_BLAST分布式并行計(jì)算流程圖逡逑Figure邋1邋The邋flow邋chart邋of邋Spark邋BLAST邋distributed邋parallel邋computing逡逑
圖2分發(fā)目標(biāo)數(shù)據(jù)庫(kù)文件逡逑Fiure邋2邋Distribution邋of邋taret邋database邋files逡逑
【學(xué)位授予單位】:內(nèi)蒙古農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP311.13
本文編號(hào):2681893
【圖文】:
圖1邋Spark_BLAST分布式并行計(jì)算流程圖逡逑Figure邋1邋The邋flow邋chart邋of邋Spark邋BLAST邋distributed邋parallel邋computing逡逑
圖2分發(fā)目標(biāo)數(shù)據(jù)庫(kù)文件逡逑Fiure邋2邋Distribution邋of邋taret邋database邋files逡逑
【學(xué)位授予單位】:內(nèi)蒙古農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 盧小賓;王濤;;Google三大云計(jì)算技術(shù)對(duì)海量數(shù)據(jù)分析流程的技術(shù)改進(jìn)優(yōu)化研究[J];圖書(shū)情報(bào)工作;2015年03期
2 王興春;楊致榮;王敏;李瑋;李生才;;高通量測(cè)序技術(shù)及其應(yīng)用[J];中國(guó)生物工程雜志;2012年01期
相關(guān)碩士學(xué)位論文 前5條
1 張軍;基于異構(gòu)計(jì)算平臺(tái)的MapReduce編程模型的研究[D];山東大學(xué);2016年
2 趙玉京;基于Zookeeper的分布式范圍鎖的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2015年
3 李青云;基于HBase的應(yīng)用平臺(tái)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
4 龍少杭;基于Storm的實(shí)時(shí)大數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
5 王永洲;基于HDFS的存儲(chǔ)技術(shù)的研究[D];南京郵電大學(xué);2013年
,本文編號(hào):2681893
本文鏈接:http://sikaile.net/projectlw/swxlw/2681893.html
最近更新
教材專著