基于分布式計算的高通量測序比對方法的研究與實現(xiàn)
發(fā)布時間:2017-12-05 17:39
本文關鍵詞:基于分布式計算的高通量測序比對方法的研究與實現(xiàn)
【摘要】:高通量測序技術雖然測序數(shù)據(jù)通量大,但測序序列長度比較短。這對于DNA序列的分析是一大挑戰(zhàn)。因此本文在深入分析了當前序列比對的應用需求和當前序列比對算法的研究現(xiàn)狀和不足之處后,層層深入,研究實現(xiàn)了一種基于分布式計算的高通量測序比對方法: (1)提出了一種串行序列比對算法的分布式實現(xiàn)方法。針對基于FM-index結(jié)構(gòu)的序列比對算法的特點,提出了一種串行序列比對算法的分布式實現(xiàn)方法,該方法基于Master/Slave模型,將比對過程分為數(shù)據(jù)預處理,序列分發(fā),序列比對,結(jié)果匯總四個階段。并將單機下的Bowtie基于此方法進行了分布式實現(xiàn),通過實驗驗證了該方法實現(xiàn)的D-Mapping系統(tǒng)能較大限度的發(fā)揮各節(jié)點的性能,提升比對效率。 (2)一種基于MPI的分布式序列比對中的動態(tài)負載均衡算法。針對D-Mapping系統(tǒng)的特點和MPI不支持負載均衡的缺點,在研究分析分布式集群負載均衡算法的調(diào)度策略,相關影響因子的基礎上提出了該算法。該算法利用Master節(jié)點收集由Slave節(jié)點發(fā)送過來的當前系統(tǒng)的負載均衡信息,節(jié)點調(diào)度的過程中無需調(diào)度整個進程,只需要發(fā)送需要調(diào)度的DNA序列在文件中的位置。最后用真實的人類基因DNA測序序列驗證了該算法的可行性和有效性。 (3)一種基于MPI的分布式序列比對系統(tǒng)的容錯方法。在MPI標準中,并沒有對節(jié)點的容錯做出有效的支持,只是在發(fā)生錯誤時退出所有進程,這大大限制了D-Mapping系統(tǒng)在大規(guī)模分布式集群中的應用。在探討了MPI容錯相關問題的基礎上,提出了一種綜合了用戶控制的檢查點方法和MPI組間通信域的容錯方法,該方法首先通過將每個Slave節(jié)點都與Master節(jié)點建立組間通信域保證了系統(tǒng)不會因為一個節(jié)點出錯而全部退出,然后在計算過程中通過保存用戶控制的檢查點來實現(xiàn)節(jié)點出錯后的任務調(diào)度和恢復。最后用真實的人類基因DNA測序序列驗證了該方法的有效性。
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:Q811.4;TP338.8
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 唐玉榮;生物信息學中的序列比對算法[J];計算機工程與應用;2003年29期
2 劉濱;石峰;;基于消息傳遞機制的動態(tài)負載平衡算法研究[J];計算機工程;2007年10期
3 趙毅;曹宗雁;朱鵬;遲學斌;;不同層次MPI并行程序容錯的比較[J];科研信息化技術與應用;2011年06期
4 張春霆;生物信息學的現(xiàn)狀與展望[J];世界科技研究與發(fā)展;2000年06期
5 王興春;楊致榮;王敏;李瑋;李生才;;高通量測序技術及其應用[J];中國生物工程雜志;2012年01期
6 盧照;張錦娟;師軍;魚佳欣;;MPI動態(tài)負載平衡策略的研究與實現(xiàn)[J];計算機技術與發(fā)展;2010年05期
7 陸克中;林曉輝;;MPI并行程序設計的負載平衡實現(xiàn)方法[J];微計算機信息;2007年15期
8 羅東;;個性化醫(yī)療[J];中國民營科技與經(jīng)濟;2011年07期
9 楊燁;劉娟;;第二代測序序列比對方法綜述[J];武漢大學學報(理學版);2012年05期
,本文編號:1255661
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1255661.html
最近更新
教材專著