基于分布式計(jì)算的高通量測(cè)序比對(duì)方法的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于分布式計(jì)算的高通量測(cè)序比對(duì)方法的研究與實(shí)現(xiàn)
更多相關(guān)文章: 分布式計(jì)算 序列比對(duì) 負(fù)載均衡 容錯(cuò)
【摘要】:高通量測(cè)序技術(shù)雖然測(cè)序數(shù)據(jù)通量大,但測(cè)序序列長(zhǎng)度比較短。這對(duì)于DNA序列的分析是一大挑戰(zhàn)。因此本文在深入分析了當(dāng)前序列比對(duì)的應(yīng)用需求和當(dāng)前序列比對(duì)算法的研究現(xiàn)狀和不足之處后,層層深入,研究實(shí)現(xiàn)了一種基于分布式計(jì)算的高通量測(cè)序比對(duì)方法: (1)提出了一種串行序列比對(duì)算法的分布式實(shí)現(xiàn)方法。針對(duì)基于FM-index結(jié)構(gòu)的序列比對(duì)算法的特點(diǎn),提出了一種串行序列比對(duì)算法的分布式實(shí)現(xiàn)方法,該方法基于Master/Slave模型,將比對(duì)過(guò)程分為數(shù)據(jù)預(yù)處理,序列分發(fā),序列比對(duì),結(jié)果匯總四個(gè)階段。并將單機(jī)下的Bowtie基于此方法進(jìn)行了分布式實(shí)現(xiàn),通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法實(shí)現(xiàn)的D-Mapping系統(tǒng)能較大限度的發(fā)揮各節(jié)點(diǎn)的性能,提升比對(duì)效率。 (2)一種基于MPI的分布式序列比對(duì)中的動(dòng)態(tài)負(fù)載均衡算法。針對(duì)D-Mapping系統(tǒng)的特點(diǎn)和MPI不支持負(fù)載均衡的缺點(diǎn),在研究分析分布式集群負(fù)載均衡算法的調(diào)度策略,相關(guān)影響因子的基礎(chǔ)上提出了該算法。該算法利用Master節(jié)點(diǎn)收集由Slave節(jié)點(diǎn)發(fā)送過(guò)來(lái)的當(dāng)前系統(tǒng)的負(fù)載均衡信息,節(jié)點(diǎn)調(diào)度的過(guò)程中無(wú)需調(diào)度整個(gè)進(jìn)程,只需要發(fā)送需要調(diào)度的DNA序列在文件中的位置。最后用真實(shí)的人類基因DNA測(cè)序序列驗(yàn)證了該算法的可行性和有效性。 (3)一種基于MPI的分布式序列比對(duì)系統(tǒng)的容錯(cuò)方法。在MPI標(biāo)準(zhǔn)中,并沒(méi)有對(duì)節(jié)點(diǎn)的容錯(cuò)做出有效的支持,只是在發(fā)生錯(cuò)誤時(shí)退出所有進(jìn)程,這大大限制了D-Mapping系統(tǒng)在大規(guī)模分布式集群中的應(yīng)用。在探討了MPI容錯(cuò)相關(guān)問(wèn)題的基礎(chǔ)上,提出了一種綜合了用戶控制的檢查點(diǎn)方法和MPI組間通信域的容錯(cuò)方法,該方法首先通過(guò)將每個(gè)Slave節(jié)點(diǎn)都與Master節(jié)點(diǎn)建立組間通信域保證了系統(tǒng)不會(huì)因?yàn)橐粋(gè)節(jié)點(diǎn)出錯(cuò)而全部退出,然后在計(jì)算過(guò)程中通過(guò)保存用戶控制的檢查點(diǎn)來(lái)實(shí)現(xiàn)節(jié)點(diǎn)出錯(cuò)后的任務(wù)調(diào)度和恢復(fù)。最后用真實(shí)的人類基因DNA測(cè)序序列驗(yàn)證了該方法的有效性。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:Q811.4;TP338.8
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 唐玉榮;生物信息學(xué)中的序列比對(duì)算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年29期
2 劉濱;石峰;;基于消息傳遞機(jī)制的動(dòng)態(tài)負(fù)載平衡算法研究[J];計(jì)算機(jī)工程;2007年10期
3 趙毅;曹宗雁;朱鵬;遲學(xué)斌;;不同層次MPI并行程序容錯(cuò)的比較[J];科研信息化技術(shù)與應(yīng)用;2011年06期
4 張春霆;生物信息學(xué)的現(xiàn)狀與展望[J];世界科技研究與發(fā)展;2000年06期
5 王興春;楊致榮;王敏;李瑋;李生才;;高通量測(cè)序技術(shù)及其應(yīng)用[J];中國(guó)生物工程雜志;2012年01期
6 盧照;張錦娟;師軍;魚(yú)佳欣;;MPI動(dòng)態(tài)負(fù)載平衡策略的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年05期
7 陸克中;林曉輝;;MPI并行程序設(shè)計(jì)的負(fù)載平衡實(shí)現(xiàn)方法[J];微計(jì)算機(jī)信息;2007年15期
8 羅東;;個(gè)性化醫(yī)療[J];中國(guó)民營(yíng)科技與經(jīng)濟(jì);2011年07期
9 楊燁;劉娟;;第二代測(cè)序序列比對(duì)方法綜述[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2012年05期
,本文編號(hào):1255661
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1255661.html