基于Spark的CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-19 00:35
基因編輯技術(shù)在基因功能研究、物種性狀改良和疾病研究中具有非常重要的作用,成為當(dāng)下的研究熱點(diǎn)。CRISPR系統(tǒng)是目前最具發(fā)展?jié)摿Φ幕蚓庉嫻ぞ?但由于其存在脫靶效應(yīng),可能會(huì)導(dǎo)致不確定位置的DNA片段遭到破壞。提前對(duì)全基因組范圍內(nèi)存在的脫靶位點(diǎn)進(jìn)行預(yù)測(cè)來實(shí)現(xiàn)風(fēng)險(xiǎn)規(guī)避,對(duì)安全有效的CRISPR系統(tǒng)的設(shè)計(jì)與應(yīng)用具有非常重要的指導(dǎo)意義。目前已有的CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法的運(yùn)行效率都不是很高,在全基因組范圍對(duì)脫靶位點(diǎn)進(jìn)行預(yù)測(cè)十分耗時(shí)。本文提出了一種新的脫靶位點(diǎn)預(yù)測(cè)算法Spark-OFFinder,該算法將FM-index算法應(yīng)用到了脫靶位點(diǎn)預(yù)測(cè)當(dāng)中,通過使用Spark分布式計(jì)算框架,使之能在Spark集群當(dāng)中并發(fā)運(yùn)行。本文對(duì)參考基因組序列生成FM-index索引文件,并對(duì)索引文件的內(nèi)容進(jìn)行壓縮處理,使其能夠完全加載到內(nèi)存當(dāng)中,提升讀取效率。Spark-OFFinder設(shè)計(jì)了一種基于FM-index算法的部分模糊匹配算法,能在參考基因組序列中搜索CRISPR系統(tǒng)的脫靶位點(diǎn),并通過一定的優(yōu)化措施來縮小搜索空間,以提升算法的運(yùn)行效率。本文還使用MapReduce編程模型將該算法并行化處理,并基于...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 項(xiàng)目來源及研究?jī)?nèi)容
1.4 論文結(jié)構(gòu)
2 相關(guān)概念、算法及技術(shù)介紹
2.1 CRISPR/Cas9 系統(tǒng)
2.2 Burrows-Wheeler變換及后綴數(shù)組
2.3 FM-index算法
2.4 Spark分布式計(jì)算框架
2.5 本章小結(jié)
3 基于Spark的 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法
3.1 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)問題描述及分析
3.2 對(duì)參考基因組序列生成FM-index索引文件
3.3 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法的設(shè)計(jì)與實(shí)現(xiàn)
3.4 基于Spark的算法并行化處理
3.5 本章小結(jié)
4 算法性能測(cè)試與結(jié)果分析
4.1 測(cè)試數(shù)據(jù)及環(huán)境
4.2 Spark-OFFinder單機(jī)性能測(cè)試與分析
4.3 Spark-OFFinder集群性能測(cè)試與分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]CRISPR/Cas9系統(tǒng)中sgRNA設(shè)計(jì)與脫靶效應(yīng)評(píng)估[J]. 謝勝松,張懿,張利生,李廣磊,趙長(zhǎng)志,倪攀,趙書紅. 遺傳. 2015(11)
[2]CRISPR/Cas9的應(yīng)用及脫靶效應(yīng)研究進(jìn)展[J]. 鄭武,谷峰. 遺傳. 2015(10)
[3]FM-index分塊并行算法及其實(shí)現(xiàn)[J]. 李開士,張?jiān)迫?李玉成. 計(jì)算機(jī)工程. 2008(08)
本文編號(hào):3503922
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 項(xiàng)目來源及研究?jī)?nèi)容
1.4 論文結(jié)構(gòu)
2 相關(guān)概念、算法及技術(shù)介紹
2.1 CRISPR/Cas9 系統(tǒng)
2.2 Burrows-Wheeler變換及后綴數(shù)組
2.3 FM-index算法
2.4 Spark分布式計(jì)算框架
2.5 本章小結(jié)
3 基于Spark的 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法
3.1 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)問題描述及分析
3.2 對(duì)參考基因組序列生成FM-index索引文件
3.3 CRISPR系統(tǒng)脫靶位點(diǎn)預(yù)測(cè)算法的設(shè)計(jì)與實(shí)現(xiàn)
3.4 基于Spark的算法并行化處理
3.5 本章小結(jié)
4 算法性能測(cè)試與結(jié)果分析
4.1 測(cè)試數(shù)據(jù)及環(huán)境
4.2 Spark-OFFinder單機(jī)性能測(cè)試與分析
4.3 Spark-OFFinder集群性能測(cè)試與分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]CRISPR/Cas9系統(tǒng)中sgRNA設(shè)計(jì)與脫靶效應(yīng)評(píng)估[J]. 謝勝松,張懿,張利生,李廣磊,趙長(zhǎng)志,倪攀,趙書紅. 遺傳. 2015(11)
[2]CRISPR/Cas9的應(yīng)用及脫靶效應(yīng)研究進(jìn)展[J]. 鄭武,谷峰. 遺傳. 2015(10)
[3]FM-index分塊并行算法及其實(shí)現(xiàn)[J]. 李開士,張?jiān)迫?李玉成. 計(jì)算機(jī)工程. 2008(08)
本文編號(hào):3503922
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3503922.html
最近更新
教材專著