多參考基因短序列比對工具MUGI的優(yōu)化與移植
發(fā)布時間:2020-09-28 13:23
生物的進化方向由遺傳信息所決定,而DNA是承載遺傳信息的唯一物質(zhì)。新一代的測序工具的飛速發(fā)展正使得獲取基因數(shù)據(jù)變得日漸廉價。這意味著,我們正進入到基因大數(shù)據(jù)的時代。近期,一個新的課題正在興起,其名為多參考基因的短序列比對。到目前為止,已出現(xiàn)的優(yōu)秀比對軟件已經(jīng)昭示著這個課題正日趨成熟。一款優(yōu)秀的多參考基因比對軟件的關(guān)鍵在于簡潔優(yōu)秀的索引設(shè)計和與索引相匹配的比對算法設(shè)計;谏鲜鰞牲c,我們選取了一款在當(dāng)前十分優(yōu)秀的比對軟件MUGI進行研究。本文是從軟件優(yōu)化的方向來研究多參考基因的短序列比對技術(shù)。我們首先介紹了生物比對工具的研究背景和現(xiàn)狀,分析了MUGI優(yōu)化與移植的必要性。再對MUGI目前尚存在的優(yōu)化空間進行分析,并提出相應(yīng)的解決方案。下面介紹本文的主要研究成果和工作。一、對于MUGI軟件中索引所匹配的比對算法比對速度較慢,算法設(shè)計不夠具有針對性的問題,我們分別設(shè)計了新的比MUGI原算法更加具有針對性的精確比對和非精確比對算法。新的精確比對算法在增加少量的索引大小的前提下大幅提升了比對速度,而新的非精確比對算法優(yōu)化了原MUGI非精確比對算法的流程,在不改變索引的情況下,提升了比對速度。二、針對MUGI比對算法是單線程所導(dǎo)致無法發(fā)揮多核結(jié)構(gòu)服務(wù)器性能的實際問題,我們對MUGI比對算法設(shè)計了線程池,以充分利用服務(wù)器的多核結(jié)構(gòu)。針對MUGI不能直接在龍芯平臺運行的問題,本文首次對MUGI進行全面的移植。同時,結(jié)合龍芯的結(jié)構(gòu)特征,利用龍芯的向量部件與多媒體擴展指令進行優(yōu)化。做到移植優(yōu)化兩不誤,既擴展了龍芯的運用,同時還優(yōu)化了程序的性能。三、構(gòu)建修改參考框架,框架中可以任意搭配修改算法。同時,本文根據(jù)變異點密度與索引大小的關(guān)系,設(shè)計了一種修改算法,最終達(dá)到了減小索引大小的效果。
【學(xué)位單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
DNA 是一種長鏈聚合物,它承載著生物的遺傳信息,其組成單位為腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶四種脫氧核苷酸,分別用 A、G、T、C 四個字符進行表示。不論是我們所提及的參考基因或者是在測序時被打算成短序列片段的read,都是由這四種脫氧核苷酸組成。這些序列都是只讀的,所以稱之為只讀片段。對于單參考基因來說,其參考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]這兩種格式的文件進行存儲。但是對于多參考基因來說,建立索引時需要有整個參考基因文庫的信息。文庫中的參考基因分為兩個部分,包括原參考基因和其他參考基因,原參考基因用 FASTA 或者 FASTQ 格式文件存儲,而其他參考基因則用 VCF 文件格式存儲,VCF 文件[40]記錄了基因文庫中的其它參考基因?qū)τ谠瓍⒖蓟虻淖儺慄c信息。接下來,我們就要介紹著三種不同的文件格式首先,介紹 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下圖是一個來源于 NCBI 的 FASTA 格式文件:
一個來源于 NCBI 的 FASTA 格式文件:圖 2-2 FASTA 文件格式圖ASTA 格式第一行首先以大于號“>”開頭,接著是序列的標(biāo)識符,在部分為“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存儲序列,序列中允許空格,換行,空行,直到下一個大于序列結(jié)束,通常每行不超過 80 個字符。
多參考基因短序列比對工具 MUGI 的優(yōu)化與移植上圖是一個來源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中對于每條短序列通常用四行進行描述。第一行以“@”起始,后接序列標(biāo)識及相關(guān)信息。第二行記錄序列,第三行以“+”起始,后面接序列標(biāo)示符、描述信息或什么也不接,第四行則記錄質(zhì)量信息。最后,我們介紹 VCF 文件格式,VCF 文件格式用于記錄描述遺傳變異,是GATK[41]所鐘愛的表示方法。
本文編號:2828847
【學(xué)位單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
DNA 是一種長鏈聚合物,它承載著生物的遺傳信息,其組成單位為腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶四種脫氧核苷酸,分別用 A、G、T、C 四個字符進行表示。不論是我們所提及的參考基因或者是在測序時被打算成短序列片段的read,都是由這四種脫氧核苷酸組成。這些序列都是只讀的,所以稱之為只讀片段。對于單參考基因來說,其參考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]這兩種格式的文件進行存儲。但是對于多參考基因來說,建立索引時需要有整個參考基因文庫的信息。文庫中的參考基因分為兩個部分,包括原參考基因和其他參考基因,原參考基因用 FASTA 或者 FASTQ 格式文件存儲,而其他參考基因則用 VCF 文件格式存儲,VCF 文件[40]記錄了基因文庫中的其它參考基因?qū)τ谠瓍⒖蓟虻淖儺慄c信息。接下來,我們就要介紹著三種不同的文件格式首先,介紹 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下圖是一個來源于 NCBI 的 FASTA 格式文件:
一個來源于 NCBI 的 FASTA 格式文件:圖 2-2 FASTA 文件格式圖ASTA 格式第一行首先以大于號“>”開頭,接著是序列的標(biāo)識符,在部分為“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存儲序列,序列中允許空格,換行,空行,直到下一個大于序列結(jié)束,通常每行不超過 80 個字符。
多參考基因短序列比對工具 MUGI 的優(yōu)化與移植上圖是一個來源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中對于每條短序列通常用四行進行描述。第一行以“@”起始,后接序列標(biāo)識及相關(guān)信息。第二行記錄序列,第三行以“+”起始,后面接序列標(biāo)示符、描述信息或什么也不接,第四行則記錄質(zhì)量信息。最后,我們介紹 VCF 文件格式,VCF 文件格式用于記錄描述遺傳變異,是GATK[41]所鐘愛的表示方法。
【參考文獻】
相關(guān)期刊論文 前1條
1 彭飛;顧乃杰;高翔;孫明明;;龍芯3B的SIMD編譯優(yōu)化及分析[J];小型微型計算機系統(tǒng);2012年12期
相關(guān)碩士學(xué)位論文 前2條
1 劉國強;SOAP2在龍芯平臺上的移植和優(yōu)化[D];深圳大學(xué);2015年
2 劉波;基于龍芯SIMD技術(shù)的RealVideo解碼優(yōu)化[D];中國石油大學(xué);2008年
本文編號:2828847
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2828847.html
最近更新
教材專著