天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于k-mer相異度算法在系統(tǒng)進化關(guān)系中的應(yīng)用

發(fā)布時間:2020-05-03 18:50
【摘要】:系統(tǒng)發(fā)育學(xué)是研究生物進化關(guān)系的一門學(xué)科,在系統(tǒng)發(fā)育學(xué)中,最常用于研究進化關(guān)系的方法就是系統(tǒng)進化樹。基于多序列比對法的經(jīng)典的系統(tǒng)進化樹構(gòu)建算法速度太慢,無法在大規(guī)模數(shù)據(jù)上進行運行,序列非比對法中基于k-mer的相異度算法構(gòu)建系統(tǒng)進化樹則不受這些限制影響,因而具有更廣泛的應(yīng)用前景。近些年來,基于k-mer的相異度算法被強調(diào)為基于系統(tǒng)發(fā)育推斷中多重序列比對法的替代方法。基于k-mer的相異度算法屬于序列非比對法中的一種,正處于快速發(fā)展的階段,在不同的進化情景下使用基于k-mer的相異度算法系統(tǒng)地評估系統(tǒng)發(fā)育推理的準確性成為當前研究的一個熱點和難點。本論文利用自己開發(fā)的軟件包SeqDistK及一種比較經(jīng)典的CAFE軟件包實現(xiàn)了d2S等7種基于k-mer的相異度算法的距離矩陣,并在此基礎(chǔ)上結(jié)合UPGMA構(gòu)建系統(tǒng)進化樹或進行聚類。基于一個已知進化關(guān)系的16S rRNA驗證數(shù)據(jù)集(57條分子序列,稱之為標準樹),我們驗證了基于k-mer的7種相異度算法構(gòu)建系統(tǒng)進化樹的準確度。與已知的真實進化關(guān)系相比較,我們發(fā)現(xiàn)基于k-mer的d2、d2S、d2star、Ma、Eu、Hao等多個相異度算法所得的系統(tǒng)進化樹與標準樹差異不大(Ch有一定的誤差),特別是d2、d2star、d2S和Eu算法在k=5時有極其優(yōu)異的性能,所得系統(tǒng)進化樹與標準樹相差無幾。其中相異度算法d2S選取馬爾可夫階次為2時的算法可達到最高精準度(對稱差僅有12)。本論文還利用軟件包SeqDistK對63條16S rRNA序列所得的距離矩陣進行菌類聚類驗證,發(fā)現(xiàn)所得聚類結(jié)果與生物分類學(xué)基本一致,其中d2S(k=5,M=2)的表現(xiàn)最為優(yōu)秀,能準確的對樣本序列聚類以及分類。另外我們發(fā)展的基于k-mer相異度算法的軟件包SeqDistK無論是構(gòu)建系統(tǒng)進化樹還是菌類聚類具有運算速度快、精確度高的特點,適合于研究宏基因組大數(shù)據(jù)中的復(fù)雜系統(tǒng)發(fā)育關(guān)系的推理。使用基于k-mer相異度算法結(jié)合UPGMA研究基因組的復(fù)雜進化關(guān)系,這可能潛在地為系統(tǒng)進化提供新的見解,并改變我們傳統(tǒng)的進行系統(tǒng)發(fā)育的研究方式,潛在地推進下一代系統(tǒng)發(fā)育學(xué)的發(fā)展。
【圖文】:

序列,距離矩陣,系統(tǒng)進化樹,出現(xiàn)次數(shù)


華南理工大學(xué)碩士學(xué)位論文10圖2-1 簡化的工作流程說明:我們對4條序列構(gòu)建系統(tǒng)進化樹為例說明(1)從四條序列中搜索k-mer (k=5,例GCCGT)(2)四條序列中所有k-mer (k=5)出現(xiàn)次數(shù)的統(tǒng)計(3)四條序列的距離矩陣圖(4)用UPGMA畫出四條序列的系統(tǒng)進化樹基于k-mer的序列相異度算法近年來不斷地被提出來,索引k-mer并且統(tǒng)計其頻次的技術(shù)已經(jīng)日趨成熟,并且k-mer的實際應(yīng)用已經(jīng)非常地多而且取得了不錯的成效,本論文提及的7種相異度算法就是基于k-mer的頻次,基于k-mer的相異度算法的第一步就是把由A、C、G、T四個字母構(gòu)成的序列通過k-mer頻次計數(shù)的方法化為一個k-mer頻度向量,這也是這種算法的關(guān)鍵部分,我們可以用這個向量來表示序列的k-mer頻度分布特征

界面圖,軟件運行,界面,相異度


圖2-2 SeqDistK軟件運行界面基于C#本研究小組自行開發(fā)了基于k-mer統(tǒng)計的相異度算法軟件包SeqDistK,可尋https://github.com/htczero/SeqDistK,具有計算速度快,簡潔,占用空間小的特點。們軟件包的界面簡化圖如圖2-2。SeqDistK通過對輸入的序列文件的k-mer進行統(tǒng)計,對不同序列的k-mer頻率進行較,再用不同的相異度算法算出序列間的相異度。最后SeqDistK可以輸出距離矩陣文,矩陣文件可以與UPGMA軟件包相兼容,方便得出系統(tǒng)進化樹。SeqDistK有多個功能自由設(shè)置k-mer的k值和相異度算法d2S,d2star的馬爾可夫階次M可以完成一條序列N條序列的比對或者N條序列的兩兩比對。SeqDistK包含了7種相異度算法,Euclidi離,Manhattan,Chebyshev距離,Hao(也叫CVTree),d2,d2S及d2star。該軟件包所時間與輸入文件的大小與選擇的k值及M值相關(guān),運行程序的內(nèi)存只與k的取值有關(guān)SeqDistK軟件包具有以下優(yōu)勢:(1)通過多次優(yōu)化,充分利用多線程編程提高CPU利
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q111;TP301.6

【參考文獻】

相關(guān)期刊論文 前2條

1 洪義國,孫謐,張云波,李勃生;16SrRNA在海洋微生物系統(tǒng)分子分類鑒定及分子檢測中的應(yīng)用[J];海洋水產(chǎn)研究;2002年01期

2 周煜;16S rRNA序列分析法在醫(yī)學(xué)微生物鑒定中的應(yīng)用[J];生物技術(shù)通訊;1999年04期

相關(guān)博士學(xué)位論文 前1條

1 鄧偉;生物序列的相似性分析及k詞模型研究[D];山東大學(xué);2015年

,

本文編號:2647957

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2647957.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f905a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com