天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

基于k-mer相異度算法在系統(tǒng)進(jìn)化關(guān)系中的應(yīng)用

發(fā)布時(shí)間:2020-05-03 18:50
【摘要】:系統(tǒng)發(fā)育學(xué)是研究生物進(jìn)化關(guān)系的一門學(xué)科,在系統(tǒng)發(fā)育學(xué)中,最常用于研究進(jìn)化關(guān)系的方法就是系統(tǒng)進(jìn)化樹。基于多序列比對法的經(jīng)典的系統(tǒng)進(jìn)化樹構(gòu)建算法速度太慢,無法在大規(guī)模數(shù)據(jù)上進(jìn)行運(yùn)行,序列非比對法中基于k-mer的相異度算法構(gòu)建系統(tǒng)進(jìn)化樹則不受這些限制影響,因而具有更廣泛的應(yīng)用前景。近些年來,基于k-mer的相異度算法被強(qiáng)調(diào)為基于系統(tǒng)發(fā)育推斷中多重序列比對法的替代方法;趉-mer的相異度算法屬于序列非比對法中的一種,正處于快速發(fā)展的階段,在不同的進(jìn)化情景下使用基于k-mer的相異度算法系統(tǒng)地評估系統(tǒng)發(fā)育推理的準(zhǔn)確性成為當(dāng)前研究的一個(gè)熱點(diǎn)和難點(diǎn)。本論文利用自己開發(fā)的軟件包SeqDistK及一種比較經(jīng)典的CAFE軟件包實(shí)現(xiàn)了d2S等7種基于k-mer的相異度算法的距離矩陣,并在此基礎(chǔ)上結(jié)合UPGMA構(gòu)建系統(tǒng)進(jìn)化樹或進(jìn)行聚類;谝粋(gè)已知進(jìn)化關(guān)系的16S rRNA驗(yàn)證數(shù)據(jù)集(57條分子序列,稱之為標(biāo)準(zhǔn)樹),我們驗(yàn)證了基于k-mer的7種相異度算法構(gòu)建系統(tǒng)進(jìn)化樹的準(zhǔn)確度。與已知的真實(shí)進(jìn)化關(guān)系相比較,我們發(fā)現(xiàn)基于k-mer的d2、d2S、d2star、Ma、Eu、Hao等多個(gè)相異度算法所得的系統(tǒng)進(jìn)化樹與標(biāo)準(zhǔn)樹差異不大(Ch有一定的誤差),特別是d2、d2star、d2S和Eu算法在k=5時(shí)有極其優(yōu)異的性能,所得系統(tǒng)進(jìn)化樹與標(biāo)準(zhǔn)樹相差無幾。其中相異度算法d2S選取馬爾可夫階次為2時(shí)的算法可達(dá)到最高精準(zhǔn)度(對稱差僅有12)。本論文還利用軟件包SeqDistK對63條16S rRNA序列所得的距離矩陣進(jìn)行菌類聚類驗(yàn)證,發(fā)現(xiàn)所得聚類結(jié)果與生物分類學(xué)基本一致,其中d2S(k=5,M=2)的表現(xiàn)最為優(yōu)秀,能準(zhǔn)確的對樣本序列聚類以及分類。另外我們發(fā)展的基于k-mer相異度算法的軟件包SeqDistK無論是構(gòu)建系統(tǒng)進(jìn)化樹還是菌類聚類具有運(yùn)算速度快、精確度高的特點(diǎn),適合于研究宏基因組大數(shù)據(jù)中的復(fù)雜系統(tǒng)發(fā)育關(guān)系的推理。使用基于k-mer相異度算法結(jié)合UPGMA研究基因組的復(fù)雜進(jìn)化關(guān)系,這可能潛在地為系統(tǒng)進(jìn)化提供新的見解,并改變我們傳統(tǒng)的進(jìn)行系統(tǒng)發(fā)育的研究方式,潛在地推進(jìn)下一代系統(tǒng)發(fā)育學(xué)的發(fā)展。
【圖文】:

序列,距離矩陣,系統(tǒng)進(jìn)化樹,出現(xiàn)次數(shù)


華南理工大學(xué)碩士學(xué)位論文10圖2-1 簡化的工作流程說明:我們對4條序列構(gòu)建系統(tǒng)進(jìn)化樹為例說明(1)從四條序列中搜索k-mer (k=5,例GCCGT)(2)四條序列中所有k-mer (k=5)出現(xiàn)次數(shù)的統(tǒng)計(jì)(3)四條序列的距離矩陣圖(4)用UPGMA畫出四條序列的系統(tǒng)進(jìn)化樹基于k-mer的序列相異度算法近年來不斷地被提出來,索引k-mer并且統(tǒng)計(jì)其頻次的技術(shù)已經(jīng)日趨成熟,并且k-mer的實(shí)際應(yīng)用已經(jīng)非常地多而且取得了不錯(cuò)的成效,本論文提及的7種相異度算法就是基于k-mer的頻次,基于k-mer的相異度算法的第一步就是把由A、C、G、T四個(gè)字母構(gòu)成的序列通過k-mer頻次計(jì)數(shù)的方法化為一個(gè)k-mer頻度向量,這也是這種算法的關(guān)鍵部分,我們可以用這個(gè)向量來表示序列的k-mer頻度分布特征

界面圖,軟件運(yùn)行,界面,相異度


圖2-2 SeqDistK軟件運(yùn)行界面基于C#本研究小組自行開發(fā)了基于k-mer統(tǒng)計(jì)的相異度算法軟件包SeqDistK,可尋https://github.com/htczero/SeqDistK,具有計(jì)算速度快,簡潔,占用空間小的特點(diǎn)。們軟件包的界面簡化圖如圖2-2。SeqDistK通過對輸入的序列文件的k-mer進(jìn)行統(tǒng)計(jì),對不同序列的k-mer頻率進(jìn)行較,再用不同的相異度算法算出序列間的相異度。最后SeqDistK可以輸出距離矩陣文,矩陣文件可以與UPGMA軟件包相兼容,方便得出系統(tǒng)進(jìn)化樹。SeqDistK有多個(gè)功能自由設(shè)置k-mer的k值和相異度算法d2S,d2star的馬爾可夫階次M可以完成一條序列N條序列的比對或者N條序列的兩兩比對。SeqDistK包含了7種相異度算法,Euclidi離,Manhattan,Chebyshev距離,Hao(也叫CVTree),d2,d2S及d2star。該軟件包所時(shí)間與輸入文件的大小與選擇的k值及M值相關(guān),運(yùn)行程序的內(nèi)存只與k的取值有關(guān)SeqDistK軟件包具有以下優(yōu)勢:(1)通過多次優(yōu)化,充分利用多線程編程提高CPU利
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q111;TP301.6

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 洪義國,孫謐,張?jiān)撇?李勃生;16SrRNA在海洋微生物系統(tǒng)分子分類鑒定及分子檢測中的應(yīng)用[J];海洋水產(chǎn)研究;2002年01期

2 周煜;16S rRNA序列分析法在醫(yī)學(xué)微生物鑒定中的應(yīng)用[J];生物技術(shù)通訊;1999年04期

相關(guān)博士學(xué)位論文 前1條

1 鄧偉;生物序列的相似性分析及k詞模型研究[D];山東大學(xué);2015年

,

本文編號:2647957

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2647957.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f905a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
黄色国产精品一区二区三区| 精品国产亚洲一区二区三区| 老司机精品福利视频在线播放| 久久精品免费视看国产成人| 日韩精品区欧美在线一区 | 国产精品伦一区二区三区四季| 久久热在线免费视频精品| 国产农村妇女成人精品| 九九热精品视频在线观看| 有坂深雪中文字幕亚洲中文| 亚洲欧美一二区日韩高清在线| 中文字幕免费观看亚洲视频 | 少妇人妻精品一区二区三区| 国产欧美日韩精品自拍| 日韩精品一级一区二区| 少妇淫真视频一区二区| 国产av熟女一区二区三区四区| 亚洲熟女国产熟女二区三区| 亚洲精品国产第一区二区多人| 亚洲一区二区三区有码| 久久综合狠狠综合久久综合| 五月天婷亚洲天婷综合网| 天堂av一区一区一区| 欧美成人一区二区三区在线| 二区久久久国产av色| 人妻内射在线二区一区| 天海翼精品久久中文字幕| 欧美日韩亚洲精品内裤| 亚洲超碰成人天堂涩涩| 欧美日韩国产一级91| 东京热电东京热一区二区三区| 日韩国产亚洲欧美另类| 国产日韩欧美综合视频| 日韩一级欧美一级久久| 欧美日韩精品人妻二区三区| 91福利视频日本免费看看| 国产精品福利一级久久| 精品国产一区二区欧美| 不卡在线播放一区二区三区| 91日韩欧美在线视频| 亚洲精品av少妇在线观看|