基于深度學(xué)習(xí)的宏基因組序列分類方法研究
發(fā)布時(shí)間:2020-04-08 23:32
【摘要】:基因測(cè)序技術(shù)的高速發(fā)展使得測(cè)序的成本指數(shù)下降,下一代測(cè)序技術(shù)被廣泛應(yīng)用。同一時(shí)間能對(duì)復(fù)雜環(huán)境中不同微生物的基因組進(jìn)行測(cè)序,從而獲得大量的微生物基因數(shù)據(jù)。宏基因組學(xué)通過(guò)16S rRNA擴(kuò)增技術(shù)直接獲得微生物的全部DNA序列,通過(guò)這些序列信息分析出整個(gè)微生物群落物種的豐度,再根據(jù)豐度信息得到群落的特征和功能。16S rRNA測(cè)序產(chǎn)生的片段同時(shí)具有同源性和特異性,同源性可以用來(lái)追蹤物種的起源,特異性可以鑒別出不同的物種。已有研究表明人體腸道菌群與疾病和代謝息息相關(guān),宏基因組分析已成為研究微生物群落的重要的一種輔助方法。宏基因組研究的重要一步是鑒定物種的類別,已有許多的方法被提出用來(lái)解決此問(wèn)題,但是這些方法的分類正確率仍有很大的改進(jìn)空間。針對(duì)宏基因組分類問(wèn)題,本文提出了混合深度卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)的分類模型。該模型在卷積神經(jīng)網(wǎng)絡(luò)階段實(shí)現(xiàn)數(shù)據(jù)特征降維,在后一個(gè)全連接階段學(xué)習(xí)各種特征之間的非線性關(guān)系。用RDP和Greengenes數(shù)據(jù)庫(kù)中的三組數(shù)據(jù)集分別訓(xùn)練和測(cè)試模型,數(shù)據(jù)集中包含細(xì)菌和古菌的16S序列以及真菌ITS序列。訓(xùn)練好的模型能夠根據(jù)給定的基因序列預(yù)測(cè)已存在數(shù)據(jù)庫(kù)的分類標(biāo)簽,在無(wú)參考數(shù)據(jù)庫(kù)的情況下使用GPU實(shí)現(xiàn)多條查詢序列并行分配。本文對(duì)以下幾方面內(nèi)容展開了研究:(1)宏基因組數(shù)據(jù)分類特征提取。使用兩種不同的特征提取方式,一種是基于k-mer,以k個(gè)堿基劃分整條序列,組成特征空間。另一種是基于對(duì)齊的,這種方式先把不等長(zhǎng)的序列通過(guò)全局比對(duì)的方式處理成長(zhǎng)度一樣的序列。基因序列是字符串信息,在訓(xùn)練之前進(jìn)行編碼,編碼過(guò)程中考慮了序列實(shí)際的生物學(xué)意義。(2)針對(duì)宏基因組序列分類預(yù)測(cè)問(wèn)題,設(shè)計(jì)了基于深度學(xué)習(xí)的混合深度神經(jīng)網(wǎng)絡(luò)模型。深度神經(jīng)網(wǎng)絡(luò)模型逐層學(xué)習(xí)基因數(shù)據(jù)中的非線性特征,進(jìn)而利用這些層次化的特征數(shù)據(jù)來(lái)對(duì)宏基因組序列進(jìn)行分類預(yù)測(cè)。并對(duì)訓(xùn)練好的模型進(jìn)行了保存和可視化。(3)把兩個(gè)數(shù)據(jù)庫(kù)中的三個(gè)數(shù)據(jù)集處理成一致的表達(dá)格式。在每個(gè)數(shù)據(jù)集用了三種不同的方法進(jìn)行訓(xùn)練測(cè)試,其中RDP分類器分類使用的是默認(rèn)參數(shù)。對(duì)于本文設(shè)計(jì)的模型,通過(guò)多組實(shí)驗(yàn),確定模型的參數(shù)。用精確率、召回率、F1-score等分類評(píng)估指標(biāo)評(píng)估了三種不同方法的分類性能。
【圖文】:
有些數(shù)據(jù)庫(kù)的數(shù)據(jù)已用工具做了對(duì)齊,相應(yīng)的也會(huì)提供對(duì)齊序列。RTS16 和Warcup2 數(shù)據(jù)集不提供對(duì)齊的序列,所以這兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)先用 ESPRIT-TREE 做對(duì)齊。序列對(duì)齊后的數(shù)據(jù)如圖3.2 所示,從圖中可以看出,做對(duì)齊后序列被很多“-”填充了。圖3.2 對(duì)齊后的數(shù)據(jù)示例
Greengenesv13.8數(shù)據(jù)庫(kù)中原始數(shù)據(jù)
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP18
本文編號(hào):2619965
【圖文】:
有些數(shù)據(jù)庫(kù)的數(shù)據(jù)已用工具做了對(duì)齊,相應(yīng)的也會(huì)提供對(duì)齊序列。RTS16 和Warcup2 數(shù)據(jù)集不提供對(duì)齊的序列,所以這兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)先用 ESPRIT-TREE 做對(duì)齊。序列對(duì)齊后的數(shù)據(jù)如圖3.2 所示,從圖中可以看出,做對(duì)齊后序列被很多“-”填充了。圖3.2 對(duì)齊后的數(shù)據(jù)示例
Greengenesv13.8數(shù)據(jù)庫(kù)中原始數(shù)據(jù)
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q811.4;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 滕國(guó)棟;陳敏亮;;全基因組測(cè)序技術(shù)的發(fā)展和應(yīng)用[J];中國(guó)美容醫(yī)學(xué);2013年04期
,本文編號(hào):2619965
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2619965.html
最近更新
教材專著