深度學(xué)習(xí)探究城市環(huán)境微生物的抗生素抗性及其影響因素
發(fā)布時(shí)間:2021-04-07 03:56
城市環(huán)境微生物群落與人類(lèi)活動(dòng)密切相關(guān),是抗生素耐藥基因(Antibiotic Resistance Gene,ARG)的主要載體。ARG的存在使得微生物能夠承受更高的抗生素濃度,ARG還可能轉(zhuǎn)移到致病菌并威脅全球公共衛(wèi)生。故ARG的準(zhǔn)確識(shí)別對(duì)于應(yīng)對(duì)抗生素耐藥性挑戰(zhàn)就極為重要。然而,目前廣泛使用的ARG識(shí)別方法大多是基于序列比對(duì)的方法,在識(shí)別非同源的ARG上存在不足。在本文中,我們基于深度學(xué)習(xí)理論,整合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(LSTM),提出了一種不依賴(lài)序列比對(duì)的方法。此方法不僅在測(cè)試集上有著出色的表現(xiàn):準(zhǔn)確率為0.9883,查全率為0.8565,AUC值為0.9664。相較常用的方法,我們?cè)贏RG的種類(lèi)識(shí)別方面,提高了9.5%的分類(lèi)精度,同時(shí)提高了16.4%的查全率,可以識(shí)別更多的非同源ARG。利用此方法,我們從Metagenomics and Metadesign of Subways and Urban Biomes(MetaSUB)聯(lián)盟收集的3,741個(gè)宏基因組樣本中,鑒定出457,777個(gè)ARG,并將其分為35個(gè)抗性類(lèi)別。其中,超過(guò)80%的樣品含有對(duì)于β-內(nèi)...
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
環(huán)境通過(guò)多種途徑向人類(lèi)微生物傳播抗性基因[11]
華東師范大學(xué)碩士學(xué)位論文61.4本文的研究?jī)?nèi)容及意義本論文內(nèi)容主要分為三個(gè)部分(如流程圖所示):ARG數(shù)據(jù)整合;ARG識(shí)別模型構(gòu)建;ARG識(shí)別結(jié)果分析。在第二章論述了ARG數(shù)據(jù)的整合和識(shí)別模型的建立:首先我們整合了現(xiàn)有ARG數(shù)據(jù)庫(kù)構(gòu)成了模型訓(xùn)練數(shù)據(jù)集,并利用詞向量訓(xùn)練工具對(duì)ARG數(shù)據(jù)進(jìn)行編碼表示;然后基于深度學(xué)習(xí)理論,我們整合了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)和長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)架構(gòu)(LSTM),再融入DIAMOND工具,建立了新的ARG分類(lèi)識(shí)別模型。此模型在準(zhǔn)確率,查全率,分類(lèi)精度等方面均有提高。第三章論述了我們利用建立的模型,對(duì)于MetaSUB聯(lián)盟數(shù)據(jù)進(jìn)行ARG識(shí)別,從所有的MetaSUB樣本中提取了457,777個(gè)ARG,并將其分為35個(gè)抗性類(lèi)別。之后又結(jié)合各類(lèi)數(shù)據(jù)綜合分析,比較了不同國(guó)家間ARG識(shí)別的比例和抗性種類(lèi)多樣性,并嘗試探討了不同國(guó)家的環(huán)境ARG豐度與抗生素消費(fèi)、各種地區(qū)發(fā)展指標(biāo)以及人體腸道微生物抗性之間的關(guān)系(圖1-2)。圖1-2本文研究的流程示意圖
華東師范大學(xué)碩士學(xué)位論文13圖2-2深度神經(jīng)網(wǎng)絡(luò)常見(jiàn)結(jié)構(gòu)示意圖深度神經(jīng)網(wǎng)絡(luò)雖然可以賦予模型更強(qiáng)的能力,但是對(duì)于高維數(shù)據(jù):比如本研究中就包括長(zhǎng)達(dá)1200個(gè)堿基的序列數(shù)據(jù),如果再乘上神經(jīng)網(wǎng)絡(luò)每一層的核數(shù),將會(huì)得到數(shù)量巨大的參數(shù)量。過(guò)于龐大的參數(shù)量使得訓(xùn)練變得極為復(fù)雜,而且也增加了時(shí)間成本,卻并不一定能夠讓模型更優(yōu)秀。于是首先在圖像識(shí)別領(lǐng)域就催生出了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單說(shuō)來(lái)就是將傳統(tǒng)的全連接層的連結(jié)方式變成了利用設(shè)定大小的filter以類(lèi)似窗口滑動(dòng)的方式對(duì)上一層的數(shù)據(jù)進(jìn)行變換,從而達(dá)到提取信息的目的。而其中filter的存在使得上一層的數(shù)據(jù)可以實(shí)現(xiàn)參數(shù)共享,這就極大程度地降低了深度神經(jīng)網(wǎng)絡(luò)可能帶來(lái)的爆炸參數(shù)量。參數(shù)的減少卻不影響模型性能,這是事半功倍的選擇,而且減少參數(shù)可以有效地避免過(guò)擬合問(wèn)題。同時(shí),由于filter的參數(shù)共享,還會(huì)帶來(lái)對(duì)于數(shù)據(jù)的“平移不變性”,這讓模型就更加穩(wěn)健了。,=(∑∑∑,,,+,++1=01=01=0)
本文編號(hào):3122750
【文章來(lái)源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
環(huán)境通過(guò)多種途徑向人類(lèi)微生物傳播抗性基因[11]
華東師范大學(xué)碩士學(xué)位論文61.4本文的研究?jī)?nèi)容及意義本論文內(nèi)容主要分為三個(gè)部分(如流程圖所示):ARG數(shù)據(jù)整合;ARG識(shí)別模型構(gòu)建;ARG識(shí)別結(jié)果分析。在第二章論述了ARG數(shù)據(jù)的整合和識(shí)別模型的建立:首先我們整合了現(xiàn)有ARG數(shù)據(jù)庫(kù)構(gòu)成了模型訓(xùn)練數(shù)據(jù)集,并利用詞向量訓(xùn)練工具對(duì)ARG數(shù)據(jù)進(jìn)行編碼表示;然后基于深度學(xué)習(xí)理論,我們整合了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)和長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)架構(gòu)(LSTM),再融入DIAMOND工具,建立了新的ARG分類(lèi)識(shí)別模型。此模型在準(zhǔn)確率,查全率,分類(lèi)精度等方面均有提高。第三章論述了我們利用建立的模型,對(duì)于MetaSUB聯(lián)盟數(shù)據(jù)進(jìn)行ARG識(shí)別,從所有的MetaSUB樣本中提取了457,777個(gè)ARG,并將其分為35個(gè)抗性類(lèi)別。之后又結(jié)合各類(lèi)數(shù)據(jù)綜合分析,比較了不同國(guó)家間ARG識(shí)別的比例和抗性種類(lèi)多樣性,并嘗試探討了不同國(guó)家的環(huán)境ARG豐度與抗生素消費(fèi)、各種地區(qū)發(fā)展指標(biāo)以及人體腸道微生物抗性之間的關(guān)系(圖1-2)。圖1-2本文研究的流程示意圖
華東師范大學(xué)碩士學(xué)位論文13圖2-2深度神經(jīng)網(wǎng)絡(luò)常見(jiàn)結(jié)構(gòu)示意圖深度神經(jīng)網(wǎng)絡(luò)雖然可以賦予模型更強(qiáng)的能力,但是對(duì)于高維數(shù)據(jù):比如本研究中就包括長(zhǎng)達(dá)1200個(gè)堿基的序列數(shù)據(jù),如果再乘上神經(jīng)網(wǎng)絡(luò)每一層的核數(shù),將會(huì)得到數(shù)量巨大的參數(shù)量。過(guò)于龐大的參數(shù)量使得訓(xùn)練變得極為復(fù)雜,而且也增加了時(shí)間成本,卻并不一定能夠讓模型更優(yōu)秀。于是首先在圖像識(shí)別領(lǐng)域就催生出了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單說(shuō)來(lái)就是將傳統(tǒng)的全連接層的連結(jié)方式變成了利用設(shè)定大小的filter以類(lèi)似窗口滑動(dòng)的方式對(duì)上一層的數(shù)據(jù)進(jìn)行變換,從而達(dá)到提取信息的目的。而其中filter的存在使得上一層的數(shù)據(jù)可以實(shí)現(xiàn)參數(shù)共享,這就極大程度地降低了深度神經(jīng)網(wǎng)絡(luò)可能帶來(lái)的爆炸參數(shù)量。參數(shù)的減少卻不影響模型性能,這是事半功倍的選擇,而且減少參數(shù)可以有效地避免過(guò)擬合問(wèn)題。同時(shí),由于filter的參數(shù)共享,還會(huì)帶來(lái)對(duì)于數(shù)據(jù)的“平移不變性”,這讓模型就更加穩(wěn)健了。,=(∑∑∑,,,+,++1=01=01=0)
本文編號(hào):3122750
本文鏈接:http://sikaile.net/shoufeilunwen/mpalunwen/3122750.html
最近更新
教材專(zhuān)著