深度學(xué)習(xí)探究城市環(huán)境微生物的抗生素抗性及其影響因素
發(fā)布時間:2021-04-07 03:56
城市環(huán)境微生物群落與人類活動密切相關(guān),是抗生素耐藥基因(Antibiotic Resistance Gene,ARG)的主要載體。ARG的存在使得微生物能夠承受更高的抗生素濃度,ARG還可能轉(zhuǎn)移到致病菌并威脅全球公共衛(wèi)生。故ARG的準確識別對于應(yīng)對抗生素耐藥性挑戰(zhàn)就極為重要。然而,目前廣泛使用的ARG識別方法大多是基于序列比對的方法,在識別非同源的ARG上存在不足。在本文中,我們基于深度學(xué)習(xí)理論,整合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短記憶神經(jīng)網(wǎng)絡(luò)(LSTM),提出了一種不依賴序列比對的方法。此方法不僅在測試集上有著出色的表現(xiàn):準確率為0.9883,查全率為0.8565,AUC值為0.9664。相較常用的方法,我們在ARG的種類識別方面,提高了9.5%的分類精度,同時提高了16.4%的查全率,可以識別更多的非同源ARG。利用此方法,我們從Metagenomics and Metadesign of Subways and Urban Biomes(MetaSUB)聯(lián)盟收集的3,741個宏基因組樣本中,鑒定出457,777個ARG,并將其分為35個抗性類別。其中,超過80%的樣品含有對于β-內(nèi)...
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
環(huán)境通過多種途徑向人類微生物傳播抗性基因[11]
華東師范大學(xué)碩士學(xué)位論文61.4本文的研究內(nèi)容及意義本論文內(nèi)容主要分為三個部分(如流程圖所示):ARG數(shù)據(jù)整合;ARG識別模型構(gòu)建;ARG識別結(jié)果分析。在第二章論述了ARG數(shù)據(jù)的整合和識別模型的建立:首先我們整合了現(xiàn)有ARG數(shù)據(jù)庫構(gòu)成了模型訓(xùn)練數(shù)據(jù)集,并利用詞向量訓(xùn)練工具對ARG數(shù)據(jù)進行編碼表示;然后基于深度學(xué)習(xí)理論,我們整合了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)和長短記憶神經(jīng)網(wǎng)絡(luò)架構(gòu)(LSTM),再融入DIAMOND工具,建立了新的ARG分類識別模型。此模型在準確率,查全率,分類精度等方面均有提高。第三章論述了我們利用建立的模型,對于MetaSUB聯(lián)盟數(shù)據(jù)進行ARG識別,從所有的MetaSUB樣本中提取了457,777個ARG,并將其分為35個抗性類別。之后又結(jié)合各類數(shù)據(jù)綜合分析,比較了不同國家間ARG識別的比例和抗性種類多樣性,并嘗試探討了不同國家的環(huán)境ARG豐度與抗生素消費、各種地區(qū)發(fā)展指標以及人體腸道微生物抗性之間的關(guān)系(圖1-2)。圖1-2本文研究的流程示意圖
華東師范大學(xué)碩士學(xué)位論文13圖2-2深度神經(jīng)網(wǎng)絡(luò)常見結(jié)構(gòu)示意圖深度神經(jīng)網(wǎng)絡(luò)雖然可以賦予模型更強的能力,但是對于高維數(shù)據(jù):比如本研究中就包括長達1200個堿基的序列數(shù)據(jù),如果再乘上神經(jīng)網(wǎng)絡(luò)每一層的核數(shù),將會得到數(shù)量巨大的參數(shù)量。過于龐大的參數(shù)量使得訓(xùn)練變得極為復(fù)雜,而且也增加了時間成本,卻并不一定能夠讓模型更優(yōu)秀。于是首先在圖像識別領(lǐng)域就催生出了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)簡單說來就是將傳統(tǒng)的全連接層的連結(jié)方式變成了利用設(shè)定大小的filter以類似窗口滑動的方式對上一層的數(shù)據(jù)進行變換,從而達到提取信息的目的。而其中filter的存在使得上一層的數(shù)據(jù)可以實現(xiàn)參數(shù)共享,這就極大程度地降低了深度神經(jīng)網(wǎng)絡(luò)可能帶來的爆炸參數(shù)量。參數(shù)的減少卻不影響模型性能,這是事半功倍的選擇,而且減少參數(shù)可以有效地避免過擬合問題。同時,由于filter的參數(shù)共享,還會帶來對于數(shù)據(jù)的“平移不變性”,這讓模型就更加穩(wěn)健了。,=(∑∑∑,,,+,++1=01=01=0)
本文編號:3122750
【文章來源】:華東師范大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
環(huán)境通過多種途徑向人類微生物傳播抗性基因[11]
華東師范大學(xué)碩士學(xué)位論文61.4本文的研究內(nèi)容及意義本論文內(nèi)容主要分為三個部分(如流程圖所示):ARG數(shù)據(jù)整合;ARG識別模型構(gòu)建;ARG識別結(jié)果分析。在第二章論述了ARG數(shù)據(jù)的整合和識別模型的建立:首先我們整合了現(xiàn)有ARG數(shù)據(jù)庫構(gòu)成了模型訓(xùn)練數(shù)據(jù)集,并利用詞向量訓(xùn)練工具對ARG數(shù)據(jù)進行編碼表示;然后基于深度學(xué)習(xí)理論,我們整合了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)和長短記憶神經(jīng)網(wǎng)絡(luò)架構(gòu)(LSTM),再融入DIAMOND工具,建立了新的ARG分類識別模型。此模型在準確率,查全率,分類精度等方面均有提高。第三章論述了我們利用建立的模型,對于MetaSUB聯(lián)盟數(shù)據(jù)進行ARG識別,從所有的MetaSUB樣本中提取了457,777個ARG,并將其分為35個抗性類別。之后又結(jié)合各類數(shù)據(jù)綜合分析,比較了不同國家間ARG識別的比例和抗性種類多樣性,并嘗試探討了不同國家的環(huán)境ARG豐度與抗生素消費、各種地區(qū)發(fā)展指標以及人體腸道微生物抗性之間的關(guān)系(圖1-2)。圖1-2本文研究的流程示意圖
華東師范大學(xué)碩士學(xué)位論文13圖2-2深度神經(jīng)網(wǎng)絡(luò)常見結(jié)構(gòu)示意圖深度神經(jīng)網(wǎng)絡(luò)雖然可以賦予模型更強的能力,但是對于高維數(shù)據(jù):比如本研究中就包括長達1200個堿基的序列數(shù)據(jù),如果再乘上神經(jīng)網(wǎng)絡(luò)每一層的核數(shù),將會得到數(shù)量巨大的參數(shù)量。過于龐大的參數(shù)量使得訓(xùn)練變得極為復(fù)雜,而且也增加了時間成本,卻并不一定能夠讓模型更優(yōu)秀。于是首先在圖像識別領(lǐng)域就催生出了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)簡單說來就是將傳統(tǒng)的全連接層的連結(jié)方式變成了利用設(shè)定大小的filter以類似窗口滑動的方式對上一層的數(shù)據(jù)進行變換,從而達到提取信息的目的。而其中filter的存在使得上一層的數(shù)據(jù)可以實現(xiàn)參數(shù)共享,這就極大程度地降低了深度神經(jīng)網(wǎng)絡(luò)可能帶來的爆炸參數(shù)量。參數(shù)的減少卻不影響模型性能,這是事半功倍的選擇,而且減少參數(shù)可以有效地避免過擬合問題。同時,由于filter的參數(shù)共享,還會帶來對于數(shù)據(jù)的“平移不變性”,這讓模型就更加穩(wěn)健了。,=(∑∑∑,,,+,++1=01=01=0)
本文編號:3122750
本文鏈接:http://sikaile.net/shoufeilunwen/mpalunwen/3122750.html
最近更新
教材專著