基于擴(kuò)增子測序數(shù)據(jù)的樣本分類算法及其標(biāo)志物發(fā)現(xiàn)研究
發(fā)布時(shí)間:2021-06-23 09:45
腸道微生物是近年來一個(gè)研究熱點(diǎn),它與人類的健康和疾病息息相關(guān)。尋找疾病相關(guān)的微生物標(biāo)志物,是人類在探索疾病道路上的一個(gè)重要方向。隨著高通量測序地發(fā)展,越來越多在實(shí)驗(yàn)室不能培養(yǎng)出的微生物可以通過測序技術(shù)發(fā)現(xiàn),腸道微生物組數(shù)據(jù)也爆發(fā)式地增長,這迫切需要研究或引入新的機(jī)器學(xué)習(xí)算法,以期發(fā)現(xiàn)相關(guān)疾病的微生物標(biāo)志物。本文研究了基于腸道微生物數(shù)據(jù)的疾病分類機(jī)器學(xué)習(xí)算法,以此為基礎(chǔ),研究了用于微生物標(biāo)志物發(fā)現(xiàn)的特征提取方法,并實(shí)現(xiàn)了一個(gè)微生物標(biāo)志物數(shù)據(jù)庫。本文主要包含如下工作:第一,引入LightGBM算法用于腸道微生物的疾病分類問題。對于疾病與腸道微生物關(guān)系問題,可以看成有監(jiān)督的分類問題。本研究在基于微生物組的疾病分類問題中引入了 LightGBM這種較新的算法,并與深度森林、隨機(jī)森林和支持向量機(jī)等幾種在微生物組學(xué)數(shù)據(jù)中常用的方法進(jìn)行比較,應(yīng)用于10種疾病的腸道微生物數(shù)據(jù)。實(shí)驗(yàn)以微生物豐度數(shù)據(jù)作為算法的輸入,以腸道微生物作為特征,樣本患病與否作為輸入的標(biāo)簽。實(shí)驗(yàn)系統(tǒng)地評估了四個(gè)算法在不同疾病之間的分類效果以及相同疾病不同數(shù)據(jù)集的分類效果。使用五折交叉驗(yàn)證,結(jié)果發(fā)現(xiàn),LightGBM在多個(gè)數(shù)據(jù)集上都...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2中首先采集患病樣?
類OTU。一般情況下,由擴(kuò)??增子測序(即16SrRNA測序)得到的原始數(shù)據(jù)經(jīng)過聚類方式處理后得到OTU豐度??數(shù)據(jù),然后計(jì)算機(jī)學(xué)家再利用OTU豐度數(shù)據(jù),來進(jìn)行相關(guān)的計(jì)算等一系列操作。??non\?WW??我們97%相似,是男?我彳丨]97%相似,是女??孩子,是0TU1,有?孩子,是0TU2,有??三個(gè)成員?兩個(gè)成員??:_??16S序列??相似度大于??▼?97%??c=)?CH)?〇ti,s??這些16S序列,基于序列間97%的相似性,聚成了3個(gè)OTU??圖1.3?OTU的聚類原理??1.1.3生物標(biāo)志物??生物標(biāo)志物(Biomarker):?—種客觀測量和評估的特征,可作為正常生物過程,??致病過程或?qū)χ委煾深A(yù)的藥理反應(yīng)的指標(biāo)|341。生物標(biāo)志物也定義為:生物標(biāo)志物可??以在體內(nèi)或其產(chǎn)物中檢測到的物質(zhì)、結(jié)構(gòu)或過程并且它可以影響(或預(yù)測)結(jié)果或??疾病地發(fā)生|351。從臨床角度看,生物標(biāo)志物對疑似疾病患者、有或無明顯疾病患者??地護(hù)理有著重大影響。根據(jù)這一分類,生物標(biāo)志物可分為診斷標(biāo)志物、預(yù)后標(biāo)志物??和篩選標(biāo)志物。在基礎(chǔ)和臨床研宄以及臨床實(shí)踐中使用生物標(biāo)志物己經(jīng)變得非常普??遍。生物標(biāo)志物在疾病中還有許多有價(jià)值地應(yīng)用和監(jiān)視健康狀況,這些應(yīng)用包括:??1、用作診斷工具,以識別患有疾病或異常狀況的患者。2、用作疾病分期的工具或??疾病程度地分類。3、用作疾病預(yù)后的指標(biāo)。4、用于預(yù)測和監(jiān)測對干預(yù)措施的臨床??反應(yīng)I34]。因此找出疾病相對應(yīng)的生物標(biāo)志物,以便進(jìn)行后續(xù)對治療疾病的研宄是有??意義的。??本文將從生物數(shù)據(jù)庫以及數(shù)據(jù)挖掘等角度篩選微生物標(biāo)志物。這些生物標(biāo)志物??旨在確定特定的操作分類
向量機(jī)??給定一個(gè)數(shù)據(jù)集{知%},%?e{0,l),i=l,2,...,n。假設(shè)該數(shù)據(jù)集線性可分,那么線??性可分支持向撳機(jī)就足尋找一個(gè)能夠劃分該數(shù)據(jù)集的超平面,并且使得兩類樣木中??距離超平面最近的樣木點(diǎn)幾何間隔最大化,此時(shí)找到的超平而為:??(w?_?x)?+?6?=?0?公式?3.1??其屮w,?h分別迠迎過該數(shù)椐集訓(xùn)練得到的權(quán)艱和偏差。超平而函數(shù)對應(yīng)的決策函??數(shù)為:??=?sign((w?■?\)?+?b)?公式?3.2??在訓(xùn)練過程中的目的找到最優(yōu)超平面。超平面如圖3.1所示,假設(shè)數(shù)據(jù)集的特征維??度是二維的,并且是二分類問題,為了將藍(lán)色圓形和綠色三角進(jìn)行分類,支持向量??機(jī)尋找到了?LI,?L3兩個(gè)平面之間的所有超平面,這些超平面都可以將所給的數(shù)據(jù)??集進(jìn)行分類劃分,然而L2超平面是尋找到的最優(yōu)超平面??L3??酶??尤1??圖3.1支持向量機(jī)的超平面??19??
【參考文獻(xiàn)】:
期刊論文
[1]腸道菌群的檢測方法及研究進(jìn)展[J]. 劉玉婷,郝微微,溫紅珠,邵蘭君. 世界華人消化雜志. 2016(20)
本文編號:3244715
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2中首先采集患病樣?
類OTU。一般情況下,由擴(kuò)??增子測序(即16SrRNA測序)得到的原始數(shù)據(jù)經(jīng)過聚類方式處理后得到OTU豐度??數(shù)據(jù),然后計(jì)算機(jī)學(xué)家再利用OTU豐度數(shù)據(jù),來進(jìn)行相關(guān)的計(jì)算等一系列操作。??non\?WW??我們97%相似,是男?我彳丨]97%相似,是女??孩子,是0TU1,有?孩子,是0TU2,有??三個(gè)成員?兩個(gè)成員??:_??16S序列??相似度大于??▼?97%??c=)?CH)?〇ti,s??這些16S序列,基于序列間97%的相似性,聚成了3個(gè)OTU??圖1.3?OTU的聚類原理??1.1.3生物標(biāo)志物??生物標(biāo)志物(Biomarker):?—種客觀測量和評估的特征,可作為正常生物過程,??致病過程或?qū)χ委煾深A(yù)的藥理反應(yīng)的指標(biāo)|341。生物標(biāo)志物也定義為:生物標(biāo)志物可??以在體內(nèi)或其產(chǎn)物中檢測到的物質(zhì)、結(jié)構(gòu)或過程并且它可以影響(或預(yù)測)結(jié)果或??疾病地發(fā)生|351。從臨床角度看,生物標(biāo)志物對疑似疾病患者、有或無明顯疾病患者??地護(hù)理有著重大影響。根據(jù)這一分類,生物標(biāo)志物可分為診斷標(biāo)志物、預(yù)后標(biāo)志物??和篩選標(biāo)志物。在基礎(chǔ)和臨床研宄以及臨床實(shí)踐中使用生物標(biāo)志物己經(jīng)變得非常普??遍。生物標(biāo)志物在疾病中還有許多有價(jià)值地應(yīng)用和監(jiān)視健康狀況,這些應(yīng)用包括:??1、用作診斷工具,以識別患有疾病或異常狀況的患者。2、用作疾病分期的工具或??疾病程度地分類。3、用作疾病預(yù)后的指標(biāo)。4、用于預(yù)測和監(jiān)測對干預(yù)措施的臨床??反應(yīng)I34]。因此找出疾病相對應(yīng)的生物標(biāo)志物,以便進(jìn)行后續(xù)對治療疾病的研宄是有??意義的。??本文將從生物數(shù)據(jù)庫以及數(shù)據(jù)挖掘等角度篩選微生物標(biāo)志物。這些生物標(biāo)志物??旨在確定特定的操作分類
向量機(jī)??給定一個(gè)數(shù)據(jù)集{知%},%?e{0,l),i=l,2,...,n。假設(shè)該數(shù)據(jù)集線性可分,那么線??性可分支持向撳機(jī)就足尋找一個(gè)能夠劃分該數(shù)據(jù)集的超平面,并且使得兩類樣木中??距離超平面最近的樣木點(diǎn)幾何間隔最大化,此時(shí)找到的超平而為:??(w?_?x)?+?6?=?0?公式?3.1??其屮w,?h分別迠迎過該數(shù)椐集訓(xùn)練得到的權(quán)艱和偏差。超平而函數(shù)對應(yīng)的決策函??數(shù)為:??=?sign((w?■?\)?+?b)?公式?3.2??在訓(xùn)練過程中的目的找到最優(yōu)超平面。超平面如圖3.1所示,假設(shè)數(shù)據(jù)集的特征維??度是二維的,并且是二分類問題,為了將藍(lán)色圓形和綠色三角進(jìn)行分類,支持向量??機(jī)尋找到了?LI,?L3兩個(gè)平面之間的所有超平面,這些超平面都可以將所給的數(shù)據(jù)??集進(jìn)行分類劃分,然而L2超平面是尋找到的最優(yōu)超平面??L3??酶??尤1??圖3.1支持向量機(jī)的超平面??19??
【參考文獻(xiàn)】:
期刊論文
[1]腸道菌群的檢測方法及研究進(jìn)展[J]. 劉玉婷,郝微微,溫紅珠,邵蘭君. 世界華人消化雜志. 2016(20)
本文編號:3244715
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3244715.html
最近更新
教材專著