微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設(shè)計與實現(xiàn)
更多相關(guān)文章: 微生物 16srRNA OTU聚類 第二代測序
【摘要】:隨著第二代測序技術(shù)的發(fā)展,針對微生物16S rRNA基因的高通量測序除用于人類健康的研究外,在畜牧業(yè)生產(chǎn)的各領(lǐng)域也得到了廣泛地應(yīng)用,比如研究腸道微生物結(jié)構(gòu)與宿主經(jīng)濟(jì)性狀間的關(guān)系。該方法有效克服了傳統(tǒng)技術(shù)的缺陷,但隨之而來的困難則在于對海量數(shù)據(jù)的分析。在16S rRNA測序數(shù)據(jù)的分析中,最關(guān)鍵的一個環(huán)節(jié)即是基于序列間相似度的分類單元(Operational taxonomic units, OTUs)聚類,從而用于代表在種或?qū)俚确诸悓W(xué)水平上的不同物種,其準(zhǔn)確程度顯著影響到后續(xù)分析結(jié)果的可靠性。目前已有針對OTUs聚類的算法及軟件(如Mothur和UPARSE),但存在假陽性率高、噪音信號強以及很難從生物學(xué)角度進(jìn)行結(jié)果解釋等問題。因此,本實驗針對目前主流軟件存在的問題,對OTUs的聚類算法進(jìn)行了優(yōu)化設(shè)計,并采用C和Python編程語言開發(fā)出以先注釋后聚類為特點的分析軟件(bioOTU);同時,基于模擬和真實數(shù)據(jù)對bioOTU的準(zhǔn)確性與Mothur和UPARSE進(jìn)行了系統(tǒng)地比較。主要結(jié)果如下:(1) bioOTU的算法設(shè)計針對通過前期質(zhì)量控制后得到的干凈序列(Clean tags),對所有樣本進(jìn)行合并后去冗余,得到非冗余序列(Unique tags),并記錄每條tag的絕對豐度和樣本豐度兩個信息。將所有的Unique tags同源比對到參考數(shù)據(jù)庫中,基于Bayes算法在屬水平上進(jìn)行物種注釋,從而將所有序列區(qū)分為能被成功注釋和無法被注釋兩種情況。隨后,對被成功注釋到同一屬中的所有Unique tags進(jìn)行兩兩間比對,計算序列間的距離(包括k-mer巨離和遺傳距離),依據(jù)用戶指定的閾值(如0.03)進(jìn)行OTUs聚類。在此基礎(chǔ)上,針對無法被注釋的tags,計算它們與在上一步中已得到的OTUs司的平均連接距離(Average linkage distance),同樣依據(jù)用戶指定的閾值判定是否可以加入到已有的OTUs中。從序列注釋開始,將以上步驟在不同分類學(xué)水平上(屬、科、目等)逐級迭代運行,從而得到所有在分類學(xué)上已知的OTUs.隨后,針對剩下的所有Unique tags,首先使用UCHIME算法進(jìn)行嵌合體(Chimeras)序列的檢測,然后依據(jù)絕對豐度和樣本豐度兩個信息對所有的tags進(jìn)行排序,采用自下而上的啟發(fā)式搜索算法(Heuristic algorithm)進(jìn)行OTUs的從頭聚類(de novo clustering),最后得到在分類學(xué)上未知的OTUs。(2) bioOTU的軟件實現(xiàn)基于Python語言的靈活性與C語言的高效性,本實驗采用Python語言搭建bioOTU的主體框架,且以腳本化運行的方式設(shè)計實現(xiàn)所有的分析環(huán)節(jié)。由于序列比對環(huán)節(jié)需要巨大的計算量,因此采用C語言從最底層改寫遺傳距離計算等核心環(huán)節(jié),同時采用多線程并行計算的設(shè)計,從而極顯著地提高了計算效率。另外,充分考慮軟件使用的友好性,用戶只需輸入質(zhì)量控制后的Clean tags, bioOTU在OTUs聚類完成后自動輸出所有OTUs的注釋信息以及在每個樣本(或分組)中的豐度值,即同時實現(xiàn)了OTUs的聚類與注釋。bioOTU提供免費下載使用,支持在類Unix操作系統(tǒng)上運行。(3) bioOTU的聚類效果比較分析利用人工模擬微生物群落(Mock community,共包含21個預(yù)定物種)的16S rRNA高通量測序數(shù)據(jù),分別使用bioOTU、Mothur和UPARSE進(jìn)行OTUs聚類,均采用默認(rèn)或推薦的參數(shù)。結(jié)果發(fā)現(xiàn),bioOTU、Mothur和UPARSE共輸出74、311和28個OTUs,其中分別有18、15和18個OTUs被成功注釋到預(yù)定物種上。通過計算每個OTUs的豐度值并與期望值進(jìn)行比較,結(jié)果發(fā)現(xiàn)三個軟件得到的物種相對豐度值與期望值間均具有較好的一致性。利用腸道微生物16S rRNA高通量測序的真實數(shù)據(jù),對三個軟件進(jìn)行比較分析。結(jié)果發(fā)現(xiàn),bioOTU得到了最少的OTUs數(shù)量(624個,對比于Mothur的5268,UPARSE的922)。bioOTU和UPARSE在OTUs豐度值上總體接近,但均顯著高于Mothur輸出OTUs的豐度值;谕磳Ρ犬a(chǎn)生金標(biāo)準(zhǔn)序列集,從而計算并使用歸一化互信息值(NMI)判定軟件聚類結(jié)果的準(zhǔn)確性。結(jié)果顯示,bioOTU的NMI值(0.914)要比Mothur的NMI值(0.922)低,但高于UPARSE (0.903)。因此,比較分析結(jié)果支持bioOTU的聚類準(zhǔn)確性在總體上與該領(lǐng)域的主流軟件相當(dāng),但在某些指標(biāo)上則具有更好的表現(xiàn)。
【學(xué)位授予單位】:四川農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q811.4
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何立雄;黃新;楊華;張云峰;鄭金海;周建國;徐雪平;鐘發(fā)剛;;綿羊附紅細(xì)胞體部分16S rRNA基因序列測定和系統(tǒng)進(jìn)化分析[J];中國人獸共患病學(xué)報;2009年06期
2 朱保建;劉朝良;曹甲;李旭全;魏國清;;基于18S rRNA和線粒體16S rRNA基因序列的柳蠶進(jìn)化分析[J];昆蟲知識;2010年02期
3 趙丹彤;劉廣純;王劍峰;;基于12S rRNA和16S rRNA基因序列探討中國蚤蠅科部分屬間的系統(tǒng)發(fā)育關(guān)系[J];動物學(xué)研究;2010年04期
4 羅金;劉光遠(yuǎn);田占成;謝俊仁;張萍;;基于18S rRNA基因序列的我國馬梨形蟲分類學(xué)地位分析[J];動物分類學(xué)報;2011年01期
5 王友升;何欣萌;張燕;陳玉娟;;1株耐氯霉素腐敗微生物的16S rRNA基因序列與碳源代謝指紋圖譜分析[J];微生物學(xué)雜志;2014年02期
6 蘇天鳳,江世貴,朱彩艷,吳進(jìn)鋒;粵西鎮(zhèn)海灣近江牡蠣線粒體16S rRNA基因序列變異分析[J];湛江海洋大學(xué)學(xué)報;2004年04期
7 李晶;柯崇榕;楊欣偉;田寶玉;黃建忠;;灰黃霉素高產(chǎn)變株與出發(fā)菌株18S rRNA基因序列的比較分析[J];福建師范大學(xué)學(xué)報(自然科學(xué)版);2008年03期
8 高運玲;陳敏;李生偉;蔡應(yīng)繁;何曉紅;劉毅;江明鋒;;基于18S rRNA基因序列的毛茛科及近緣植物的分子進(jìn)化關(guān)系研究[J];四川大學(xué)學(xué)報(自然科學(xué)版);2010年02期
9 向福,余龍江,栗茂騰,劉智;用bioperl實現(xiàn)種子植物18S rRNA基因序列的大規(guī)模獲取[J];華中農(nóng)業(yè)大學(xué)學(xué)報;2005年04期
10 羅瑋;畢春霞;閆志勇;辛?xí)阅?蘇維奇;朱元祺;;嗜麥芽寡氧單胞菌臨床株與環(huán)境株的16S rRNA基因序列及系統(tǒng)發(fā)育分析[J];實用醫(yī)學(xué)雜志;2011年16期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 馬松成;毛華明;陳靜;鄧衛(wèi)東;和天寶;;大額牛瘤胃細(xì)菌16S rRNA基因序列的分析[A];第四屆中國畜牧科技論壇論文集[C];2009年
2 李玉春;董海艷;鄭冬;鄒紅菲;;從12S rRNA基因序列研究麝屬各種的系統(tǒng)發(fā)育[A];野生動物生態(tài)與資源保護(hù)第四屆全國學(xué)術(shù)研討會論文摘要集[C];2007年
3 劉志杰;殷宏;羅建勛;關(guān)貴全;馬米玲;劉愛紅;黨志勝;高金亮;任巧云;;我國綿羊無漿體16S rRNA基因序列的同源性比較[A];中國畜牧獸醫(yī)學(xué)會家畜寄生蟲學(xué)分會第五次代表大會暨第八次學(xué)術(shù)研討會論文集[C];2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 鄧飛龍;微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設(shè)計與實現(xiàn)[D];四川農(nóng)業(yè)大學(xué);2016年
2 姚大彬;基于16S rRNA和12S rRNA基因序列的帽兒山地區(qū)異色瓢蟲分子系統(tǒng)發(fā)育關(guān)系研究[D];東北林業(yè)大學(xué);2009年
3 姚艷萍;中國蚱總科部分種類16S rRNA和18S rRNA基因序列的分子進(jìn)化與系統(tǒng)學(xué)研究[D];陜西師范大學(xué);2008年
4 唐優(yōu)良;基于16S rRNA基因序列的中國鰈形目魚類分子系統(tǒng)學(xué)研究[D];暨南大學(xué);2011年
5 謝院榮;用線粒體12S rRNA基因序列研究寄生蚌螨遺傳結(jié)構(gòu)及系統(tǒng)發(fā)育[D];南昌大學(xué);2005年
,本文編號:1280949
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1280949.html