微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設計與實現(xiàn)
本文關鍵詞:微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設計與實現(xiàn)
更多相關文章: 微生物 16srRNA OTU聚類 第二代測序
【摘要】:隨著第二代測序技術的發(fā)展,針對微生物16S rRNA基因的高通量測序除用于人類健康的研究外,在畜牧業(yè)生產的各領域也得到了廣泛地應用,比如研究腸道微生物結構與宿主經濟性狀間的關系。該方法有效克服了傳統(tǒng)技術的缺陷,但隨之而來的困難則在于對海量數(shù)據(jù)的分析。在16S rRNA測序數(shù)據(jù)的分析中,最關鍵的一個環(huán)節(jié)即是基于序列間相似度的分類單元(Operational taxonomic units, OTUs)聚類,從而用于代表在種或屬等分類學水平上的不同物種,其準確程度顯著影響到后續(xù)分析結果的可靠性。目前已有針對OTUs聚類的算法及軟件(如Mothur和UPARSE),但存在假陽性率高、噪音信號強以及很難從生物學角度進行結果解釋等問題。因此,本實驗針對目前主流軟件存在的問題,對OTUs的聚類算法進行了優(yōu)化設計,并采用C和Python編程語言開發(fā)出以先注釋后聚類為特點的分析軟件(bioOTU);同時,基于模擬和真實數(shù)據(jù)對bioOTU的準確性與Mothur和UPARSE進行了系統(tǒng)地比較。主要結果如下:(1) bioOTU的算法設計針對通過前期質量控制后得到的干凈序列(Clean tags),對所有樣本進行合并后去冗余,得到非冗余序列(Unique tags),并記錄每條tag的絕對豐度和樣本豐度兩個信息。將所有的Unique tags同源比對到參考數(shù)據(jù)庫中,基于Bayes算法在屬水平上進行物種注釋,從而將所有序列區(qū)分為能被成功注釋和無法被注釋兩種情況。隨后,對被成功注釋到同一屬中的所有Unique tags進行兩兩間比對,計算序列間的距離(包括k-mer巨離和遺傳距離),依據(jù)用戶指定的閾值(如0.03)進行OTUs聚類。在此基礎上,針對無法被注釋的tags,計算它們與在上一步中已得到的OTUs司的平均連接距離(Average linkage distance),同樣依據(jù)用戶指定的閾值判定是否可以加入到已有的OTUs中。從序列注釋開始,將以上步驟在不同分類學水平上(屬、科、目等)逐級迭代運行,從而得到所有在分類學上已知的OTUs.隨后,針對剩下的所有Unique tags,首先使用UCHIME算法進行嵌合體(Chimeras)序列的檢測,然后依據(jù)絕對豐度和樣本豐度兩個信息對所有的tags進行排序,采用自下而上的啟發(fā)式搜索算法(Heuristic algorithm)進行OTUs的從頭聚類(de novo clustering),最后得到在分類學上未知的OTUs。(2) bioOTU的軟件實現(xiàn)基于Python語言的靈活性與C語言的高效性,本實驗采用Python語言搭建bioOTU的主體框架,且以腳本化運行的方式設計實現(xiàn)所有的分析環(huán)節(jié)。由于序列比對環(huán)節(jié)需要巨大的計算量,因此采用C語言從最底層改寫遺傳距離計算等核心環(huán)節(jié),同時采用多線程并行計算的設計,從而極顯著地提高了計算效率。另外,充分考慮軟件使用的友好性,用戶只需輸入質量控制后的Clean tags, bioOTU在OTUs聚類完成后自動輸出所有OTUs的注釋信息以及在每個樣本(或分組)中的豐度值,即同時實現(xiàn)了OTUs的聚類與注釋。bioOTU提供免費下載使用,支持在類Unix操作系統(tǒng)上運行。(3) bioOTU的聚類效果比較分析利用人工模擬微生物群落(Mock community,共包含21個預定物種)的16S rRNA高通量測序數(shù)據(jù),分別使用bioOTU、Mothur和UPARSE進行OTUs聚類,均采用默認或推薦的參數(shù)。結果發(fā)現(xiàn),bioOTU、Mothur和UPARSE共輸出74、311和28個OTUs,其中分別有18、15和18個OTUs被成功注釋到預定物種上。通過計算每個OTUs的豐度值并與期望值進行比較,結果發(fā)現(xiàn)三個軟件得到的物種相對豐度值與期望值間均具有較好的一致性。利用腸道微生物16S rRNA高通量測序的真實數(shù)據(jù),對三個軟件進行比較分析。結果發(fā)現(xiàn),bioOTU得到了最少的OTUs數(shù)量(624個,對比于Mothur的5268,UPARSE的922)。bioOTU和UPARSE在OTUs豐度值上總體接近,但均顯著高于Mothur輸出OTUs的豐度值;谕磳Ρ犬a生金標準序列集,從而計算并使用歸一化互信息值(NMI)判定軟件聚類結果的準確性。結果顯示,bioOTU的NMI值(0.914)要比Mothur的NMI值(0.922)低,但高于UPARSE (0.903)。因此,比較分析結果支持bioOTU的聚類準確性在總體上與該領域的主流軟件相當,但在某些指標上則具有更好的表現(xiàn)。
【學位授予單位】:四川農業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:Q811.4
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 何立雄;黃新;楊華;張云峰;鄭金海;周建國;徐雪平;鐘發(fā)剛;;綿羊附紅細胞體部分16S rRNA基因序列測定和系統(tǒng)進化分析[J];中國人獸共患病學報;2009年06期
2 朱保建;劉朝良;曹甲;李旭全;魏國清;;基于18S rRNA和線粒體16S rRNA基因序列的柳蠶進化分析[J];昆蟲知識;2010年02期
3 趙丹彤;劉廣純;王劍峰;;基于12S rRNA和16S rRNA基因序列探討中國蚤蠅科部分屬間的系統(tǒng)發(fā)育關系[J];動物學研究;2010年04期
4 羅金;劉光遠;田占成;謝俊仁;張萍;;基于18S rRNA基因序列的我國馬梨形蟲分類學地位分析[J];動物分類學報;2011年01期
5 王友升;何欣萌;張燕;陳玉娟;;1株耐氯霉素腐敗微生物的16S rRNA基因序列與碳源代謝指紋圖譜分析[J];微生物學雜志;2014年02期
6 蘇天鳳,江世貴,朱彩艷,吳進鋒;粵西鎮(zhèn)海灣近江牡蠣線粒體16S rRNA基因序列變異分析[J];湛江海洋大學學報;2004年04期
7 李晶;柯崇榕;楊欣偉;田寶玉;黃建忠;;灰黃霉素高產變株與出發(fā)菌株18S rRNA基因序列的比較分析[J];福建師范大學學報(自然科學版);2008年03期
8 高運玲;陳敏;李生偉;蔡應繁;何曉紅;劉毅;江明鋒;;基于18S rRNA基因序列的毛茛科及近緣植物的分子進化關系研究[J];四川大學學報(自然科學版);2010年02期
9 向福,余龍江,栗茂騰,劉智;用bioperl實現(xiàn)種子植物18S rRNA基因序列的大規(guī)模獲取[J];華中農業(yè)大學學報;2005年04期
10 羅瑋;畢春霞;閆志勇;辛曉妮;蘇維奇;朱元祺;;嗜麥芽寡氧單胞菌臨床株與環(huán)境株的16S rRNA基因序列及系統(tǒng)發(fā)育分析[J];實用醫(yī)學雜志;2011年16期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 馬松成;毛華明;陳靜;鄧衛(wèi)東;和天寶;;大額牛瘤胃細菌16S rRNA基因序列的分析[A];第四屆中國畜牧科技論壇論文集[C];2009年
2 李玉春;董海艷;鄭冬;鄒紅菲;;從12S rRNA基因序列研究麝屬各種的系統(tǒng)發(fā)育[A];野生動物生態(tài)與資源保護第四屆全國學術研討會論文摘要集[C];2007年
3 劉志杰;殷宏;羅建勛;關貴全;馬米玲;劉愛紅;黨志勝;高金亮;任巧云;;我國綿羊無漿體16S rRNA基因序列的同源性比較[A];中國畜牧獸醫(yī)學會家畜寄生蟲學分會第五次代表大會暨第八次學術研討會論文集[C];2004年
中國碩士學位論文全文數(shù)據(jù)庫 前5條
1 鄧飛龍;微生物16S rRNA基因序列分類單元(OTUs)聚類算法的設計與實現(xiàn)[D];四川農業(yè)大學;2016年
2 姚大彬;基于16S rRNA和12S rRNA基因序列的帽兒山地區(qū)異色瓢蟲分子系統(tǒng)發(fā)育關系研究[D];東北林業(yè)大學;2009年
3 姚艷萍;中國蚱總科部分種類16S rRNA和18S rRNA基因序列的分子進化與系統(tǒng)學研究[D];陜西師范大學;2008年
4 唐優(yōu)良;基于16S rRNA基因序列的中國鰈形目魚類分子系統(tǒng)學研究[D];暨南大學;2011年
5 謝院榮;用線粒體12S rRNA基因序列研究寄生蚌螨遺傳結構及系統(tǒng)發(fā)育[D];南昌大學;2005年
,本文編號:1280949
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1280949.html