Docker生物云計算平臺分析松材線蟲高通量測序數(shù)據(jù)的應用研究
發(fā)布時間:2017-04-29 20:05
本文關鍵詞:Docker生物云計算平臺分析松材線蟲高通量測序數(shù)據(jù)的應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著二代測序技術在生命科學研究領域的廣泛應用,生物學家們正面臨生物大數(shù)據(jù)處理、分析的挑戰(zhàn),同時生物大數(shù)據(jù)也將成為生命科學領域創(chuàng)新的源泉,對這些數(shù)據(jù)創(chuàng)新性的管理和應用,將為生命科學及相關產(chǎn)業(yè)領域帶來一次新的革命。高通量測序技術的發(fā)展,推動序列數(shù)據(jù)的迅速增長,普通實驗室也可以達到PT級生物測序數(shù)據(jù)量,如此大規(guī)模的數(shù)據(jù)的有效存儲、高效分析、共享利用,都是我們面對的難題,對高性能計算也提出了嚴峻的挑戰(zhàn)。目前已測序的物種也只是一小部分而已,已完成測序的物種相關數(shù)據(jù)的分析也不深入。在算法優(yōu)化、軟件并行化、流程自動化、大規(guī)模數(shù)據(jù)存儲、處理及深度分析等層面,有亟待的工作需要廣泛開展。針對新一代測序數(shù)據(jù)量大、數(shù)據(jù)處理過程復雜、對計算資源要求高等特點,云計算提供了一種有效的解決途徑,云架構下的平臺搭建,存儲、計算軟件開發(fā),工作流框架正在不斷發(fā)展完善,并在未來的生物大數(shù)據(jù)分析、存儲方面發(fā)揮著重要作用。Docker是PaaS提供商dotCloud提供的一款基于LXC (LinuX Contai-ners)開源項目。Docker目前在云計算領域迅速發(fā)展,包括dotCloud、Google Compute Engine和百度應用引擎(BAE),都使用了Docker。LXC是一種共享Kernel的操作系統(tǒng)級別的虛擬化解決方案,通過在執(zhí)行時不重復加載內核,且虛擬容器(Container)與宿主機(Host)之間共享內核來加快啟動速度和減少內存消耗。相比較傳統(tǒng)的虛擬化,基于LXC的輕量虛擬化Docker可以做到啟動快且占用資源少。因此,Docker是良好的構建云計算的架構,Docker正在給云計算帶來一場革新,Docker可以靈活地封裝軟件,令其更快速地傳播。Docker技術的實現(xiàn)意味著,如果在一臺筆記本上編寫了一個軟件,可以將它移動到本地服務器或云服務器,而不需要做任務改變。這一直都是云計算的目標:互聯(lián)網(wǎng)就是一臺巨型計算機。生物大數(shù)據(jù)也具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價值(Value)、高速(Velocity)的“4V”大數(shù)據(jù)特點,Docker的便捷、高效的特點適應了生物大數(shù)據(jù)發(fā)展的需求,所以Docker生物云計算平臺是應對生物大數(shù)據(jù)的最佳方案,本文Docker技術為基礎進行了深入研究和探討其在生物大數(shù)據(jù)分析方面的應用開發(fā),并將開發(fā)的ubuntu14.04_biodocker生物云計算平臺應用于松材線蟲的高通量測序數(shù)據(jù)個性化分析中,為分析、處理高通量測序產(chǎn)生的生物大數(shù)據(jù)提供一種方法和思路。研究內容如下:(1) Docker在Ubuntu操作系統(tǒng)中的安裝及基本的Docker命令。(2) Docker中的數(shù)據(jù)管理及基本命令的探討:數(shù)據(jù)存儲及管理是Docker技術的一個重要內容,我們探討了如何在容器中掛載主機的數(shù)據(jù)及如何創(chuàng)建數(shù)據(jù)容器等一些內容。(3)基于ubuntu-14.04-x86_64. tar. gz模板,創(chuàng)建ubuntu14.04 biodocker基礎鏡像,由于一些分析軟件依賴許多環(huán)境,所以我們選擇的一個較完整的系統(tǒng)作為基礎鏡像。(4)基于ubuntu14.04_biodocker基礎鏡像,我們深入探討了使用三種方法在鏡像中安裝基因組,轉錄組,宏基因組等相關軟件及處理原始數(shù)據(jù)的腳本,構建了ubuntu14.04_biodocker生物云計算平臺鏡像。該生物云計算平臺鏡像可以快速、高效的移植到任何一臺linux內核的操作系統(tǒng)平臺,無論是單機、集群,谷歌或亞馬遜的云服務。方便了高通量測序數(shù)據(jù)分析平臺在不同硬件環(huán)境、不同操作系統(tǒng)之間的無縫遷移。可以讓生物研究者把更多時間和精力集中在數(shù)據(jù)分析及探討生物學問題上,而不必為這些軟件安裝及軟件運行兼容性、環(huán)境依賴這些運維層面的技術而困擾,我們根據(jù)上述的鏡像分別在個人電腦、廈門大學數(shù)據(jù)挖掘組的服務器上搭建了ubuntu14.04_biodocker生物云計算平臺進行了高通量測序數(shù)據(jù)的分析、挖掘。(5)利用平臺我們基于松材線蟲全基因組構建了全基因組分泌蛋白基因家族的基因序列、蛋白序列,并且進行了功能注釋。結果表明,松材線蟲有923個分泌蛋白基因,僅有93個基因得到注釋,其余90%的分泌蛋白均為松材線蟲所特有,值得我們更加關注和有待于更深入的研究。我們還對松材線蟲基因組進行了SSR定位及引物開發(fā),在松材線蟲全基因組中搜索到12135個SSR,開發(fā)出1155個引物,我們又把這些信息轉換成gff3格式文件,可以在基因組瀏覽器中更直觀方便的觀察這些SSR位置、類型、長度、引物等詳細信息。(6)利用平臺我們基于轉錄組的松材線蟲、擬松材線蟲分泌蛋白差異表達及分子進化研究。結果表明,松材線蟲、擬松材線蟲轉錄組共表達800個分泌蛋白,其中294個分泌蛋白為二者差異表達顯著,并對這些蛋白進行了注釋和分析。在松材線蟲、擬松材線蟲498個分泌蛋白同源基因中篩選出16個基因的Ka/Ks值顯著大于1,并且達到了統(tǒng)計學上差異顯著的水平,表明這些基因受到強烈的自然選擇作用,為適應環(huán)境功能上發(fā)生了極顯著的進化。(7)利用平臺我們研究了基于轉錄組的松材線蟲、擬松材線蟲直系同源基因的研究及。結果表明,松材線蟲、擬松材線蟲與秀麗線蟲、根結線蟲同源基因及其差異表達,近緣物種上都得到的大量同源基因,為我們基因功能注釋及研究提供可靠的信息,而在遠緣物種擬南芥、毛果楊獲得了同源基因為我們研究松材線蟲與寄主植物的互作提供參考。(8)利用平臺我們研究了基于宏基因組的松材線蟲與其伴生菌的水平轉移基因。結果表明,通過計算比較GC含量方法得到15個松材線蟲與共生菌之間的水平轉移基因,這些基因大部分都是具有重要生理生化功能,為研究松材線蟲與其伴生菌協(xié)同進化提供了有力證據(jù)。
【關鍵詞】:松材線蟲 Docker 云計算 基因組 轉錄組 宏基因組
【學位授予單位】:東北林業(yè)大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:S763.18;TP311.13
【目錄】:
- 摘要3-5
- Abstract5-11
- 1 緒論11-26
- 1.1 引言11-13
- 1.2 高通量測序產(chǎn)生的生物大數(shù)據(jù)13-19
- 1.2.1 高通量測序技術及應用概述13-15
- 1.2.2 生物大數(shù)據(jù)分析流程及方法15-16
- 1.2.3 生物大數(shù)據(jù)分析計算的挑戰(zhàn)16-17
- 1.2.4 松材線蟲高通量測序數(shù)據(jù)現(xiàn)狀17-19
- 1.3 Docker與云計算概述19-24
- 1.3.1 Docker云計算時代的應用容器引擎19-21
- 1.3.2 Docker特性及原理21-22
- 1.3.3 Docker體系架構22-24
- 1.4 本項目研究的目的意義24-26
- 2 Docker生物云計算平臺的搭建26-43
- 2.1 材料方法26-41
- 2.1.1 Docker的安裝及基本命令26-29
- 2.1.2 Docker創(chuàng)建鏡像的三種方法29-32
- 2.1.3 Docker的數(shù)據(jù)管理及常用命令32-33
- 2.1.4 Docker生物云計算平臺鏡像的構建33-41
- 2.2 本章小結41-43
- 3 Docker生物云計算平臺在基因組研究中的應用43-50
- 3.1 材料方法43-46
- 3.1.1 松材線蟲全基因組泌蛋白基因家族研究43-44
- 3.1.2 松材線蟲全基因組SSR引物開發(fā)及可視化研究44-46
- 3.2 結果與分析46-48
- 3.2.1 松材線蟲全基因組泌蛋白基因家族研究結果與分析46-47
- 3.2.2 松材線蟲全基因組SSR引物開發(fā)及可視化結果與分析47-48
- 3.3 本章小結48-50
- 4 Docker生物云計算平臺在轉錄組研究中的應用50-62
- 4.1 材料方法50-54
- 4.1.1 基于轉錄組的松材線蟲、擬松材線蟲同源基因識別及差異表達研究50-52
- 4.1.2 基于轉錄組的松材線蟲、擬松材線蟲分泌蛋白差異表達及進化研究52-54
- 4.2 結果與分析54-60
- 4.2.1 松材線蟲、擬松材線蟲同源基因差異表達結果與分析54-58
- 4.2.2 松材線蟲分泌蛋白差異表達及進化研究結果與分析58-60
- 4.3 本章小結60-62
- 5 Docker生物云計算平臺在宏基因組研究中的應用62-67
- 5.1 材料方法62-64
- 5.1.1 基于宏基因組的松材線蟲水平轉移基因識別研究62-64
- 5.2 結果與分析64-66
- 5.2.1 基于宏基因組的松材線蟲水平轉移基因識別結果與分析64-66
- 5.3 本章小結66-67
- 結論67-70
- 參考文獻70-78
- 攻讀學位期間發(fā)表的學術論文78-79
- 致謝79-80
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 ;KaKs_Calculator 2.0:A Toolkit Incorporating Gamma-Series Methods and Sliding Window Strategies[J];Genomics Proteomics & Bioinformatics;2010年01期
2 李喬;鄭嘯;;云計算研究現(xiàn)狀綜述[J];計算機科學;2011年04期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 常秦;宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究[D];山東大學;2012年
本文關鍵詞:Docker生物云計算平臺分析松材線蟲高通量測序數(shù)據(jù)的應用研究,由筆耕文化傳播整理發(fā)布。
,本文編號:335511
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/335511.html
最近更新
教材專著