基于深度學習的基因組功能元件的識別與注釋
發(fā)布時間:2020-02-18 00:23
【摘要】:新一代測序技術(Next-Generation Sequencing,NGS)的出現使得快速、廉價地獲取全基因組、高通量測序數據成為可能,改變了人們在基礎、應用和臨床研究的科研方法,加深了人們對復雜生命現象及其機制的理解,極大地促進了多組學研究的發(fā)展。DNA元件百科全書計劃(Encyclopedia of DNA Elements,ENCODE)和表觀路線圖計劃(Roadmap Epigenomics)是后基因組時代的最重要的兩個科研項目,提供了大量ChIP-Seq、RNA-Seq、DNase-Seq等全基因組、高通量、多組學數據。這些多組學數據不是孤立的,他們相互聯系、相互影響,反映了基因組不同方面的性質。因此,我們應該有效利用各組學數據之間的技術差異和互補性,從系統的、整合的角度將多組學數據結合起來進行集成研究,從系統水平上解決生物學問題,從而揭示生命現象背后隱藏的秘密。為了解決基因組不同類型的功能元件的識別難題,人們需要大量有待解決問題的生物背景知識,基于這些先驗知識人為地設計一系列諸如過濾、合并、重疊的操作流程來識別相應的功能元件,但是這嚴重地依賴于人們對相關問題的先驗認知的程度。另外,人們也開發(fā)了一些生物信息學算法和軟件來識別功能元件,并取得了一定成效,但是這些算法和軟件從本質上來說屬于淺層學習(Shallow Learning),其數據刻畫和特征學習的能力有限,因此它們整合海量、復雜的多組學數據并從中發(fā)現規(guī)律的能力大大受到限制。2006年Geoffrey Hinton在《科學》雜志上的一篇開創(chuàng)性的文章掀起了深度學習(Deep Learning)的浪潮。深度學習是人工神經網絡(Artificial Neural Network,ANN)研究的延伸和拓展,利用深度學習建立的深層神經網絡(Deep Neural Network,DNN)具有優(yōu)異的特征學習能力,通過逐層的抽象和特征提取,可以對大量訓練樣本進行更本質的數據刻畫和學習統計學規(guī)律,從而對新的未知數據做出更加精準的預測。本文根據不同的特定生物學問題和相應的特定數據類型,基于對深度學習等各種機器學習算法的扎實理論基礎和實際應用經驗,首先“因地制宜”地設計和開發(fā)了適合不同生物學問題的不同深度學習算法。接著利用ENCODE計劃和NIH Roadmap Epigenomics計劃提供的大量的全基因組、高通量NGS數據,從系統的、整合的角度進行集成研究,利用已建立的基于深度學習的算法識別全基因組的各種不同功能元件。最后,基于算法識別的全基因組功能元件,從表觀組蛋白修飾、基因表達、轉錄因子結合位點、DNA超敏位點、DNA甲基化、保守性、染色質三維結構和RNA二級結構等多個方面來分析這些不同功能元件的相關生物學性質,以及探究其與疾病的關系。根據具體的不同生物學問題,本文完成了以下幾個方面的研究內容:首先,基于深度學習的人類基因組復制時間域的識別與注釋研究。本文從dna復制中的復制時間域入手,為了解決不同復制時間域的識別難題,本文開發(fā)了一種新的、結合了深層神經網絡和隱馬爾科夫模型(dnn-hmm)的混合算法,利用復制時間譜來識別相關的復制時間域。通過性能評估和比較,結果表明,dnn-hmm顯著地優(yōu)于傳統的dnn和高斯混合模型—隱馬爾科夫模型(gmm-hmm),同時也比其他可用于復制時間域識別的6種方法的性能更加優(yōu)秀;陂_發(fā)的深度學習算法,本文利用新復制dna測序(repli-seq)數據和訓練好的dnn-hmm模型識別了15個細胞中各種類型的復制時間域。接下來的基于多組學數據的整合分析表明dnn-hmm識別的這些復制時間域擁有獨特的基因組和表觀基因組模式、轉錄活性、高階的染色質結構,基于這些發(fā)現本文提出了“復制時間域”模型。該模型揭示了人類基因組中染色質組織結構的重要原則,加深了我們對人類基因組調控復制時間機制的理解。其次,基于深度學習的人類基因組增強子的識別研究。增強子在調控基因的時空表達方面具有重要作用,但是全基因組的增強子的預測一直受幾個關鍵問題的制約,因此增強子的預測是計算生物學中的一大挑戰(zhàn)。本文提出了一種基于深度學習的算法框架pedla來對增強子進行綜合地、無偏地預測。結果表明,pedla能夠整合海量不同類型的異構數據,使得預測結果更加綜合和準確;pedla也具備處理類別不平衡數據的能力,使得預測結果更加穩(wěn)健和無偏。與當前頂尖的5種同類機器學習算法相比,pedla的性能顯著地優(yōu)于它們。在此基礎上,本文進一步將pedla框架擴展到多細胞/組織類型的增強子識別中。將pedla在22個細胞/組織進行了迭代訓練,發(fā)現訓練后的模型在22個訓練細胞/組織和20個獨立的測試細胞/組織中取得了極其優(yōu)異且一致的性能,表明pedla是一種可用于不同細胞/組織的增強子預測的通用的、穩(wěn)健的深度學習框架。再次,基于深度學習和集成學習的rna編輯位點的識別研究。當前rna編輯位點的識別主要都是基于人們對rna編輯位點的先驗知識通過一系列人工繁雜的過濾來得到。本文針對rna編輯位點的識別問題,設計和開發(fā)了基于深度學習的自舉重采樣的并行集成學習的rna編輯位點的識別算法——deepred。deepred算法有幾個突出優(yōu)點:一是可以自動從訓練樣本中學習和歸納到rna編輯位點更本質的信息和規(guī)律;二是可以直接從gatk輸出的包含各種類型的復雜候選集合中準確預測rna編輯位點;三是,在識別rna編輯位點同時能夠識別snp;四是,輸入特征都是“atcg”的原始序列,算法可以自動提取和抽象更加有效的特征;五是算法具有很好處理類別不平衡數據的能力。結果表明,DeepRed算法在RNA編輯位點識別中取得了極好的效果,同時,獨立實驗數據的驗證也進一步表明DeepRed算法是可靠和準確的。另外,在多細胞中的評估結果表明DeepRed算法具有很好的泛化能力,能夠有效識別不同細胞、不同位置和不同狀態(tài)下RNA編輯位點。最后,人類基因組增強子RNA的識別與注釋研究。eRNA到底僅僅是轉錄噪聲還是具有調控功能,以及具體到底是eRNA轉錄本還是轉錄RNA的動作是有功能的,一直是相關研究所探討的問題。本文識別了50個細胞/組織的一類特殊的增強子——活性增強子及其轉錄產生的一類非編碼RNA(eRNA)分子。通過組蛋白修飾、RNA轉錄、轉錄因子結合位點和共激活劑結合位點等不同染色質標志的性質分析,本研究發(fā)現增強子活性、eRNA水平、關聯基因mRNA水平、GO生物過程都是以一種細胞特異的方式關聯在一起,并且這些特異的生物過程準確地定義了對應細胞/組織的身份特性。通過在eRNA中檢測已知和全新RNA二級結構,本文發(fā)現eRNA中存在大量功能性結構ncRNA,包括類似miRNA的保守二級結構。進一步的分析結果表明SNP對eRNA的結構有顯著影響從而可能導致一些疾病的發(fā)生,因此本文進一步探究了eRNA與疾病的關系?傊,本文圍繞“基于深度學習的基因組功能元件的識別與注釋”展開,設計和開發(fā)了針對不同功能元件識別的深度學習算法,并對算法識別的功能元件進行了系統和整合的注釋,進而發(fā)現了新的調控機制,以及揭示功能元件與疾病的關系。
【圖文】:
Hi-C地圖和復制時間域
連接了 ERD 和 LRD 的邊界。DTZ 具有活性/抑制性染色質標記快速下降/上升的特性,而 UTZ 具有活性/抑制性染色質標記快速上升/下降的特性。圖2.13 復制時間域模型本研究的復制時間域模型與之前的分形球、無結的聚合物形態(tài)一致[81]。在本研究的模型中,,空間隔離的分形球等價于時間隔離的 ERD 和 LRD,其中 ERD和LRD是由UTZ和DTZ連接在一起。被ERD或者LRD分隔的相鄰的DTZ-UTZ對通過更強的相互作用在每個 ERD 和 LRD 兩側形成染色質環(huán)。更重要的是,本研究發(fā)現在由相鄰的 DTZ-UTZ 對形成的染色質環(huán)中,LRD 偏向于更緊密的地纏繞在一起,其中的區(qū)間也偏向于長程相互作用,而 ERD 則傾向于酥松地纏繞在一起,其中的區(qū)間也相對是短程相互作用。2.5 材料與方法2.5.1 數據集15 個細胞類型的基于 Repli-Seq 的復制時間數據是從 ENCODE 計劃下的 UW
【學位授予單位】:中國人民解放軍軍事醫(yī)學科學院
【學位級別】:博士
【學位授予年份】:2016
【分類號】:Q78
本文編號:2580551
【圖文】:
Hi-C地圖和復制時間域
連接了 ERD 和 LRD 的邊界。DTZ 具有活性/抑制性染色質標記快速下降/上升的特性,而 UTZ 具有活性/抑制性染色質標記快速上升/下降的特性。圖2.13 復制時間域模型本研究的復制時間域模型與之前的分形球、無結的聚合物形態(tài)一致[81]。在本研究的模型中,,空間隔離的分形球等價于時間隔離的 ERD 和 LRD,其中 ERD和LRD是由UTZ和DTZ連接在一起。被ERD或者LRD分隔的相鄰的DTZ-UTZ對通過更強的相互作用在每個 ERD 和 LRD 兩側形成染色質環(huán)。更重要的是,本研究發(fā)現在由相鄰的 DTZ-UTZ 對形成的染色質環(huán)中,LRD 偏向于更緊密的地纏繞在一起,其中的區(qū)間也偏向于長程相互作用,而 ERD 則傾向于酥松地纏繞在一起,其中的區(qū)間也相對是短程相互作用。2.5 材料與方法2.5.1 數據集15 個細胞類型的基于 Repli-Seq 的復制時間數據是從 ENCODE 計劃下的 UW
【學位授予單位】:中國人民解放軍軍事醫(yī)學科學院
【學位級別】:博士
【學位授予年份】:2016
【分類號】:Q78
本文編號:2580551
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2580551.html