基于深度學(xué)習(xí)的lncRNA識別和功能注釋及與疾病關(guān)系研究
發(fā)布時間:2020-06-01 06:51
【摘要】:在真核生物轉(zhuǎn)錄組中,只有大約2%的序列可以被翻譯為蛋白質(zhì),多達70%的人類基因組均被轉(zhuǎn)錄成了非編碼RNA,而且復(fù)雜程度越高的生物中,非編碼轉(zhuǎn)錄本的比例越高,因此非編碼轉(zhuǎn)錄本的作用逐漸引起廣泛關(guān)注。特別的,在非編碼RNA中,長鏈非編碼RNA(long non-coding RNA,lncRNA)的研究成為近年來的研究熱點。LncRNA是一類長度大于200核苷酸的非編碼轉(zhuǎn)錄本。LncRNA參與很多重要的細胞過程,因此某些轉(zhuǎn)錄本的改變可能導(dǎo)致細胞生命活動的劇烈變化,從而導(dǎo)致某些特定的疾病。越來越多的證據(jù)表明,lncRNA在癌癥的發(fā)生和發(fā)展中發(fā)揮作用,在癌癥細胞中的lncRNA表達譜和正常細胞中的有顯著差異,而且不同時期的癌癥細胞中l(wèi)ncRNA表達譜也不同。因此,深入了解lncRNA的作用方式和調(diào)控目標,并理解lncRNA在癌癥等疾病中的作用是一個非常重要的研究方向。而目前,從轉(zhuǎn)錄組數(shù)據(jù)中識別lncRNA并了解特定lncRNA的功能,理解lncRNA在癌癥中的作用,仍然是一項巨大的挑戰(zhàn)。另一方面,機器學(xué)習(xí)的研究飛速發(fā)展,機器學(xué)習(xí)已經(jīng)逐漸成為人類學(xué)習(xí)和推理的有效途徑。深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支,是當(dāng)今最流行的機器學(xué)習(xí)研究方法之一。深度學(xué)習(xí)可以通過分析大量復(fù)雜數(shù)據(jù),找到這些數(shù)據(jù)之間的潛在關(guān)系,從數(shù)據(jù)中逐層抽取多種特征。深度學(xué)習(xí)的計算非常復(fù)雜,在處理復(fù)雜數(shù)據(jù)時,耗時長且需要占用較大內(nèi)存,而CPU、GPU等硬件性能的提高促進了深度學(xué)習(xí)的廣泛使用,到目前為止,深度學(xué)習(xí)逐漸被應(yīng)用于圖像處理、語音識別等領(lǐng)域,對這些領(lǐng)域的研究起到了重要的作用。深度學(xué)習(xí)的方法同樣應(yīng)用到了生物醫(yī)學(xué)領(lǐng)域,例如在識別不同的功能元件和位點、以及醫(yī)學(xué)影像特征提取等問題中。目前已經(jīng)提出了很多基于深度學(xué)習(xí)的方法,這些方法往往具有較高的準確率。因此深度學(xué)習(xí)的應(yīng)用對生物醫(yī)學(xué)領(lǐng)域的研究具有重要意義,是傳統(tǒng)研究方法的一種突破。隨著高通量RNA測序技術(shù)(High-throughput RNA sequencing technology)的快速發(fā)展,轉(zhuǎn)錄組數(shù)據(jù)得到了快速累積。為采用深度學(xué)習(xí)方法建立lncRNA智能識別系統(tǒng)提供了重要的數(shù)據(jù)基礎(chǔ)。本文基于深度學(xué)習(xí)方法,從轉(zhuǎn)錄本中識別lncRNA,構(gòu)建了lnc2Catlas數(shù)據(jù)庫,量化lncRNA和癌癥之間的關(guān)聯(lián)程度,進而通過構(gòu)建LIVE數(shù)據(jù)庫,探索了有實驗驗證的lncRNA和癌癥之間的結(jié)合、調(diào)控相互作用網(wǎng)絡(luò)。研究內(nèi)容主要圍繞以下幾個方面展開:首先,基于深度學(xué)習(xí)和機器學(xué)習(xí)的lncRNA識別算法。通過對相關(guān)算法的回顧比較,我們發(fā)現(xiàn),這些算法普遍需要保守性等相關(guān)的先驗知識,需要花費大量時間計算人工選擇的特征,且將序列切分計算,容易給機器學(xué)習(xí)或深度學(xué)習(xí)模型引入噪聲或丟失信息,影響模型學(xué)習(xí)的特征,造成準確率低等問題。我們對卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)這兩種常用的深度學(xué)習(xí)模型進行了深入的了解,探究了兩種網(wǎng)絡(luò)對數(shù)據(jù)的數(shù)學(xué)操作。我們根據(jù)序列數(shù)據(jù)特點,用基于卷積神經(jīng)網(wǎng)絡(luò)的DeepSea模型提取序列的表觀特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取序列特征,基于序列特征和表觀特征,可以從測試集中識別lncRNA和編碼蛋白的RNA,AUC面積達到0.96。實驗結(jié)果表明,本文提出的模型具有較高的準確率和泛化能力。在lncRNA識別的工作基礎(chǔ)上,本研究進一步探究lncRNA在癌癥的發(fā)生和發(fā)展中發(fā)揮作用的方式。目前研究lncRNA和癌癥之間關(guān)系的方式有實驗探究和計算預(yù)測兩種方式。經(jīng)過實驗驗證的lncRNA和癌癥的關(guān)聯(lián)關(guān)系非常少,而通過計算方式預(yù)測的lncRNA和癌癥之間的關(guān)系主要有通過機器學(xué)習(xí)算法模型和整合lncRNA-miRNA和miRNA-癌癥相互作用。我們通過SNP、蛋白和基因?qū)ncRNA和癌癥關(guān)聯(lián)起來,使用RNAsnp、Global Score、WGCNA三種方法,分別評估SNP引起的lncRNA二級結(jié)構(gòu)的改變、lncRNA和蛋白的相互作用以及共表達網(wǎng)絡(luò),量化lncRNA和相應(yīng)的癌癥之間的關(guān)聯(lián)程度。基于上述數(shù)據(jù),構(gòu)建Lnc2Catlas數(shù)據(jù)庫,便于用戶查詢和lncRNA可能相關(guān)的癌癥,并為進一步的實驗驗證提供候選lncRNA。最后,為了給相關(guān)研究者提供支持,我們開發(fā)了用于探究lncRNA和癌癥關(guān)系的數(shù)據(jù)庫。與早期的從實驗驗證和計算預(yù)測研究中提取候選lncRNA的數(shù)據(jù)庫不同,目前已有的數(shù)據(jù)庫著眼于lncRNA的特定功能作用,但是文獻中包含的潛在的lncRNA-癌癥相互作用網(wǎng)絡(luò)沒有被完全揭示出來。因此,我們構(gòu)建了LIVE數(shù)據(jù)庫,在PubMed數(shù)據(jù)庫中檢索相關(guān)的文獻,并構(gòu)建分詞系統(tǒng),對文獻摘要進行預(yù)處理,抽取物種、實驗類型、lncRNA等關(guān)鍵詞,并根據(jù)關(guān)鍵詞對文獻分類,詳細標注文獻中經(jīng)過實驗驗證的lncRNA和癌癥的相互作用;谏鲜鍪止俗⒌膌ncRNA和癌癥之間的相互作用關(guān)系,我們構(gòu)建了LIVE(LncRNA Interaction Validated Encyclopedia)數(shù)據(jù)庫。LIVE數(shù)據(jù)庫將這些經(jīng)過驗證的相互關(guān)系被分為三類網(wǎng)絡(luò),分別是結(jié)合相互作用網(wǎng)絡(luò)、調(diào)控網(wǎng)絡(luò)和疾病關(guān)聯(lián)網(wǎng)絡(luò)。通過對這三個網(wǎng)絡(luò)的組合,我們進一步了解lncRNA相互作用網(wǎng)絡(luò)中包含的不同類型的功能調(diào)控元件和相互作用。綜上所述,本文的工作圍繞lncRNA的識別、功能注釋及與疾病關(guān)系研究展開,提出了基于混合模型的lncRNA的深度學(xué)習(xí)識別算法,只使用序列識別lncRNA;構(gòu)建了Lnc2Catlas數(shù)據(jù)庫,量化lncRNA和癌癥的關(guān)聯(lián)程度;構(gòu)建LIVE數(shù)據(jù)庫,提供手工標注的lncRNA和癌癥的關(guān)聯(lián)關(guān)系以及完整的lncRNA-癌癥相互作用網(wǎng)絡(luò),有助于進一步揭示lncRNA和癌癥之間的潛在關(guān)系和探究lncRNA在癌癥治療中的作用。
【圖文】:
位于核質(zhì)中[7]。然而在對小鼠的 lncRNA 的研究表明,大量 RNA 在胚胎干細胞分化和大腦中特異性表達,且表現(xiàn)出精確的亞細胞定位,說明 lncRNA 的表達受到精準的調(diào)控[14]。0.2 lncRNA 的功能如圖 0.1 所示,上游非編碼啟動子(黃色)的轉(zhuǎn)錄可通過抑制 RNA 聚合酶 II的募集或誘導(dǎo)染色質(zhì)重構(gòu),對下游基因(藍色)的表達產(chǎn)生影響。反義轉(zhuǎn)錄本(紫色)能夠與重疊的下游基因轉(zhuǎn)錄本(藍色)結(jié)合,并通過剪接阻斷剪接位點的識別,引起轉(zhuǎn)錄本的選擇性剪接。lncRNA 和反義轉(zhuǎn)錄本的結(jié)合可以在 Dicer 酶的條件下產(chǎn)生內(nèi)源性 siRNA。非編碼轉(zhuǎn)錄本(綠色)與特定的蛋白結(jié)合,,可以調(diào)節(jié)蛋白的活性,或作為一種結(jié)構(gòu)成分,形成更大的 RNA -蛋白復(fù)合物,或改變蛋白在細胞中的定位。lncRNA (紅色)可被加工成短片段 RNA,如 miRNA、piRNA 和其他特征不太明顯的小轉(zhuǎn)錄本(圖片來源:https://www.biosyn.com/tew/what-are-lncrnas-and-lincrnas.aspx)。
第一章 基于深度學(xué)習(xí)的 lncRNA 識別算法1.1 深度學(xué)習(xí)研究背景1.1.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是神經(jīng)網(wǎng)絡(luò)的一種,具有同時從多種類型的數(shù)據(jù)中學(xué)習(xí)復(fù)雜、高維、非線性映射的能力,尤其是對二維圖像的處理,因此常用在圖像識別等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。深度卷積網(wǎng)絡(luò)模型的特征是順序交替的卷積層和池化層,它們提取不同空間尺度上的序列特征。在一般的卷積神經(jīng)網(wǎng)絡(luò)模型中,每個卷積層都對應(yīng)一個池化層,最后使用幾層全連接層對最后一層池化層的輸出進行降維處理,并根據(jù)需要得到固定維度的特征作為輸出。常見的卷積神經(jīng)網(wǎng)絡(luò)模型如圖 1.1 所示。
【學(xué)位授予單位】:軍事科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:R363
【圖文】:
位于核質(zhì)中[7]。然而在對小鼠的 lncRNA 的研究表明,大量 RNA 在胚胎干細胞分化和大腦中特異性表達,且表現(xiàn)出精確的亞細胞定位,說明 lncRNA 的表達受到精準的調(diào)控[14]。0.2 lncRNA 的功能如圖 0.1 所示,上游非編碼啟動子(黃色)的轉(zhuǎn)錄可通過抑制 RNA 聚合酶 II的募集或誘導(dǎo)染色質(zhì)重構(gòu),對下游基因(藍色)的表達產(chǎn)生影響。反義轉(zhuǎn)錄本(紫色)能夠與重疊的下游基因轉(zhuǎn)錄本(藍色)結(jié)合,并通過剪接阻斷剪接位點的識別,引起轉(zhuǎn)錄本的選擇性剪接。lncRNA 和反義轉(zhuǎn)錄本的結(jié)合可以在 Dicer 酶的條件下產(chǎn)生內(nèi)源性 siRNA。非編碼轉(zhuǎn)錄本(綠色)與特定的蛋白結(jié)合,,可以調(diào)節(jié)蛋白的活性,或作為一種結(jié)構(gòu)成分,形成更大的 RNA -蛋白復(fù)合物,或改變蛋白在細胞中的定位。lncRNA (紅色)可被加工成短片段 RNA,如 miRNA、piRNA 和其他特征不太明顯的小轉(zhuǎn)錄本(圖片來源:https://www.biosyn.com/tew/what-are-lncrnas-and-lincrnas.aspx)。
第一章 基于深度學(xué)習(xí)的 lncRNA 識別算法1.1 深度學(xué)習(xí)研究背景1.1.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是神經(jīng)網(wǎng)絡(luò)的一種,具有同時從多種類型的數(shù)據(jù)中學(xué)習(xí)復(fù)雜、高維、非線性映射的能力,尤其是對二維圖像的處理,因此常用在圖像識別等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。深度卷積網(wǎng)絡(luò)模型的特征是順序交替的卷積層和池化層,它們提取不同空間尺度上的序列特征。在一般的卷積神經(jīng)網(wǎng)絡(luò)模型中,每個卷積層都對應(yīng)一個池化層,最后使用幾層全連接層對最后一層池化層的輸出進行降維處理,并根據(jù)需要得到固定維度的特征作為輸出。常見的卷積神經(jīng)網(wǎng)絡(luò)模型如圖 1.1 所示。
【學(xué)位授予單位】:軍事科學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:R363
【相似文獻】
相關(guān)期刊論文 前10條
1 桑園園;楊承健;韓志君;;LncRNA與心血管疾病的研究進展[J];臨床與病理雜志;2016年10期
2 馬驤;歐陽堯明;景在平;周建;;lncRNA在血管疾病中的作用機制研究進展[J];中國普通外科雜志;2016年12期
3 劉慧;王德瑩;孫海珠;邱曉紅;;子宮內(nèi)膜異位癥中LncRNA的研究進展[J];中國優(yōu)生與遺傳雜志;2017年01期
4 陳偉;戴偉鋼;張常華;何裕隆;;LncRNA在胃癌中的表達及其預(yù)后價值[J];消化腫瘤雜志(電子版);2016年04期
5 顏晗;譚丹;謝攀;劉昭前;李曦;;多種lncRNA可影響黑色素瘤的發(fā)生和發(fā)展[J];中南大學(xué)學(xué)報(醫(yī)學(xué)版);2017年02期
6 汪翔;吳強;李慶中;李維平;;LncRNA在惡性腦膠質(zhì)瘤中的研究進展[J];中華神經(jīng)外科疾病研究雜志;2017年01期
7 王祖森;沈h牖
本文編號:2691108
本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/2691108.html
最近更新
教材專著