基于深度學習的跨物種M6A修飾位點預測研究
發(fā)布時間:2020-09-05 11:41
RNA轉(zhuǎn)錄后修飾是對轉(zhuǎn)錄后的RNA進行加工的過程,在許多生命過程中發(fā)揮著重要作用。目前鑒定到的已有150余種轉(zhuǎn)錄后修飾,其中N6-甲基腺苷(N6-methyladenosine,m~6A)是RNA轉(zhuǎn)錄后修飾中最為常見的一類,其廣泛地存在于哺乳動物,釀酒酵母和擬南芥等物種中。M~6A是一種可逆修飾,其調(diào)節(jié)著RNA的定位、轉(zhuǎn)錄、剪接和穩(wěn)定性。此外其與腫瘤、肥胖癥等疾病具有關聯(lián)。因此,從RNA序列中精準地鑒定出m~6A修飾位點,對基礎研究和藥物開發(fā)有著重大意義,是一項非常有意義的工作。傳統(tǒng)的基于生化實驗來識別m~6A修飾位點的方法不僅耗時長、成本高,而且規(guī)模較小。近年來,研究人員開發(fā)出了多個基于機器學習的m~6A修飾位點預測器,但是其都是面向單一物種且預測精度有限。因此,設計一種高精度的跨物種m~6A修飾位點預測模型,是非常有必要的。本文對m~6A修飾位點預測問題進行了研究,主要工作如下:(1)對基于RNA序列的m~6A修飾位點預測問題進行研究,提出一種新型的RNA序列特征提取方法,即改進的核苷酸組成成分(Enhanced Nucleic Acid Composition,ENAC)。該方法利用滑動窗口的思想,分別計算滑動窗口中每種核苷酸出現(xiàn)的頻率。此方法融合了序列的局部信息和全局信息,能夠更好地表達修飾位點周圍RNA序列的特征�;诖颂卣魈崛》椒�,構建了隨機森林預測模型。實驗結(jié)果表明,與常見的RNA序列特征提取方法相比,該方法能有效提高N6-甲基腺苷位點的預測性能。(2)將深度學習應用于m~6A修飾位點預測,提出了基于單向門控循環(huán)單元(Unidirectional GRU-based RNN predictor,UGRU)和雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BGRU)的m~6A修飾位點預測模型。實驗結(jié)果表明,BGRU預測模型在多物種上具有更好的預測結(jié)果。(3)通過邏輯回歸的方法,融合基于深度學習的BGRU預測模型和基于ENAC方法的隨機森林預測模型,構建了一個高精度的跨物種m~6A修飾位點預測模型,BERMP方法。實驗結(jié)果表明,在多個物種上,本文提出的BERMP方法在相同獨立測試集上的預測性能都要優(yōu)于現(xiàn)有的單物種m~6A修飾位點預測方法。(4)對提出的BERMP方法提供了在線的預測服務平臺,以便相關研究人員免費地使用(http://www.bioinfogo.org/bermp/)。
【學位單位】:青島大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:Q811.4;TP18
【部分圖文】:
用于分類和回歸任務,其關鍵思想是將低維空間中的線性不可分樣本通過核函數(shù)映射到高維空間中,使得樣本在高維空間中線性可分,并找到一個最優(yōu)的超平面將兩類樣本分隔開。對于給定訓練樣本 ; y ∈ { },如圖2.1所示,超平面H記為g t,如果 t ,則g ,否則g 。圖2.1 支持向量機示意圖
青島大學碩士學位論文10圖2.2 決策樹構建流程圖決策樹的構造過程一般分為3個部分,分別是特征選擇、決策樹生成和決策樹裁剪。特征選擇是從眾多的特征中選擇一個最優(yōu)特征作為當前節(jié)點的分裂標準,根據(jù)選擇最優(yōu)特征的不同,構建決策樹的算法又分為ID3,C4.5,CART等方法。以ID3算法為例,其根據(jù)信息增益值選擇最優(yōu)分裂屬性。信息增益定義如下:Gain D a t t 公式 2-(6)Ent D th 公式 2-(7)其中,訓練樣本集用D表示
青島大學碩士學位論文11圖2.3 隨機森林構建流程圖隨機森林采用了集成算法的思想,是一種高精度的分類器。由于兩個隨機性的引入,使得隨機森林不容易陷入過擬合并具有一定的抗噪能力,能有效地處理有缺失的樣本數(shù)據(jù)。隨機森林能夠有效地處理高維數(shù)據(jù),并且不用做特征選擇,在訓練過程中,可以檢測特征之間的互相影響,得到特征的重要性。因其良好的分類效果,在生物信息學領域有著廣泛的應用[20, 21]。2.2 常用深度學習方法2.2.1 多層感知機多層感知機[34]是由感知機推廣而來,最主要的特點是有多個神經(jīng)元層,因此也叫深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNN)。第一層稱為輸入層,最后一層稱為輸出層,中間的層稱之為隱含層。多層感知機中并沒有規(guī)定隱含層的數(shù)量,同時對每層的神經(jīng)元個數(shù)也沒有限制。因此可以根據(jù)實際需求選擇合適的隱層層數(shù)和每層神經(jīng)元個數(shù)。最簡單的多層感知機是三層結(jié)構
【學位單位】:青島大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:Q811.4;TP18
【部分圖文】:
用于分類和回歸任務,其關鍵思想是將低維空間中的線性不可分樣本通過核函數(shù)映射到高維空間中,使得樣本在高維空間中線性可分,并找到一個最優(yōu)的超平面將兩類樣本分隔開。對于給定訓練樣本 ; y ∈ { },如圖2.1所示,超平面H記為g t,如果 t ,則g ,否則g 。圖2.1 支持向量機示意圖
青島大學碩士學位論文10圖2.2 決策樹構建流程圖決策樹的構造過程一般分為3個部分,分別是特征選擇、決策樹生成和決策樹裁剪。特征選擇是從眾多的特征中選擇一個最優(yōu)特征作為當前節(jié)點的分裂標準,根據(jù)選擇最優(yōu)特征的不同,構建決策樹的算法又分為ID3,C4.5,CART等方法。以ID3算法為例,其根據(jù)信息增益值選擇最優(yōu)分裂屬性。信息增益定義如下:Gain D a t t 公式 2-(6)Ent D th 公式 2-(7)其中,訓練樣本集用D表示
青島大學碩士學位論文11圖2.3 隨機森林構建流程圖隨機森林采用了集成算法的思想,是一種高精度的分類器。由于兩個隨機性的引入,使得隨機森林不容易陷入過擬合并具有一定的抗噪能力,能有效地處理有缺失的樣本數(shù)據(jù)。隨機森林能夠有效地處理高維數(shù)據(jù),并且不用做特征選擇,在訓練過程中,可以檢測特征之間的互相影響,得到特征的重要性。因其良好的分類效果,在生物信息學領域有著廣泛的應用[20, 21]。2.2 常用深度學習方法2.2.1 多層感知機多層感知機[34]是由感知機推廣而來,最主要的特點是有多個神經(jīng)元層,因此也叫深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNN)。第一層稱為輸入層,最后一層稱為輸出層,中間的層稱之為隱含層。多層感知機中并沒有規(guī)定隱含層的數(shù)量,同時對每層的神經(jīng)元個數(shù)也沒有限制。因此可以根據(jù)實際需求選擇合適的隱層層數(shù)和每層神經(jīng)元個數(shù)。最簡單的多層感知機是三層結(jié)構
【相似文獻】
相關期刊論文 前10條
1 劉文博;梁盛楠;秦喜文;董小剛;王純杰;;基于迭代隨機森林算法的糖尿病預測[J];長春工業(yè)大學學報;2019年06期
2 賈璐;李輝;陳大雷;;基于改進隨機森林的城市河流水生態(tài)健康評價研究[J];海河水利;2019年06期
3 盛曉欣;田翔華;周毅;;基于隨機森林癲癇患者腦電數(shù)據(jù)的分析研究[J];中國數(shù)字醫(yī)學;2020年01期
4 秦喜文;郭宇;董小剛;郭佳靜;袁迪;;基于局部均值分解和迭代隨機森林的腦電分類[J];吉林大學學報(信息科學版);2020年01期
5 沈智勇;蘇
本文編號:2812977
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2812977.html
最近更新
教材專著