基于RNN及其融合方法的DNA甲基化預測模型研究
發(fā)布時間:2021-08-07 23:52
DNA甲基化是表觀遺傳機制的一種,涉及多種重要的生命活動。研究DNA甲基化在基因表達調控、疾病防治、腫瘤識別等方面具有重要意義。利用實驗手段檢測DNA甲基化的方法可以獲得較高的準確性,但由于成本高,并不能大規(guī)模的應用。因此,利用機器學習模型預測DNA甲基化成為實驗手段的重要補充。近年來,隨著深度學習技術的發(fā)展,研究人員開始使用深度學習框架進行DNA甲基化的研究,與傳統(tǒng)的機器學習方法相比,深度學習可以更充分地利用現(xiàn)有的甲基化數(shù)據(jù)庫,可以從大量的數(shù)據(jù)中自動學習到潛在的甲基化特征。目前,DeepCpG、MRCNN等基于深度學習的DNA甲基化預測模型取得了良好的效果,但還存在著難以提取DNA序列時序特征、部分區(qū)域性能較差的不足。針對以上問題,本文構建了三種通過局部DNA序列預測DNA甲基化的深度學習模型。相比于現(xiàn)有模型,提升了DNA甲基化的預測性能。具體工作如下:(1)針對于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)每層內部神經(jīng)元相互獨立,難以有效利用DNA序列時序信息的問題,文本基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
DeepCpG模型結構
電子科技大學碩士學位論文16圖2-3MRCNN模型結構相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個以目標CpG位點為中心上下游各200bp長度的DNA序列。在進行MRCNN訓練之前,需要對這些DNA序列片段進行one-hot編碼,以將原始序列中的堿基A,T,C和G轉換為可以輸入到網(wǎng)絡的矩陣。預處理后,可以為每個目標CpG位點生成400×4大小的矩陣,其中每一行代表一個堿基(A,T,C,G),而各列則組裝了整個原始片段。MRCNN模塊的第一層是單個卷積層,卷積內核的大小是1×4,主要用于從400×4輸入矩陣中提取單個含氮堿基的信息。第一層之后有一個重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴展到整個連接層。連接層引入了dropout功能,防止在訓練中過度擬合,然后通過輸出層預測甲基化水平。選擇了均方誤差函數(shù)作為訓練過程中的損失函數(shù),通過最小化均方誤差來訓練各層濾波器權重。通過多層卷積學習,MRCNN可在單堿基分辨率下實現(xiàn)CpG位點的甲基化預測,并且由于具有連續(xù)的損失函數(shù),該方法能夠實現(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預測準確率,這也證實了只使用DNA序列進行甲基化預測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號GSM983646)、食道組織?
電子科技大學碩士學位論文32增加到130時,模型的分類準確率明顯上升,在130到150之間,分類準確率隨隱藏層節(jié)點數(shù)目變化較小,當隱藏層節(jié)點數(shù)增加到150以上時,分類準確率開始下降。即序列長度400-600bp,隱藏層節(jié)點數(shù)130-150的區(qū)間內,模型可以獲得較高的準確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點數(shù)最終設置為130,之后的研究基于400bp長度的DNA序列。3.3實驗結果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對模型進行訓練,并統(tǒng)計了RNN模型和MRCNN模型所有測試位點的預測值和真實值之間的絕對誤差,并通過統(tǒng)計結果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍色實線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側,而MRCNN誤差分布概率密度曲線峰值在0右側,這表示RNN模型在回歸預測時更容易出現(xiàn)預測值小于實際值的情況,而MRCNN模型預測值和真實值之間的絕對誤差為正的情況較多。對于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對DNA序列進行特征提取時,會對特征矩陣進行重塑,不利于時序特征的提取,但不會對類似于CG含量這樣的非時序特征造成影響。而RNN模型,其內部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻】:
期刊論文
[1]表觀遺傳學的作用機制及其與經(jīng)典遺傳學的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進展[J]. 沈赟,鐘遠,苗雅. 老年醫(yī)學與保健. 2018(04)
[3]DNA甲基化檢測方法研究進展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農業(yè)生物技術學報. 2017(01)
博士論文
[1]多任務學習算法研究[D]. 浦劍.復旦大學 2013
[2]基于特征融合與仿生模式的生物特征識別研究[D]. 徐穎.華南理工大學 2013
碩士論文
[1]組稀疏多任務學習方法及其應用研究[D]. 孫怡.南京郵電大學 2019
[2]基于雙通道時空特征深度學習的新生兒疼痛表情識別[D]. 耿惠惠.南京郵電大學 2019
[3]基于阿貝爾復雜度方法的全基因組DNA甲基化的預測[D]. 劉云霞.華中農業(yè)大學 2018
[4]DNA甲基化狀態(tài)在線預測平臺的設計與實現(xiàn)[D]. 李承哲.電子科技大學 2016
本文編號:3328777
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
DeepCpG模型結構
電子科技大學碩士學位論文16圖2-3MRCNN模型結構相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個以目標CpG位點為中心上下游各200bp長度的DNA序列。在進行MRCNN訓練之前,需要對這些DNA序列片段進行one-hot編碼,以將原始序列中的堿基A,T,C和G轉換為可以輸入到網(wǎng)絡的矩陣。預處理后,可以為每個目標CpG位點生成400×4大小的矩陣,其中每一行代表一個堿基(A,T,C,G),而各列則組裝了整個原始片段。MRCNN模塊的第一層是單個卷積層,卷積內核的大小是1×4,主要用于從400×4輸入矩陣中提取單個含氮堿基的信息。第一層之后有一個重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴展到整個連接層。連接層引入了dropout功能,防止在訓練中過度擬合,然后通過輸出層預測甲基化水平。選擇了均方誤差函數(shù)作為訓練過程中的損失函數(shù),通過最小化均方誤差來訓練各層濾波器權重。通過多層卷積學習,MRCNN可在單堿基分辨率下實現(xiàn)CpG位點的甲基化預測,并且由于具有連續(xù)的損失函數(shù),該方法能夠實現(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預測準確率,這也證實了只使用DNA序列進行甲基化預測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號GSM983646)、食道組織?
電子科技大學碩士學位論文32增加到130時,模型的分類準確率明顯上升,在130到150之間,分類準確率隨隱藏層節(jié)點數(shù)目變化較小,當隱藏層節(jié)點數(shù)增加到150以上時,分類準確率開始下降。即序列長度400-600bp,隱藏層節(jié)點數(shù)130-150的區(qū)間內,模型可以獲得較高的準確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點數(shù)最終設置為130,之后的研究基于400bp長度的DNA序列。3.3實驗結果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對模型進行訓練,并統(tǒng)計了RNN模型和MRCNN模型所有測試位點的預測值和真實值之間的絕對誤差,并通過統(tǒng)計結果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍色實線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側,而MRCNN誤差分布概率密度曲線峰值在0右側,這表示RNN模型在回歸預測時更容易出現(xiàn)預測值小于實際值的情況,而MRCNN模型預測值和真實值之間的絕對誤差為正的情況較多。對于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對DNA序列進行特征提取時,會對特征矩陣進行重塑,不利于時序特征的提取,但不會對類似于CG含量這樣的非時序特征造成影響。而RNN模型,其內部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻】:
期刊論文
[1]表觀遺傳學的作用機制及其與經(jīng)典遺傳學的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進展[J]. 沈赟,鐘遠,苗雅. 老年醫(yī)學與保健. 2018(04)
[3]DNA甲基化檢測方法研究進展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農業(yè)生物技術學報. 2017(01)
博士論文
[1]多任務學習算法研究[D]. 浦劍.復旦大學 2013
[2]基于特征融合與仿生模式的生物特征識別研究[D]. 徐穎.華南理工大學 2013
碩士論文
[1]組稀疏多任務學習方法及其應用研究[D]. 孫怡.南京郵電大學 2019
[2]基于雙通道時空特征深度學習的新生兒疼痛表情識別[D]. 耿惠惠.南京郵電大學 2019
[3]基于阿貝爾復雜度方法的全基因組DNA甲基化的預測[D]. 劉云霞.華中農業(yè)大學 2018
[4]DNA甲基化狀態(tài)在線預測平臺的設計與實現(xiàn)[D]. 李承哲.電子科技大學 2016
本文編號:3328777
本文鏈接:http://sikaile.net/projectlw/swxlw/3328777.html
最近更新
教材專著