基于RNN及其融合方法的DNA甲基化預(yù)測模型研究
發(fā)布時間:2021-08-07 23:52
DNA甲基化是表觀遺傳機制的一種,涉及多種重要的生命活動。研究DNA甲基化在基因表達調(diào)控、疾病防治、腫瘤識別等方面具有重要意義。利用實驗手段檢測DNA甲基化的方法可以獲得較高的準確性,但由于成本高,并不能大規(guī)模的應(yīng)用。因此,利用機器學(xué)習(xí)模型預(yù)測DNA甲基化成為實驗手段的重要補充。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始使用深度學(xué)習(xí)框架進行DNA甲基化的研究,與傳統(tǒng)的機器學(xué)習(xí)方法相比,深度學(xué)習(xí)可以更充分地利用現(xiàn)有的甲基化數(shù)據(jù)庫,可以從大量的數(shù)據(jù)中自動學(xué)習(xí)到潛在的甲基化特征。目前,DeepCpG、MRCNN等基于深度學(xué)習(xí)的DNA甲基化預(yù)測模型取得了良好的效果,但還存在著難以提取DNA序列時序特征、部分區(qū)域性能較差的不足。針對以上問題,本文構(gòu)建了三種通過局部DNA序列預(yù)測DNA甲基化的深度學(xué)習(xí)模型。相比于現(xiàn)有模型,提升了DNA甲基化的預(yù)測性能。具體工作如下:(1)針對于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)每層內(nèi)部神經(jīng)元相互獨立,難以有效利用DNA序列時序信息的問題,文本基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
DeepCpG模型結(jié)構(gòu)
電子科技大學(xué)碩士學(xué)位論文16圖2-3MRCNN模型結(jié)構(gòu)相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個以目標CpG位點為中心上下游各200bp長度的DNA序列。在進行MRCNN訓(xùn)練之前,需要對這些DNA序列片段進行one-hot編碼,以將原始序列中的堿基A,T,C和G轉(zhuǎn)換為可以輸入到網(wǎng)絡(luò)的矩陣。預(yù)處理后,可以為每個目標CpG位點生成400×4大小的矩陣,其中每一行代表一個堿基(A,T,C,G),而各列則組裝了整個原始片段。MRCNN模塊的第一層是單個卷積層,卷積內(nèi)核的大小是1×4,主要用于從400×4輸入矩陣中提取單個含氮堿基的信息。第一層之后有一個重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴展到整個連接層。連接層引入了dropout功能,防止在訓(xùn)練中過度擬合,然后通過輸出層預(yù)測甲基化水平。選擇了均方誤差函數(shù)作為訓(xùn)練過程中的損失函數(shù),通過最小化均方誤差來訓(xùn)練各層濾波器權(quán)重。通過多層卷積學(xué)習(xí),MRCNN可在單堿基分辨率下實現(xiàn)CpG位點的甲基化預(yù)測,并且由于具有連續(xù)的損失函數(shù),該方法能夠?qū)崿F(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預(yù)測準確率,這也證實了只使用DNA序列進行甲基化預(yù)測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓(xùn)練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號GSM983646)、食道組織?
電子科技大學(xué)碩士學(xué)位論文32增加到130時,模型的分類準確率明顯上升,在130到150之間,分類準確率隨隱藏層節(jié)點數(shù)目變化較小,當隱藏層節(jié)點數(shù)增加到150以上時,分類準確率開始下降。即序列長度400-600bp,隱藏層節(jié)點數(shù)130-150的區(qū)間內(nèi),模型可以獲得較高的準確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點數(shù)最終設(shè)置為130,之后的研究基于400bp長度的DNA序列。3.3實驗結(jié)果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對模型進行訓(xùn)練,并統(tǒng)計了RNN模型和MRCNN模型所有測試位點的預(yù)測值和真實值之間的絕對誤差,并通過統(tǒng)計結(jié)果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍色實線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側(cè),而MRCNN誤差分布概率密度曲線峰值在0右側(cè),這表示RNN模型在回歸預(yù)測時更容易出現(xiàn)預(yù)測值小于實際值的情況,而MRCNN模型預(yù)測值和真實值之間的絕對誤差為正的情況較多。對于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對DNA序列進行特征提取時,會對特征矩陣進行重塑,不利于時序特征的提取,但不會對類似于CG含量這樣的非時序特征造成影響。而RNN模型,其內(nèi)部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻】:
期刊論文
[1]表觀遺傳學(xué)的作用機制及其與經(jīng)典遺傳學(xué)的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進展[J]. 沈赟,鐘遠,苗雅. 老年醫(yī)學(xué)與保健. 2018(04)
[3]DNA甲基化檢測方法研究進展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農(nóng)業(yè)生物技術(shù)學(xué)報. 2017(01)
博士論文
[1]多任務(wù)學(xué)習(xí)算法研究[D]. 浦劍.復(fù)旦大學(xué) 2013
[2]基于特征融合與仿生模式的生物特征識別研究[D]. 徐穎.華南理工大學(xué) 2013
碩士論文
[1]組稀疏多任務(wù)學(xué)習(xí)方法及其應(yīng)用研究[D]. 孫怡.南京郵電大學(xué) 2019
[2]基于雙通道時空特征深度學(xué)習(xí)的新生兒疼痛表情識別[D]. 耿惠惠.南京郵電大學(xué) 2019
[3]基于阿貝爾復(fù)雜度方法的全基因組DNA甲基化的預(yù)測[D]. 劉云霞.華中農(nóng)業(yè)大學(xué) 2018
[4]DNA甲基化狀態(tài)在線預(yù)測平臺的設(shè)計與實現(xiàn)[D]. 李承哲.電子科技大學(xué) 2016
本文編號:3328777
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
DeepCpG模型結(jié)構(gòu)
電子科技大學(xué)碩士學(xué)位論文16圖2-3MRCNN模型結(jié)構(gòu)相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個以目標CpG位點為中心上下游各200bp長度的DNA序列。在進行MRCNN訓(xùn)練之前,需要對這些DNA序列片段進行one-hot編碼,以將原始序列中的堿基A,T,C和G轉(zhuǎn)換為可以輸入到網(wǎng)絡(luò)的矩陣。預(yù)處理后,可以為每個目標CpG位點生成400×4大小的矩陣,其中每一行代表一個堿基(A,T,C,G),而各列則組裝了整個原始片段。MRCNN模塊的第一層是單個卷積層,卷積內(nèi)核的大小是1×4,主要用于從400×4輸入矩陣中提取單個含氮堿基的信息。第一層之后有一個重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴展到整個連接層。連接層引入了dropout功能,防止在訓(xùn)練中過度擬合,然后通過輸出層預(yù)測甲基化水平。選擇了均方誤差函數(shù)作為訓(xùn)練過程中的損失函數(shù),通過最小化均方誤差來訓(xùn)練各層濾波器權(quán)重。通過多層卷積學(xué)習(xí),MRCNN可在單堿基分辨率下實現(xiàn)CpG位點的甲基化預(yù)測,并且由于具有連續(xù)的損失函數(shù),該方法能夠?qū)崿F(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預(yù)測準確率,這也證實了只使用DNA序列進行甲基化預(yù)測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓(xùn)練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號GSM983646)、食道組織?
電子科技大學(xué)碩士學(xué)位論文32增加到130時,模型的分類準確率明顯上升,在130到150之間,分類準確率隨隱藏層節(jié)點數(shù)目變化較小,當隱藏層節(jié)點數(shù)增加到150以上時,分類準確率開始下降。即序列長度400-600bp,隱藏層節(jié)點數(shù)130-150的區(qū)間內(nèi),模型可以獲得較高的準確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點數(shù)最終設(shè)置為130,之后的研究基于400bp長度的DNA序列。3.3實驗結(jié)果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對模型進行訓(xùn)練,并統(tǒng)計了RNN模型和MRCNN模型所有測試位點的預(yù)測值和真實值之間的絕對誤差,并通過統(tǒng)計結(jié)果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍色實線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側(cè),而MRCNN誤差分布概率密度曲線峰值在0右側(cè),這表示RNN模型在回歸預(yù)測時更容易出現(xiàn)預(yù)測值小于實際值的情況,而MRCNN模型預(yù)測值和真實值之間的絕對誤差為正的情況較多。對于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對DNA序列進行特征提取時,會對特征矩陣進行重塑,不利于時序特征的提取,但不會對類似于CG含量這樣的非時序特征造成影響。而RNN模型,其內(nèi)部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻】:
期刊論文
[1]表觀遺傳學(xué)的作用機制及其與經(jīng)典遺傳學(xué)的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進展[J]. 沈赟,鐘遠,苗雅. 老年醫(yī)學(xué)與保健. 2018(04)
[3]DNA甲基化檢測方法研究進展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農(nóng)業(yè)生物技術(shù)學(xué)報. 2017(01)
博士論文
[1]多任務(wù)學(xué)習(xí)算法研究[D]. 浦劍.復(fù)旦大學(xué) 2013
[2]基于特征融合與仿生模式的生物特征識別研究[D]. 徐穎.華南理工大學(xué) 2013
碩士論文
[1]組稀疏多任務(wù)學(xué)習(xí)方法及其應(yīng)用研究[D]. 孫怡.南京郵電大學(xué) 2019
[2]基于雙通道時空特征深度學(xué)習(xí)的新生兒疼痛表情識別[D]. 耿惠惠.南京郵電大學(xué) 2019
[3]基于阿貝爾復(fù)雜度方法的全基因組DNA甲基化的預(yù)測[D]. 劉云霞.華中農(nóng)業(yè)大學(xué) 2018
[4]DNA甲基化狀態(tài)在線預(yù)測平臺的設(shè)計與實現(xiàn)[D]. 李承哲.電子科技大學(xué) 2016
本文編號:3328777
本文鏈接:http://sikaile.net/projectlw/swxlw/3328777.html
最近更新
教材專著