基于機(jī)器學(xué)習(xí)的非編碼RNA與疾病關(guān)系預(yù)測
發(fā)布時間:2020-12-20 06:37
MicroRNA(miRNA)和long non-coding RNA(lncRNA)是兩種擁有不同轉(zhuǎn)錄本長度的非編碼RNA。研究發(fā)現(xiàn),miRNAs和lncRNAs都在人類許多生物學(xué)過程中扮演著重要角色,它們的失調(diào)可能導(dǎo)致諸如癌癥等多種疾病,探究miRNAs、lncRNAs與疾病的潛在關(guān)聯(lián)有助于了解疾病的發(fā)病機(jī)制,并及時做出診斷、治療以及預(yù)后等措施。然而,傳統(tǒng)的生物學(xué)實(shí)驗(yàn)成本高、耗時長,因此,開發(fā)有效的計(jì)算模型具有重要意義。機(jī)器學(xué)習(xí)方法在解決預(yù)測問題中有很多的應(yīng)用。本文主要研究基于矩陣完成的計(jì)算模型預(yù)測miRNAs與疾病潛在關(guān)聯(lián)以及基于網(wǎng)絡(luò)算法的模型預(yù)測lncRNAs與疾病潛在關(guān)聯(lián)。對于miRNAs與疾病關(guān)聯(lián)的預(yù)測,借助lncRNAs與疾病的關(guān)聯(lián)數(shù)據(jù)作為輔助信息,應(yīng)用基于矩陣完成的方法進(jìn)行預(yù)測。將從數(shù)據(jù)庫下載的已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)以及l(fā)ncRNA-疾病關(guān)聯(lián)數(shù)據(jù)進(jìn)行整合,然后構(gòu)建映射網(wǎng)絡(luò),根據(jù)映射網(wǎng)絡(luò)的不變性的性質(zhì)構(gòu)建負(fù)樣本,最后以相似度作為邊信息,將miRNA-疾病關(guān)系的預(yù)測轉(zhuǎn)化為低秩矩陣完成問題,采用交替梯度下降法求解模型。5-fold交叉驗(yàn)證(5-fold CV)結(jié)果顯示...
【文章來源】:海南師范大學(xué)海南省
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于矩陣完成的預(yù)測miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學(xué)碩士學(xué)位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來源于lncRNADisease數(shù)據(jù)庫[42]。通過對下載的數(shù)據(jù)進(jìn)行整理和標(biāo)準(zhǔn)化,獲得了352對經(jīng)過實(shí)驗(yàn)驗(yàn)證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個關(guān)聯(lián)網(wǎng)絡(luò)。如圖2-2所示,設(shè)NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當(dāng)與與疾病有關(guān)聯(lián),否則(2-1)將列中重復(fù)的疾病項(xiàng)合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡(luò)融合過程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預(yù)測15數(shù)據(jù)集,將其中1組用作預(yù)測的測試集合,并將其他K-1組用作訓(xùn)練數(shù)據(jù)以建立預(yù)測模型。重復(fù)此過程K次,并在所有樣本都被預(yù)測一次后結(jié)束。2.6.2預(yù)測結(jié)果分析本章節(jié)使用5-fold交叉驗(yàn)證對矩陣完成算法進(jìn)行評估,即K=5,根據(jù)不同的閾值,通過計(jì)算真陽性率(TPR,靈敏度)和假陽性率(FPR,1-特異性)繪制了ROC曲線進(jìn)行性能評估。為了評估矩陣完成算法對于預(yù)測miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對數(shù)據(jù)以及算法使用Matlab語言實(shí)現(xiàn)。秩r3,結(jié)果顯示,當(dāng)10.1,21,30.5時,AUC的值最大,此時AUC=0.8884。為了更好地評價基于矩陣完成的模型對于預(yù)測miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來研究miRNAs與疾病關(guān)聯(lián)的其他算法進(jìn)行對比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過整合miRNAs功能相似網(wǎng)絡(luò)、疾病語義相似網(wǎng)絡(luò)、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來計(jì)算每個miRNA-疾病節(jié)點(diǎn)對的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗(yàn)證方法對上述兩種預(yù)測算法進(jìn)行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對比圖ROC曲線圖顯示,矩陣完成算法在預(yù)測miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號:2927392
【文章來源】:海南師范大學(xué)海南省
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
基于矩陣完成的預(yù)測miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學(xué)碩士學(xué)位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來源于lncRNADisease數(shù)據(jù)庫[42]。通過對下載的數(shù)據(jù)進(jìn)行整理和標(biāo)準(zhǔn)化,獲得了352對經(jīng)過實(shí)驗(yàn)驗(yàn)證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個關(guān)聯(lián)網(wǎng)絡(luò)。如圖2-2所示,設(shè)NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當(dāng)與與疾病有關(guān)聯(lián),否則(2-1)將列中重復(fù)的疾病項(xiàng)合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡(luò)融合過程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預(yù)測15數(shù)據(jù)集,將其中1組用作預(yù)測的測試集合,并將其他K-1組用作訓(xùn)練數(shù)據(jù)以建立預(yù)測模型。重復(fù)此過程K次,并在所有樣本都被預(yù)測一次后結(jié)束。2.6.2預(yù)測結(jié)果分析本章節(jié)使用5-fold交叉驗(yàn)證對矩陣完成算法進(jìn)行評估,即K=5,根據(jù)不同的閾值,通過計(jì)算真陽性率(TPR,靈敏度)和假陽性率(FPR,1-特異性)繪制了ROC曲線進(jìn)行性能評估。為了評估矩陣完成算法對于預(yù)測miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對數(shù)據(jù)以及算法使用Matlab語言實(shí)現(xiàn)。秩r3,結(jié)果顯示,當(dāng)10.1,21,30.5時,AUC的值最大,此時AUC=0.8884。為了更好地評價基于矩陣完成的模型對于預(yù)測miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來研究miRNAs與疾病關(guān)聯(lián)的其他算法進(jìn)行對比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過整合miRNAs功能相似網(wǎng)絡(luò)、疾病語義相似網(wǎng)絡(luò)、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來計(jì)算每個miRNA-疾病節(jié)點(diǎn)對的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗(yàn)證方法對上述兩種預(yù)測算法進(jìn)行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對比圖ROC曲線圖顯示,矩陣完成算法在預(yù)測miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號:2927392
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2927392.html
最近更新
教材專著