基于機(jī)器學(xué)習(xí)的非編碼RNA與疾病關(guān)系預(yù)測(cè)
發(fā)布時(shí)間:2020-12-20 06:37
MicroRNA(miRNA)和long non-coding RNA(lncRNA)是兩種擁有不同轉(zhuǎn)錄本長(zhǎng)度的非編碼RNA。研究發(fā)現(xiàn),miRNAs和lncRNAs都在人類許多生物學(xué)過(guò)程中扮演著重要角色,它們的失調(diào)可能導(dǎo)致諸如癌癥等多種疾病,探究miRNAs、lncRNAs與疾病的潛在關(guān)聯(lián)有助于了解疾病的發(fā)病機(jī)制,并及時(shí)做出診斷、治療以及預(yù)后等措施。然而,傳統(tǒng)的生物學(xué)實(shí)驗(yàn)成本高、耗時(shí)長(zhǎng),因此,開(kāi)發(fā)有效的計(jì)算模型具有重要意義。機(jī)器學(xué)習(xí)方法在解決預(yù)測(cè)問(wèn)題中有很多的應(yīng)用。本文主要研究基于矩陣完成的計(jì)算模型預(yù)測(cè)miRNAs與疾病潛在關(guān)聯(lián)以及基于網(wǎng)絡(luò)算法的模型預(yù)測(cè)lncRNAs與疾病潛在關(guān)聯(lián)。對(duì)于miRNAs與疾病關(guān)聯(lián)的預(yù)測(cè),借助lncRNAs與疾病的關(guān)聯(lián)數(shù)據(jù)作為輔助信息,應(yīng)用基于矩陣完成的方法進(jìn)行預(yù)測(cè)。將從數(shù)據(jù)庫(kù)下載的已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)以及l(fā)ncRNA-疾病關(guān)聯(lián)數(shù)據(jù)進(jìn)行整合,然后構(gòu)建映射網(wǎng)絡(luò),根據(jù)映射網(wǎng)絡(luò)的不變性的性質(zhì)構(gòu)建負(fù)樣本,最后以相似度作為邊信息,將miRNA-疾病關(guān)系的預(yù)測(cè)轉(zhuǎn)化為低秩矩陣完成問(wèn)題,采用交替梯度下降法求解模型。5-fold交叉驗(yàn)證(5-fold CV)結(jié)果顯示...
【文章來(lái)源】:海南師范大學(xué)海南省
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于矩陣完成的預(yù)測(cè)miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學(xué)碩士學(xué)位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來(lái)源于lncRNADisease數(shù)據(jù)庫(kù)[42]。通過(guò)對(duì)下載的數(shù)據(jù)進(jìn)行整理和標(biāo)準(zhǔn)化,獲得了352對(duì)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過(guò)合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個(gè)關(guān)聯(lián)網(wǎng)絡(luò)。如圖2-2所示,設(shè)NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當(dāng)與與疾病有關(guān)聯(lián),否則(2-1)將列中重復(fù)的疾病項(xiàng)合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡(luò)融合過(guò)程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預(yù)測(cè)15數(shù)據(jù)集,將其中1組用作預(yù)測(cè)的測(cè)試集合,并將其他K-1組用作訓(xùn)練數(shù)據(jù)以建立預(yù)測(cè)模型。重復(fù)此過(guò)程K次,并在所有樣本都被預(yù)測(cè)一次后結(jié)束。2.6.2預(yù)測(cè)結(jié)果分析本章節(jié)使用5-fold交叉驗(yàn)證對(duì)矩陣完成算法進(jìn)行評(píng)估,即K=5,根據(jù)不同的閾值,通過(guò)計(jì)算真陽(yáng)性率(TPR,靈敏度)和假陽(yáng)性率(FPR,1-特異性)繪制了ROC曲線進(jìn)行性能評(píng)估。為了評(píng)估矩陣完成算法對(duì)于預(yù)測(cè)miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對(duì)數(shù)據(jù)以及算法使用Matlab語(yǔ)言實(shí)現(xiàn)。秩r3,結(jié)果顯示,當(dāng)10.1,21,30.5時(shí),AUC的值最大,此時(shí)AUC=0.8884。為了更好地評(píng)價(jià)基于矩陣完成的模型對(duì)于預(yù)測(cè)miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來(lái)研究miRNAs與疾病關(guān)聯(lián)的其他算法進(jìn)行對(duì)比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過(guò)整合miRNAs功能相似網(wǎng)絡(luò)、疾病語(yǔ)義相似網(wǎng)絡(luò)、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來(lái)計(jì)算每個(gè)miRNA-疾病節(jié)點(diǎn)對(duì)的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗(yàn)證方法對(duì)上述兩種預(yù)測(cè)算法進(jìn)行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對(duì)比圖ROC曲線圖顯示,矩陣完成算法在預(yù)測(cè)miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號(hào):2927392
【文章來(lái)源】:海南師范大學(xué)海南省
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于矩陣完成的預(yù)測(cè)miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學(xué)碩士學(xué)位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來(lái)源于lncRNADisease數(shù)據(jù)庫(kù)[42]。通過(guò)對(duì)下載的數(shù)據(jù)進(jìn)行整理和標(biāo)準(zhǔn)化,獲得了352對(duì)經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過(guò)合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個(gè)關(guān)聯(lián)網(wǎng)絡(luò)。如圖2-2所示,設(shè)NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當(dāng)與與疾病有關(guān)聯(lián),否則(2-1)將列中重復(fù)的疾病項(xiàng)合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡(luò)融合過(guò)程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預(yù)測(cè)15數(shù)據(jù)集,將其中1組用作預(yù)測(cè)的測(cè)試集合,并將其他K-1組用作訓(xùn)練數(shù)據(jù)以建立預(yù)測(cè)模型。重復(fù)此過(guò)程K次,并在所有樣本都被預(yù)測(cè)一次后結(jié)束。2.6.2預(yù)測(cè)結(jié)果分析本章節(jié)使用5-fold交叉驗(yàn)證對(duì)矩陣完成算法進(jìn)行評(píng)估,即K=5,根據(jù)不同的閾值,通過(guò)計(jì)算真陽(yáng)性率(TPR,靈敏度)和假陽(yáng)性率(FPR,1-特異性)繪制了ROC曲線進(jìn)行性能評(píng)估。為了評(píng)估矩陣完成算法對(duì)于預(yù)測(cè)miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對(duì)數(shù)據(jù)以及算法使用Matlab語(yǔ)言實(shí)現(xiàn)。秩r3,結(jié)果顯示,當(dāng)10.1,21,30.5時(shí),AUC的值最大,此時(shí)AUC=0.8884。為了更好地評(píng)價(jià)基于矩陣完成的模型對(duì)于預(yù)測(cè)miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來(lái)研究miRNAs與疾病關(guān)聯(lián)的其他算法進(jìn)行對(duì)比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過(guò)整合miRNAs功能相似網(wǎng)絡(luò)、疾病語(yǔ)義相似網(wǎng)絡(luò)、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來(lái)計(jì)算每個(gè)miRNA-疾病節(jié)點(diǎn)對(duì)的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗(yàn)證方法對(duì)上述兩種預(yù)測(cè)算法進(jìn)行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對(duì)比圖ROC曲線圖顯示,矩陣完成算法在預(yù)測(cè)miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號(hào):2927392
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2927392.html
最近更新
教材專著