基于約束線性編碼的lncRNA與疾病關(guān)聯(lián)預(yù)測
發(fā)布時間:2021-06-13 02:41
長非編碼RNA(lncRNA)在很長的一段時間內(nèi)都被科學(xué)家認(rèn)為是細(xì)胞遺傳過程中的翻譯雜質(zhì),然而,近年來的研究表明它在許多疾病的發(fā)生過程中都起到了重要作用。研究人員希望通過分析lncRNA與疾病的關(guān)系來揭示疾病的發(fā)生和發(fā)展,并制定相關(guān)的有效治療方法。傳統(tǒng)生物學(xué)實驗方法驗證lncRNA與疾病之間關(guān)系非常耗時且昂貴。因此需要有效的方法尋找出潛在的lncRNA與疾病的關(guān)系,以便更明確的進(jìn)行相關(guān)的生物實驗。事實上,為了改善這個情況,許多的生物信息學(xué)家創(chuàng)建了預(yù)測lncRNA與疾病的關(guān)聯(lián)關(guān)系模型。這些模型可以有效的預(yù)測出與疾病潛在的最相關(guān)的某幾種lncRNA,便于生物實驗學(xué)家更專注的研究這幾種lncRNA與疾病的關(guān)聯(lián)。這些模型的預(yù)測能力已經(jīng)取得不錯的效果,但是隨著對lncRNA和疾病的深入研究,越來越多的相關(guān)信息數(shù)據(jù)能加入到預(yù)測模型的創(chuàng)建中,以此提高模型的精準(zhǔn)度。在本文應(yīng)用局部約束線性編碼(LLC)和標(biāo)簽傳播(LP)方法創(chuàng)建了一種叫LLCLPLDA的lncRNA與疾病預(yù)測模型。本文主要的研究內(nèi)容包含以下幾點:(1)從相關(guān)數(shù)據(jù)庫中下載并構(gòu)建模型所需要的數(shù)據(jù),包括已知的lncRNA與疾病的關(guān)聯(lián)關(guān)系,ln...
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
生物遺傳中心法則Figure11BiologicalGeneticCenterRules
廣東工業(yè)大學(xué)碩士學(xué)位論文17全部K次實驗才算完成一次K折交叉驗證。然后把這K次實驗分別獲得的結(jié)果進(jìn)行平均算術(shù)計算,最后獲得的結(jié)果就是這一次K折交叉驗證的結(jié)果。但是在將數(shù)據(jù)集進(jìn)行平均時,會存在多種劃分的情況,為了避免特殊性的出現(xiàn),實際上在對模型評估時會進(jìn)行多次K折交叉驗證,然后得到的平均結(jié)果才作為模型的最終結(jié)果。因為K折交叉驗證本身在劃分?jǐn)?shù)據(jù)時可能出現(xiàn)不同的劃分結(jié)果導(dǎo)致最終結(jié)果不同的局限性,所以本會也會使用第二種交叉驗證——留一交叉驗證(Leave-one-outCrossValidation,LOOCV)進(jìn)行模型的評估,實際上它是第一種交叉驗證的特殊形式。即當(dāng)N=K。因為當(dāng)N=K時,不管怎么分,數(shù)據(jù)集最終的結(jié)果都是只有一個數(shù)據(jù)當(dāng)一個測試集對模型進(jìn)行測試,所以它不存在劃分?jǐn)?shù)據(jù)集不同而結(jié)果不同的情況,那么明顯留一交叉驗證獲得的結(jié)果就是最接近真實值的結(jié)果。當(dāng)然,留一交叉驗證也有一定的局限性。因為有多少數(shù)據(jù)就要進(jìn)行多少次實驗,所以當(dāng)數(shù)據(jù)集個數(shù)N比較大時,對模型進(jìn)行一次留一交叉驗證所需要的時間會很長,并且根據(jù)以往的經(jīng)驗留一交叉驗證的結(jié)果跟K=5或K=10的交叉驗證的結(jié)果相差不大,但是時間成本卻相對大了許多。圖21K折交叉驗證Figure21K-foldcross-validation2.4本章小結(jié)本章主要介紹了創(chuàng)建模型所要的相關(guān)背景知識,為下一章介紹模型進(jìn)行知識儲備。在第一小節(jié)介紹了數(shù)據(jù)的收集和預(yù)處理的方法,數(shù)據(jù)集的有效性是確保模型是否又意義的前提,因此對于數(shù)據(jù)的收集和處理是前期工作的重點。第二小節(jié)分別介紹了現(xiàn)在常用的四種計算疾病相似性和四種lncRNA相似性的方法,其中本文中使用的相似性方法將在第三章具體介紹。第三小節(jié)介紹了模型評估的方法,主要是全局留一交叉驗證和五折交叉驗證。
第三章基于局部約束線性編碼方法的lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測18第三章基于局部約束線性編碼方法的lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測伴隨著研究人員對lncRNA的深入研究,人們認(rèn)識到lncRNA在疾病的發(fā)展過程起到至關(guān)重要的作用。因此為了幫助實驗生物學(xué)家加快對lncRNA與疾病的研究,事實上,也有許多的預(yù)測模型被開發(fā)出來,并且也在一定程度上取得到了比較好的效果。本文也通過收集相關(guān)數(shù)據(jù),計算lncRNA和疾病相似性,并基于相似的疾病與類似的lncRNA相關(guān)的假設(shè)創(chuàng)建了LLCLPLDA的新型預(yù)測模型。隨后針對模型的缺點,對模型進(jìn)行了改進(jìn),命名為LLCLPLDA-II。3.1模型創(chuàng)建創(chuàng)建模型之前,需要想明白模型解決的問題和解決的思路。通過前文知道模型的目的是獲得潛在的與疾病最相關(guān)的某些lncRNA。由于是兩個物質(zhì)之間的關(guān)系預(yù)測,因此可以借鑒推薦系統(tǒng)的模式解決。解決的思路大致為利用疾病和lncRNA的相似性對疾病推薦相關(guān)的lncRNA。如圖31所示。右邊表示已知的lncRNA與疾病的關(guān)聯(lián)關(guān)系,相似的疾病和相似的lncRNA,左邊表示通過算法獲得的疾病與lncRNA的潛在關(guān)聯(lián)關(guān)系(紅色虛線)?梢园l(fā)現(xiàn)疾病1與疾病3相似,疾病3又與lncRNA1和4相關(guān),所以通過算法可以預(yù)測出疾病1與lncRNA4存在潛在關(guān)系,同理由于lncRNA1與4相似,而4與疾病5相關(guān),故疾病5跟lncRNA1存在潛在關(guān)系。圖31簡易的模型Figure31Simplemodelstructure
【參考文獻(xiàn)】:
期刊論文
[1]長鏈非編碼RNA的作用機(jī)制及其研究方法[J]. 夏天,肖丙秀,郭俊明. 遺傳. 2013(03)
[2]生物信息學(xué)[J]. 陳潤生. 生物物理學(xué)報. 1999(01)
本文編號:3226823
【文章來源】:廣東工業(yè)大學(xué)廣東省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
生物遺傳中心法則Figure11BiologicalGeneticCenterRules
廣東工業(yè)大學(xué)碩士學(xué)位論文17全部K次實驗才算完成一次K折交叉驗證。然后把這K次實驗分別獲得的結(jié)果進(jìn)行平均算術(shù)計算,最后獲得的結(jié)果就是這一次K折交叉驗證的結(jié)果。但是在將數(shù)據(jù)集進(jìn)行平均時,會存在多種劃分的情況,為了避免特殊性的出現(xiàn),實際上在對模型評估時會進(jìn)行多次K折交叉驗證,然后得到的平均結(jié)果才作為模型的最終結(jié)果。因為K折交叉驗證本身在劃分?jǐn)?shù)據(jù)時可能出現(xiàn)不同的劃分結(jié)果導(dǎo)致最終結(jié)果不同的局限性,所以本會也會使用第二種交叉驗證——留一交叉驗證(Leave-one-outCrossValidation,LOOCV)進(jìn)行模型的評估,實際上它是第一種交叉驗證的特殊形式。即當(dāng)N=K。因為當(dāng)N=K時,不管怎么分,數(shù)據(jù)集最終的結(jié)果都是只有一個數(shù)據(jù)當(dāng)一個測試集對模型進(jìn)行測試,所以它不存在劃分?jǐn)?shù)據(jù)集不同而結(jié)果不同的情況,那么明顯留一交叉驗證獲得的結(jié)果就是最接近真實值的結(jié)果。當(dāng)然,留一交叉驗證也有一定的局限性。因為有多少數(shù)據(jù)就要進(jìn)行多少次實驗,所以當(dāng)數(shù)據(jù)集個數(shù)N比較大時,對模型進(jìn)行一次留一交叉驗證所需要的時間會很長,并且根據(jù)以往的經(jīng)驗留一交叉驗證的結(jié)果跟K=5或K=10的交叉驗證的結(jié)果相差不大,但是時間成本卻相對大了許多。圖21K折交叉驗證Figure21K-foldcross-validation2.4本章小結(jié)本章主要介紹了創(chuàng)建模型所要的相關(guān)背景知識,為下一章介紹模型進(jìn)行知識儲備。在第一小節(jié)介紹了數(shù)據(jù)的收集和預(yù)處理的方法,數(shù)據(jù)集的有效性是確保模型是否又意義的前提,因此對于數(shù)據(jù)的收集和處理是前期工作的重點。第二小節(jié)分別介紹了現(xiàn)在常用的四種計算疾病相似性和四種lncRNA相似性的方法,其中本文中使用的相似性方法將在第三章具體介紹。第三小節(jié)介紹了模型評估的方法,主要是全局留一交叉驗證和五折交叉驗證。
第三章基于局部約束線性編碼方法的lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測18第三章基于局部約束線性編碼方法的lncRNA-疾病關(guān)聯(lián)關(guān)系預(yù)測伴隨著研究人員對lncRNA的深入研究,人們認(rèn)識到lncRNA在疾病的發(fā)展過程起到至關(guān)重要的作用。因此為了幫助實驗生物學(xué)家加快對lncRNA與疾病的研究,事實上,也有許多的預(yù)測模型被開發(fā)出來,并且也在一定程度上取得到了比較好的效果。本文也通過收集相關(guān)數(shù)據(jù),計算lncRNA和疾病相似性,并基于相似的疾病與類似的lncRNA相關(guān)的假設(shè)創(chuàng)建了LLCLPLDA的新型預(yù)測模型。隨后針對模型的缺點,對模型進(jìn)行了改進(jìn),命名為LLCLPLDA-II。3.1模型創(chuàng)建創(chuàng)建模型之前,需要想明白模型解決的問題和解決的思路。通過前文知道模型的目的是獲得潛在的與疾病最相關(guān)的某些lncRNA。由于是兩個物質(zhì)之間的關(guān)系預(yù)測,因此可以借鑒推薦系統(tǒng)的模式解決。解決的思路大致為利用疾病和lncRNA的相似性對疾病推薦相關(guān)的lncRNA。如圖31所示。右邊表示已知的lncRNA與疾病的關(guān)聯(lián)關(guān)系,相似的疾病和相似的lncRNA,左邊表示通過算法獲得的疾病與lncRNA的潛在關(guān)聯(lián)關(guān)系(紅色虛線)?梢园l(fā)現(xiàn)疾病1與疾病3相似,疾病3又與lncRNA1和4相關(guān),所以通過算法可以預(yù)測出疾病1與lncRNA4存在潛在關(guān)系,同理由于lncRNA1與4相似,而4與疾病5相關(guān),故疾病5跟lncRNA1存在潛在關(guān)系。圖31簡易的模型Figure31Simplemodelstructure
【參考文獻(xiàn)】:
期刊論文
[1]長鏈非編碼RNA的作用機(jī)制及其研究方法[J]. 夏天,肖丙秀,郭俊明. 遺傳. 2013(03)
[2]生物信息學(xué)[J]. 陳潤生. 生物物理學(xué)報. 1999(01)
本文編號:3226823
本文鏈接:http://sikaile.net/projectlw/swxlw/3226823.html
最近更新
教材專著