基于模塊歸一化及自適應(yīng)跳轉(zhuǎn)隨機(jī)游走的疾病基因預(yù)測(cè)
發(fā)布時(shí)間:2017-11-19 01:14
本文關(guān)鍵詞:基于模塊歸一化及自適應(yīng)跳轉(zhuǎn)隨機(jī)游走的疾病基因預(yù)測(cè)
更多相關(guān)文章: 生物相互作用網(wǎng)絡(luò) 疾病基因 異構(gòu)網(wǎng)絡(luò) 自適應(yīng)跳轉(zhuǎn) 隨機(jī)游走
【摘要】:隨著生物學(xué)技術(shù)的迅猛發(fā)展,生物數(shù)據(jù)正在以幾何數(shù)量級(jí)的速度增長(zhǎng)。利用已知的生物網(wǎng)絡(luò)和多源生物數(shù)據(jù)找到致病基因,對(duì)于了解疾病的發(fā)病機(jī)制、研發(fā)新型藥物、制定精準(zhǔn)醫(yī)療方案等都起到重要的促進(jìn)作用。本文基于生物相互作用網(wǎng)絡(luò)通過模塊歸一化及自適應(yīng)跳轉(zhuǎn)隨機(jī)游走方法對(duì)致病基因進(jìn)行預(yù)測(cè),主要的研究工作和貢獻(xiàn)如下:第一,當(dāng)前大部分基于模塊的疾病基因預(yù)測(cè)方法都是根據(jù)已知的模塊或guilt-by-association假設(shè)進(jìn)行預(yù)測(cè),但這些方法往往忽略了致病基因在具體網(wǎng)絡(luò)中的拓?fù)涮匦?并且沒有考慮對(duì)網(wǎng)絡(luò)中孤立節(jié)點(diǎn)的處理。針對(duì)以上問題,本文提出了一種基于模塊歸一化和表型本體的疾病基因預(yù)測(cè)方法(NMP)。首先,本文根據(jù)最新的疾病、基因表型本體數(shù)據(jù)對(duì)疾病和基因之間的相似度進(jìn)行定義。然后,基于致病基因的模塊聚集特性,本文將候選基因所處模塊進(jìn)行表型歸一化處理作為候選基因的權(quán)重。最后,通過留一交叉驗(yàn)證和文獻(xiàn)查找對(duì)NMP方法的有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,NMP方法優(yōu)于傳統(tǒng)的NetRank、NetScore、NetZcore、Flow、RWR和最新的NDRC方法。第二,當(dāng)前尚不存在完整的蛋白質(zhì)相互作用網(wǎng)絡(luò)并且存在許多假陰性和假陽性數(shù)據(jù),僅通過單個(gè)網(wǎng)絡(luò)已很難提高預(yù)測(cè)致病基因的精度。研究表明,功能相關(guān)的多個(gè)基因發(fā)生突變往往會(huì)產(chǎn)生相似的表現(xiàn)型,因此將表型和蛋白質(zhì)數(shù)據(jù)進(jìn)行融合能夠彌補(bǔ)已有數(shù)據(jù)的不足,提高預(yù)測(cè)的準(zhǔn)確度。已有的基于異構(gòu)網(wǎng)絡(luò)的隨機(jī)游走算法雖然取得了不錯(cuò)的預(yù)測(cè)效果,但是需要對(duì)跳轉(zhuǎn)概率進(jìn)行多次調(diào)整,不具有普適性。本文提出一種基于異構(gòu)網(wǎng)絡(luò)拉普拉斯正則化的自適應(yīng)跳轉(zhuǎn)隨機(jī)游走方法(LSAR),對(duì)1428個(gè)已知的疾病基因相互關(guān)系進(jìn)行留一和留二交叉驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,LSAR方法不但減少了參數(shù)設(shè)置,并且預(yù)測(cè)效果優(yōu)于傳統(tǒng)的RWRH、CIPHER-SP、 CIPHER-DN方法和最新的RWRH-RE、RWRHN、LapRWRH方法。并且根據(jù)預(yù)測(cè)結(jié)果,我們對(duì)乳腺癌、糖尿病、肺癌、肥胖癥四種疾病的致病基因做出預(yù)測(cè)。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:R440
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前2條
1 沈巖;致病基因的定位候選克隆[J];生命科學(xué);1999年05期
2 方福德;醫(yī)學(xué)分子生物學(xué)的發(fā)展歷程和展望[J];醫(yī)學(xué)與哲學(xué);1999年01期
,本文編號(hào):1201804
本文鏈接:http://sikaile.net/linchuangyixuelunwen/1201804.html
最近更新
教材專著