基于基因網(wǎng)絡(luò)的致病基因預(yù)測算法研究
發(fā)布時(shí)間:2017-07-05 02:08
本文關(guān)鍵詞:基于基因網(wǎng)絡(luò)的致病基因預(yù)測算法研究
更多相關(guān)文章: 致病基因預(yù)測 信息散度 相關(guān)系數(shù) 隨機(jī)游走算法 邏輯回歸模型
【摘要】:致病基因的研究是對遺傳疾病的治療具有重要的意義。近年來,高通量測序技術(shù)的高速發(fā)展為致病基因的研究帶來了新的機(jī)遇,并涌向出大量的致病基因研究方法。這些方法基于已有的疾病或表型與基因之間的因果關(guān)系,使用網(wǎng)絡(luò)構(gòu)建方法對致病基因進(jìn)行排序,從而達(dá)到致病基因篩選的目的。它們大多基于一個(gè)前提,即致使相同或相似疾病發(fā)病的基因在基因生物網(wǎng)絡(luò)中鄰近,存在著模塊特性。但現(xiàn)有的方法對生物實(shí)體網(wǎng)絡(luò)的鄰接矩陣的構(gòu)建較為粗糙,即存在關(guān)聯(lián)關(guān)系的為1,否則為0,無法對基因之間的關(guān)聯(lián)關(guān)系進(jìn)行更合理的量化。此外,高通量測序技術(shù)產(chǎn)生了大量生物數(shù)據(jù),使得集成數(shù)據(jù)分析方法成為目前致病基因研究的主要手段,但大多數(shù)方法都是基于生物實(shí)體的局部信息進(jìn)行特征的構(gòu)建,沒有更好的擴(kuò)展利用生物實(shí)體網(wǎng)絡(luò)的拓?fù)涮匦。本課題研究的工作主要包括:第一,從另一種角度引入了研究生物實(shí)體間關(guān)系的方法,通過考察生物數(shù)據(jù)分布規(guī)律,來量化生物實(shí)體間的相對重要程度;诖吮菊n題引入兩種統(tǒng)計(jì)特征量化數(shù)據(jù)間的關(guān)系。一種是計(jì)算基因表達(dá)數(shù)據(jù)的相關(guān)系數(shù),用于分析基因間在功能上或者調(diào)控上對整個(gè)基因網(wǎng)絡(luò)的重要程度;另一種是計(jì)算基因表達(dá)數(shù)據(jù)的信息散度,將基因的表達(dá)值作為基因表達(dá)的概率來量化基因間的表達(dá)分布,以此得到基因間的相互重要關(guān)系;與蛋白質(zhì)交互網(wǎng)絡(luò)數(shù)據(jù)的比對實(shí)驗(yàn)表明這兩種統(tǒng)計(jì)特征的AUC、Top1和Top50在致病基因預(yù)測問題上優(yōu)于后者,驗(yàn)證了所引入的兩種統(tǒng)計(jì)特征對致病相關(guān)基因篩選的有效性。第二,提出一種隨機(jī)游走算法的二元邏輯回歸模型用于致病相關(guān)基因的預(yù)測。利用隨機(jī)游走模型,對每一個(gè)基因進(jìn)行關(guān)聯(lián)基因的篩選,從得到與這個(gè)基因關(guān)聯(lián)性強(qiáng)的基因中,分別從個(gè)數(shù)和權(quán)重這兩個(gè)方面統(tǒng)計(jì)這些基因的全局信息,并用來構(gòu)建基因的特征向量,得到了特征F1、特征F2和特征F3。第三,在特征F1下,三個(gè)不同的生物數(shù)據(jù)網(wǎng)絡(luò):蛋白質(zhì)交互網(wǎng)絡(luò)、基因共表達(dá)網(wǎng)絡(luò)和基因通路網(wǎng)絡(luò)中本章方法得到的AUC明顯優(yōu)于B Chen等人提出的特征“PCF1”、MRF算法和RWR算法得到的結(jié)果。在F2特征下,三個(gè)不同的生物數(shù)據(jù)網(wǎng)絡(luò)中,本課題提出的算法的AUC結(jié)果高于B Chen等人提出的特征“PCF2”得到的結(jié)果。在特征F3下集成三種網(wǎng)絡(luò),本章提出的方法的AUC結(jié)果顯著優(yōu)于MRF算法、RWR算法、DIR算法和B Chen等人提出的特征“PCF3”的結(jié)果。此外還從時(shí)間效率上對這幾種不同算法進(jìn)行了比對,驗(yàn)證了本章算法更具有競爭力。
【關(guān)鍵詞】:致病基因預(yù)測 信息散度 相關(guān)系數(shù) 隨機(jī)游走算法 邏輯回歸模型
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:R440
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-16
- 1.1 課題研究的背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.3 主要研究內(nèi)容和論文組織結(jié)構(gòu)13-16
- 1.3.1 主要研究內(nèi)容13-14
- 1.3.2 本文組織結(jié)構(gòu)14-16
- 第2章 基于基因表達(dá)數(shù)據(jù)的致病基因排序16-29
- 2.1 引言16-17
- 2.2 基于基因表達(dá)數(shù)據(jù)的統(tǒng)計(jì)特征17-19
- 2.2.1 構(gòu)建相關(guān)系數(shù)特征向量17
- 2.2.2 構(gòu)建信息散度特征向量17-18
- 2.2.3 評價(jià)指標(biāo)18-19
- 2.3 基于統(tǒng)計(jì)特征的致病基因排序算法19-20
- 2.4 實(shí)驗(yàn)驗(yàn)證及分析20-28
- 2.4.1 開發(fā)環(huán)境20-21
- 2.4.2 實(shí)驗(yàn)數(shù)據(jù)21-22
- 2.4.3 統(tǒng)計(jì)特征的有效性驗(yàn)證及分析22-28
- 2.5 本章小結(jié)28-29
- 第3章 基于邏輯回歸的致病基因預(yù)測算法29-38
- 3.1 引言29
- 3.2 二元邏輯回歸模型概述29-30
- 3.3 基于邏輯回歸的致病基因預(yù)測算法30-33
- 3.3.1 基于二元邏輯回歸預(yù)測模型30-32
- 3.3.2 基于兩步二元邏輯回歸預(yù)測模型32-33
- 3.4 隨機(jī)游走的二元邏輯回歸預(yù)測模型33-36
- 3.4.1 基本原理33-35
- 3.4.2 算法步驟35-36
- 3.5 本章小結(jié)36-38
- 第4章 實(shí)驗(yàn)仿真及結(jié)果分析38-51
- 4.1 實(shí)驗(yàn)環(huán)境38
- 4.2 實(shí)驗(yàn)數(shù)據(jù)38-39
- 4.3 實(shí)驗(yàn)結(jié)果及分析39-50
- 4.3.1 留一交叉驗(yàn)證39
- 4.3.2 算法性能分析39-48
- 4.3.3 算法效率分析48-50
- 4.4 本章小結(jié)50-51
- 結(jié)論51-53
- 參考文獻(xiàn)53-60
- 攻讀碩士期間發(fā)表的論文及其它成果60-62
- 致謝62
本文編號:520129
本文鏈接:http://sikaile.net/linchuangyixuelunwen/520129.html
最近更新
教材專著