基于基因網(wǎng)絡(luò)模型分析的癌癥驅(qū)動(dòng)基因識(shí)別算法研究
發(fā)布時(shí)間:2021-10-09 00:09
癌癥已經(jīng)成為全球主要的公共衛(wèi)生問(wèn)題,同時(shí)也是主要的死亡原因之一。其中,癌癥驅(qū)動(dòng)基因的挖掘一直是一個(gè)重要的研究方向。同時(shí),基于驅(qū)動(dòng)基因的精準(zhǔn)醫(yī)學(xué)也是治療癌癥的重要手段。隨著基因測(cè)序技術(shù)的進(jìn)步,在過(guò)去數(shù)十年中已經(jīng)報(bào)道了數(shù)以百萬(wàn)計(jì)的體細(xì)胞突變。但從這些數(shù)據(jù)中挖掘具有致癌突變的驅(qū)動(dòng)基因仍然是一個(gè)極具挑戰(zhàn)性的研究課題。為此,已經(jīng)提出了許多高級(jí)算法來(lái)識(shí)別驅(qū)動(dòng)基因,而在海量數(shù)據(jù)中將網(wǎng)絡(luò)結(jié)構(gòu)信息與生物信息相結(jié)合的嘗試鮮有出現(xiàn)。本文基于復(fù)雜網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)方法研究癌癥驅(qū)動(dòng)基因的挖掘,創(chuàng)新性地結(jié)合了多種特征提取和對(duì)比分析的方法,分別從基因網(wǎng)絡(luò)特征、基因?qū)傩蕴卣、網(wǎng)絡(luò)與屬性的整合特征三方面綜合挖掘基因特征,并通過(guò)不同角度的對(duì)比分析論證研究的可行性。最后,基于隨機(jī)森林改進(jìn)優(yōu)化分類,揭示影響癌癥發(fā)生發(fā)展的重要因素,進(jìn)而識(shí)別出真正的潛在癌癥驅(qū)動(dòng)基因,為指導(dǎo)癌癥的臨床研究和驅(qū)動(dòng)基因的挖掘提供指導(dǎo)依據(jù)。主要工作包括:(1)基于復(fù)雜網(wǎng)絡(luò)理論的癌癥基因網(wǎng)絡(luò)分析。構(gòu)建癌癥基因網(wǎng)絡(luò),分析網(wǎng)絡(luò)結(jié)構(gòu)在癌癥發(fā)生發(fā)展過(guò)程中的變化情況和挖掘基因的網(wǎng)絡(luò)特征是本論文最先要研究的問(wèn)題。對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的分析,分別對(duì)比了Normal網(wǎng)絡(luò)與Tumor網(wǎng)...
【文章來(lái)源】:杭州師范大學(xué)浙江省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法的建模流程和部分特征工程
杭州師范大學(xué)碩士學(xué)位論文2研究的理論基礎(chǔ)9圖2-1舉例說(shuō)明帶符號(hào)隨機(jī)漫步重啟算法中r+與r-的定義圖2-1中,本文以節(jié)點(diǎn)u為例,介紹節(jié)點(diǎn)u的計(jì)算方法。從圖2-1可知,節(jié)點(diǎn)i與節(jié)點(diǎn)u的連邊權(quán)值為+1,節(jié)點(diǎn)j與節(jié)點(diǎn)u的連邊權(quán)值為-1,節(jié)點(diǎn)k與節(jié)點(diǎn)u的連邊權(quán)值也為-1,又因?yàn)樗惴ǹ紤]了邊權(quán)的影響,所以當(dāng)值經(jīng)過(guò)權(quán)值為-1的邊時(shí),其值的符號(hào)要取反;反之,經(jīng)過(guò)權(quán)值為+1邊時(shí),其值保持不變。所以,節(jié)點(diǎn)u的ru+(t+1)得分由節(jié)點(diǎn)i的正值、節(jié)點(diǎn)j的負(fù)值,以及節(jié)點(diǎn)k的負(fù)值加權(quán)求和得到;同理,節(jié)點(diǎn)u的ru-(t+1)得分由節(jié)點(diǎn)i的負(fù)值、節(jié)點(diǎn)j的正值,以及節(jié)點(diǎn)k的正值加權(quán)求和得到。所以,在不考慮衰減條件的情況下,節(jié)點(diǎn)u的計(jì)算公式如下所示:ru+(t+1)=(1-c)(ri+(t)3+rj-(t)2+rk-(t)2)+c1(u=s),ru-(t+1)=(1-c)(ri-(t)3+rj+(t)2+rk+(t)2),ru=ru-(t+1)+ru+(t+1),而在實(shí)際網(wǎng)絡(luò)中,信息在傳遞的過(guò)程中是存在信息衰減問(wèn)題的,所以需要考慮平衡衰減的情況,論文給出了每個(gè)基因節(jié)點(diǎn)的得分r、抑制表達(dá)得分r-和促進(jìn)表達(dá)得分r+的定義如下所示:r-=(1-c)[A-Tr++γA+Tr-+(1-β)A-Tr-],(2.6)r+=(1-c)[A+Tr++βA-Tr-+(1-γ)A-Tr-]+cq,(2.7)r=r++r-,(2.8)其中,A=D-1A,A為鄰接矩陣,D為度矩陣,q為起始向量,c為重啟概率;γ和β分別表示經(jīng)過(guò)負(fù)權(quán)重邊之后作用于正權(quán)重邊和負(fù)權(quán)重邊的平衡衰減因子,在
杭州師范大學(xué)碩士學(xué)位論文2研究的理論基礎(chǔ)13圖2-2隨機(jī)森林(RF)的分類模型流程圖隨機(jī)森林構(gòu)造決策樹(shù)的步驟大致分為3步,如下所示:a)從包含N個(gè)樣本的數(shù)據(jù)集中采用有放回抽樣方式(bootstrap取樣),重復(fù)抽取N次得到訓(xùn)練集,將沒(méi)有抽到的樣本作為預(yù)測(cè)集,用于評(píng)估模型的誤差。b)假設(shè)樣本特征維數(shù)為M。對(duì)于一個(gè)決策樹(shù),隨機(jī)抽取m個(gè)特征(m<M),并且決策樹(shù)的各個(gè)節(jié)點(diǎn)都是基于抽取的m特征確定。分裂過(guò)程中,根據(jù)隨機(jī)選擇的m個(gè)特征,計(jì)算出該決策樹(shù)的最佳分裂方式。c)為了簡(jiǎn)化決策樹(shù)模型,避免過(guò)擬合現(xiàn)象,根據(jù)模型的泛化能力需要對(duì)決策樹(shù)進(jìn)行剪枝操作。在本論文的研究中,通過(guò)構(gòu)建基因互作網(wǎng)絡(luò)挖掘基因的網(wǎng)絡(luò)結(jié)構(gòu)特征,同時(shí)整合基因生物信息特征得到特征矩陣,并作為算法的輸入。(2)SVM算法支持向量機(jī)作為一種有監(jiān)督學(xué)習(xí)算法被廣泛的應(yīng)用于分類問(wèn)題的研究,它是基于統(tǒng)計(jì)學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理建立的模型。SVM根據(jù)有限的樣本信息在模型的復(fù)雜度和學(xué)習(xí)能力之間尋求最佳的折中以獲得最好的泛化能力[54-56]。如圖2-3所示,SVM在建立模型的過(guò)程中是在不斷尋找最優(yōu)超平面,同時(shí)要求邊際最大化。
本文編號(hào):3425245
【文章來(lái)源】:杭州師范大學(xué)浙江省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法的建模流程和部分特征工程
杭州師范大學(xué)碩士學(xué)位論文2研究的理論基礎(chǔ)9圖2-1舉例說(shuō)明帶符號(hào)隨機(jī)漫步重啟算法中r+與r-的定義圖2-1中,本文以節(jié)點(diǎn)u為例,介紹節(jié)點(diǎn)u的計(jì)算方法。從圖2-1可知,節(jié)點(diǎn)i與節(jié)點(diǎn)u的連邊權(quán)值為+1,節(jié)點(diǎn)j與節(jié)點(diǎn)u的連邊權(quán)值為-1,節(jié)點(diǎn)k與節(jié)點(diǎn)u的連邊權(quán)值也為-1,又因?yàn)樗惴ǹ紤]了邊權(quán)的影響,所以當(dāng)值經(jīng)過(guò)權(quán)值為-1的邊時(shí),其值的符號(hào)要取反;反之,經(jīng)過(guò)權(quán)值為+1邊時(shí),其值保持不變。所以,節(jié)點(diǎn)u的ru+(t+1)得分由節(jié)點(diǎn)i的正值、節(jié)點(diǎn)j的負(fù)值,以及節(jié)點(diǎn)k的負(fù)值加權(quán)求和得到;同理,節(jié)點(diǎn)u的ru-(t+1)得分由節(jié)點(diǎn)i的負(fù)值、節(jié)點(diǎn)j的正值,以及節(jié)點(diǎn)k的正值加權(quán)求和得到。所以,在不考慮衰減條件的情況下,節(jié)點(diǎn)u的計(jì)算公式如下所示:ru+(t+1)=(1-c)(ri+(t)3+rj-(t)2+rk-(t)2)+c1(u=s),ru-(t+1)=(1-c)(ri-(t)3+rj+(t)2+rk+(t)2),ru=ru-(t+1)+ru+(t+1),而在實(shí)際網(wǎng)絡(luò)中,信息在傳遞的過(guò)程中是存在信息衰減問(wèn)題的,所以需要考慮平衡衰減的情況,論文給出了每個(gè)基因節(jié)點(diǎn)的得分r、抑制表達(dá)得分r-和促進(jìn)表達(dá)得分r+的定義如下所示:r-=(1-c)[A-Tr++γA+Tr-+(1-β)A-Tr-],(2.6)r+=(1-c)[A+Tr++βA-Tr-+(1-γ)A-Tr-]+cq,(2.7)r=r++r-,(2.8)其中,A=D-1A,A為鄰接矩陣,D為度矩陣,q為起始向量,c為重啟概率;γ和β分別表示經(jīng)過(guò)負(fù)權(quán)重邊之后作用于正權(quán)重邊和負(fù)權(quán)重邊的平衡衰減因子,在
杭州師范大學(xué)碩士學(xué)位論文2研究的理論基礎(chǔ)13圖2-2隨機(jī)森林(RF)的分類模型流程圖隨機(jī)森林構(gòu)造決策樹(shù)的步驟大致分為3步,如下所示:a)從包含N個(gè)樣本的數(shù)據(jù)集中采用有放回抽樣方式(bootstrap取樣),重復(fù)抽取N次得到訓(xùn)練集,將沒(méi)有抽到的樣本作為預(yù)測(cè)集,用于評(píng)估模型的誤差。b)假設(shè)樣本特征維數(shù)為M。對(duì)于一個(gè)決策樹(shù),隨機(jī)抽取m個(gè)特征(m<M),并且決策樹(shù)的各個(gè)節(jié)點(diǎn)都是基于抽取的m特征確定。分裂過(guò)程中,根據(jù)隨機(jī)選擇的m個(gè)特征,計(jì)算出該決策樹(shù)的最佳分裂方式。c)為了簡(jiǎn)化決策樹(shù)模型,避免過(guò)擬合現(xiàn)象,根據(jù)模型的泛化能力需要對(duì)決策樹(shù)進(jìn)行剪枝操作。在本論文的研究中,通過(guò)構(gòu)建基因互作網(wǎng)絡(luò)挖掘基因的網(wǎng)絡(luò)結(jié)構(gòu)特征,同時(shí)整合基因生物信息特征得到特征矩陣,并作為算法的輸入。(2)SVM算法支持向量機(jī)作為一種有監(jiān)督學(xué)習(xí)算法被廣泛的應(yīng)用于分類問(wèn)題的研究,它是基于統(tǒng)計(jì)學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理建立的模型。SVM根據(jù)有限的樣本信息在模型的復(fù)雜度和學(xué)習(xí)能力之間尋求最佳的折中以獲得最好的泛化能力[54-56]。如圖2-3所示,SVM在建立模型的過(guò)程中是在不斷尋找最優(yōu)超平面,同時(shí)要求邊際最大化。
本文編號(hào):3425245
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3425245.html
最近更新
教材專著