天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 基因論文 >

基于基因網(wǎng)絡模型分析的癌癥驅動基因識別算法研究

發(fā)布時間:2021-10-09 00:09
  癌癥已經(jīng)成為全球主要的公共衛(wèi)生問題,同時也是主要的死亡原因之一。其中,癌癥驅動基因的挖掘一直是一個重要的研究方向。同時,基于驅動基因的精準醫(yī)學也是治療癌癥的重要手段。隨著基因測序技術的進步,在過去數(shù)十年中已經(jīng)報道了數(shù)以百萬計的體細胞突變。但從這些數(shù)據(jù)中挖掘具有致癌突變的驅動基因仍然是一個極具挑戰(zhàn)性的研究課題。為此,已經(jīng)提出了許多高級算法來識別驅動基因,而在海量數(shù)據(jù)中將網(wǎng)絡結構信息與生物信息相結合的嘗試鮮有出現(xiàn)。本文基于復雜網(wǎng)絡與機器學習方法研究癌癥驅動基因的挖掘,創(chuàng)新性地結合了多種特征提取和對比分析的方法,分別從基因網(wǎng)絡特征、基因屬性特征、網(wǎng)絡與屬性的整合特征三方面綜合挖掘基因特征,并通過不同角度的對比分析論證研究的可行性。最后,基于隨機森林改進優(yōu)化分類,揭示影響癌癥發(fā)生發(fā)展的重要因素,進而識別出真正的潛在癌癥驅動基因,為指導癌癥的臨床研究和驅動基因的挖掘提供指導依據(jù)。主要工作包括:(1)基于復雜網(wǎng)絡理論的癌癥基因網(wǎng)絡分析。構建癌癥基因網(wǎng)絡,分析網(wǎng)絡結構在癌癥發(fā)生發(fā)展過程中的變化情況和挖掘基因的網(wǎng)絡特征是本論文最先要研究的問題。對網(wǎng)絡結構的分析,分別對比了Normal網(wǎng)絡與Tumor網(wǎng)... 

【文章來源】:杭州師范大學浙江省

【文章頁數(shù)】:59 頁

【學位級別】:碩士

【部分圖文】:

基于基因網(wǎng)絡模型分析的癌癥驅動基因識別算法研究


算法的建模流程和部分特征工程

節(jié)點,符號,計算方法,算法


杭州師范大學碩士學位論文2研究的理論基礎9圖2-1舉例說明帶符號隨機漫步重啟算法中r+與r-的定義圖2-1中,本文以節(jié)點u為例,介紹節(jié)點u的計算方法。從圖2-1可知,節(jié)點i與節(jié)點u的連邊權值為+1,節(jié)點j與節(jié)點u的連邊權值為-1,節(jié)點k與節(jié)點u的連邊權值也為-1,又因為算法考慮了邊權的影響,所以當值經(jīng)過權值為-1的邊時,其值的符號要取反;反之,經(jīng)過權值為+1邊時,其值保持不變。所以,節(jié)點u的ru+(t+1)得分由節(jié)點i的正值、節(jié)點j的負值,以及節(jié)點k的負值加權求和得到;同理,節(jié)點u的ru-(t+1)得分由節(jié)點i的負值、節(jié)點j的正值,以及節(jié)點k的正值加權求和得到。所以,在不考慮衰減條件的情況下,節(jié)點u的計算公式如下所示:ru+(t+1)=(1-c)(ri+(t)3+rj-(t)2+rk-(t)2)+c1(u=s),ru-(t+1)=(1-c)(ri-(t)3+rj+(t)2+rk+(t)2),ru=ru-(t+1)+ru+(t+1),而在實際網(wǎng)絡中,信息在傳遞的過程中是存在信息衰減問題的,所以需要考慮平衡衰減的情況,論文給出了每個基因節(jié)點的得分r、抑制表達得分r-和促進表達得分r+的定義如下所示:r-=(1-c)[A-Tr++γA+Tr-+(1-β)A-Tr-],(2.6)r+=(1-c)[A+Tr++βA-Tr-+(1-γ)A-Tr-]+cq,(2.7)r=r++r-,(2.8)其中,A=D-1A,A為鄰接矩陣,D為度矩陣,q為起始向量,c為重啟概率;γ和β分別表示經(jīng)過負權重邊之后作用于正權重邊和負權重邊的平衡衰減因子,在

流程圖,森林,流程圖,模型


杭州師范大學碩士學位論文2研究的理論基礎13圖2-2隨機森林(RF)的分類模型流程圖隨機森林構造決策樹的步驟大致分為3步,如下所示:a)從包含N個樣本的數(shù)據(jù)集中采用有放回抽樣方式(bootstrap取樣),重復抽取N次得到訓練集,將沒有抽到的樣本作為預測集,用于評估模型的誤差。b)假設樣本特征維數(shù)為M。對于一個決策樹,隨機抽取m個特征(m<M),并且決策樹的各個節(jié)點都是基于抽取的m特征確定。分裂過程中,根據(jù)隨機選擇的m個特征,計算出該決策樹的最佳分裂方式。c)為了簡化決策樹模型,避免過擬合現(xiàn)象,根據(jù)模型的泛化能力需要對決策樹進行剪枝操作。在本論文的研究中,通過構建基因互作網(wǎng)絡挖掘基因的網(wǎng)絡結構特征,同時整合基因生物信息特征得到特征矩陣,并作為算法的輸入。(2)SVM算法支持向量機作為一種有監(jiān)督學習算法被廣泛的應用于分類問題的研究,它是基于統(tǒng)計學理論的VC維理論和結構風險最小原理建立的模型。SVM根據(jù)有限的樣本信息在模型的復雜度和學習能力之間尋求最佳的折中以獲得最好的泛化能力[54-56]。如圖2-3所示,SVM在建立模型的過程中是在不斷尋找最優(yōu)超平面,同時要求邊際最大化。


本文編號:3425245

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3425245.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶31205***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com