天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 基因論文 >

基于PPI網絡和基因表達數據的關鍵蛋白質識別算法

發(fā)布時間:2021-11-20 07:05
  隨著人類基因組計劃的開展,越來越多物種的測序數據被生物學家們挖掘出來,從此對于生命科學的研究也逐漸地聚焦于基因組學。然而基因組學的開展只是生命本質特征研究的基礎之一,生命過程中細胞的代謝、信號傳導以及基因調控等都是通過蛋白質實現的。蛋白質是構造細胞的基本有機物,是生命活動的物質條件和生物功能活性的保證。生物體的蛋白質主要分為兩類:關鍵蛋白質和非關鍵蛋白質。現有的關鍵蛋白質是指去除或破壞活生物體中的特定蛋白質后,造成該生物的相關功能的喪失,從而導致該生物體無法生存。關鍵蛋白質對于細胞的生理活動和生物的存活都是必不可少的。因此,在研究細胞的生長和調控時,如何準確的識別關鍵蛋白質成為了至關重要的一步。目前,已經有了一系列基于網絡拓撲的計算方法用于關鍵蛋白質的預測,如度中心性(DC)、信息中心性(IC)、信息向量中心性(EC)、子圖中心性(SC)、介數中心性(BC)、接近度中心性(CC)、基于邊聚集系數的關鍵蛋白質度量方法(NC)等。隨著高通量實驗數據的發(fā)展,使得多數據預測關鍵蛋白質成為了可能。其中,基于基因表達數據和PPI網絡的關鍵蛋白質預測算法常被使用,如基于基因表達數據和PPI網絡數據的... 

【文章來源】:湖南師范大學湖南省 211工程院校

【文章頁數】:52 頁

【學位級別】:碩士

【部分圖文】:

基于PPI網絡和基因表達數據的關鍵蛋白質識別算法


酵母PPI網絡圖

示意圖,算法,示意圖,蛋白質


基于PPI網絡和基因表達數據的關鍵蛋白質預測算法研究13Jaccard相關系數在0~1之間。這里,我們將Jaccard相關系數的值定義為PPI網絡簇中蛋白質p和蛋白質q的活性表達相似性。3.2.4基于蛋白質成簇特性和活性共表達的識別方法已經證明,具有相似功能的基因往往表現出相似的表達模式,這被稱為“guilt-by-association”原理[54];谶吘壘垲愊禂(ECC)和Jaccard系數(Jaccard),提出了一種基于邊的度中心性度量方法(JDC)。我們從拓撲和生物學的角度描述了兩個蛋白質的聚類程度。因此,我們將邊(,)在PPI網絡中的聚類度定義如下:(,)=(,)(,)(3.9)對于一個蛋白質p,我們將其JDC值定義為該蛋白質與其鄰居屬于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示節(jié)點p的所有鄰域。JDC測量的值取決于成簇的PPI網絡中基因表達的“活躍”和“非活躍”狀態(tài)的相似性。在本研究中,我們提出了一種基于PPI數據和基因表達的重要蛋白質鑒定方法。該方法的優(yōu)點是計算簡單,并且JDC的性能優(yōu)于某些最新的預測方法。圖3.1顯示了JDC預測關鍵蛋白質的示例。JDC算法融合了基因表達信息和PPI網絡數據。JDC的整個過程包括以下幾個步驟:1)ECC用于從拓撲的角度描述兩個蛋白質在一個簇中的概率;2)設置一個動態(tài)閾值來對基因表達數據進行二值化,以過濾基因表達譜中的波動。3)Jaccard相似度指數衡量基因表達譜處于“活性”和“非活性”狀態(tài)的兩個蛋白的相似度;4)綜合ECC值和Jaccard相似度指數,計算每個基因的JDC分數。基于這些步驟,我們在JDC值中使用toprank分析來驗證我們的方法的性能。圖3.1JDC算法示意圖

ROC曲線,ROC曲線,方法,蛋白質


基于PPI網絡和基因表達數據的關鍵蛋白質預測算法研究15圖3.2JDC方法和其他預測方法的ROC曲線和AUC值。(a)酵母數據。(b)大腸桿菌數據。比較結果如圖3.2所示,在Yeast數據下,JDC曲線下面積(AUC)為0.6996,WDC和NC曲線下面積(AUC)分別為0.6884和0.6889。JDC的方法相較于WDC和NC分別提高了0.0112和0.0107。JDC、WDC和PeC的區(qū)別就是在對PPI網絡如何進行加權。LI和Tang雖然在ECC的基礎上引入了PCC相關系數對PPI網絡進行加權,有效的抑制了假陽性和假陰性。但是在引入基因表達數據時忽略了基因表達在不同時刻的“活性”與“不活性”。為此,本研究提出了通過將基因表達數據二值化并引入Jaccard系數來加權,不僅考慮到了PPI網絡的假陰性和假陽性,還考慮了基因的活性共表達,使結果更準確更靈敏。從圖3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲線下面積分別為0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面積明顯要高于其余的關鍵蛋白質預測方法。當Yeast的FPR在小于0.4的情況下,JDC方法的ROC曲線較與其余關鍵蛋白質預測方法性能最優(yōu),這說明JDC方法在識別關鍵蛋白質中具有較高的靈敏度。圖3.3JDC方法和其他預測方法的TOP20%蛋白質的ROC曲線和AUC值。(a)酵母數據。(b)大腸桿菌數據。為了進一步比較JDC,WDC和Pec的性能,我們分析了ROC曲線基于每種方法排名前20%的蛋白質,ROC曲線圖如圖3.3所示。從圖3.3可以看出,JDC的AUC在酵母和ecoli數據集上均高于WDC和PeC的ROC曲線當


本文編號:3506815

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3506815.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶9110f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com