基于PPI網(wǎng)絡和基因表達數(shù)據(jù)的關鍵蛋白質識別算法
發(fā)布時間:2021-11-20 07:05
隨著人類基因組計劃的開展,越來越多物種的測序數(shù)據(jù)被生物學家們挖掘出來,從此對于生命科學的研究也逐漸地聚焦于基因組學。然而基因組學的開展只是生命本質特征研究的基礎之一,生命過程中細胞的代謝、信號傳導以及基因調控等都是通過蛋白質實現(xiàn)的。蛋白質是構造細胞的基本有機物,是生命活動的物質條件和生物功能活性的保證。生物體的蛋白質主要分為兩類:關鍵蛋白質和非關鍵蛋白質。現(xiàn)有的關鍵蛋白質是指去除或破壞活生物體中的特定蛋白質后,造成該生物的相關功能的喪失,從而導致該生物體無法生存。關鍵蛋白質對于細胞的生理活動和生物的存活都是必不可少的。因此,在研究細胞的生長和調控時,如何準確的識別關鍵蛋白質成為了至關重要的一步。目前,已經(jīng)有了一系列基于網(wǎng)絡拓撲的計算方法用于關鍵蛋白質的預測,如度中心性(DC)、信息中心性(IC)、信息向量中心性(EC)、子圖中心性(SC)、介數(shù)中心性(BC)、接近度中心性(CC)、基于邊聚集系數(shù)的關鍵蛋白質度量方法(NC)等。隨著高通量實驗數(shù)據(jù)的發(fā)展,使得多數(shù)據(jù)預測關鍵蛋白質成為了可能。其中,基于基因表達數(shù)據(jù)和PPI網(wǎng)絡的關鍵蛋白質預測算法常被使用,如基于基因表達數(shù)據(jù)和PPI網(wǎng)絡數(shù)據(jù)的...
【文章來源】:湖南師范大學湖南省 211工程院校
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
酵母PPI網(wǎng)絡圖
基于PPI網(wǎng)絡和基因表達數(shù)據(jù)的關鍵蛋白質預測算法研究13Jaccard相關系數(shù)在0~1之間。這里,我們將Jaccard相關系數(shù)的值定義為PPI網(wǎng)絡簇中蛋白質p和蛋白質q的活性表達相似性。3.2.4基于蛋白質成簇特性和活性共表達的識別方法已經(jīng)證明,具有相似功能的基因往往表現(xiàn)出相似的表達模式,這被稱為“guilt-by-association”原理[54]。基于邊緣聚類系數(shù)(ECC)和Jaccard系數(shù)(Jaccard),提出了一種基于邊的度中心性度量方法(JDC)。我們從拓撲和生物學的角度描述了兩個蛋白質的聚類程度。因此,我們將邊(,)在PPI網(wǎng)絡中的聚類度定義如下:(,)=(,)(,)(3.9)對于一個蛋白質p,我們將其JDC值定義為該蛋白質與其鄰居屬于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示節(jié)點p的所有鄰域。JDC測量的值取決于成簇的PPI網(wǎng)絡中基因表達的“活躍”和“非活躍”狀態(tài)的相似性。在本研究中,我們提出了一種基于PPI數(shù)據(jù)和基因表達的重要蛋白質鑒定方法。該方法的優(yōu)點是計算簡單,并且JDC的性能優(yōu)于某些最新的預測方法。圖3.1顯示了JDC預測關鍵蛋白質的示例。JDC算法融合了基因表達信息和PPI網(wǎng)絡數(shù)據(jù)。JDC的整個過程包括以下幾個步驟:1)ECC用于從拓撲的角度描述兩個蛋白質在一個簇中的概率;2)設置一個動態(tài)閾值來對基因表達數(shù)據(jù)進行二值化,以過濾基因表達譜中的波動。3)Jaccard相似度指數(shù)衡量基因表達譜處于“活性”和“非活性”狀態(tài)的兩個蛋白的相似度;4)綜合ECC值和Jaccard相似度指數(shù),計算每個基因的JDC分數(shù);谶@些步驟,我們在JDC值中使用toprank分析來驗證我們的方法的性能。圖3.1JDC算法示意圖
基于PPI網(wǎng)絡和基因表達數(shù)據(jù)的關鍵蛋白質預測算法研究15圖3.2JDC方法和其他預測方法的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。比較結果如圖3.2所示,在Yeast數(shù)據(jù)下,JDC曲線下面積(AUC)為0.6996,WDC和NC曲線下面積(AUC)分別為0.6884和0.6889。JDC的方法相較于WDC和NC分別提高了0.0112和0.0107。JDC、WDC和PeC的區(qū)別就是在對PPI網(wǎng)絡如何進行加權。LI和Tang雖然在ECC的基礎上引入了PCC相關系數(shù)對PPI網(wǎng)絡進行加權,有效的抑制了假陽性和假陰性。但是在引入基因表達數(shù)據(jù)時忽略了基因表達在不同時刻的“活性”與“不活性”。為此,本研究提出了通過將基因表達數(shù)據(jù)二值化并引入Jaccard系數(shù)來加權,不僅考慮到了PPI網(wǎng)絡的假陰性和假陽性,還考慮了基因的活性共表達,使結果更準確更靈敏。從圖3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲線下面積分別為0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面積明顯要高于其余的關鍵蛋白質預測方法。當Yeast的FPR在小于0.4的情況下,JDC方法的ROC曲線較與其余關鍵蛋白質預測方法性能最優(yōu),這說明JDC方法在識別關鍵蛋白質中具有較高的靈敏度。圖3.3JDC方法和其他預測方法的TOP20%蛋白質的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。為了進一步比較JDC,WDC和Pec的性能,我們分析了ROC曲線基于每種方法排名前20%的蛋白質,ROC曲線圖如圖3.3所示。從圖3.3可以看出,JDC的AUC在酵母和ecoli數(shù)據(jù)集上均高于WDC和PeC的ROC曲線當
本文編號:3506815
【文章來源】:湖南師范大學湖南省 211工程院校
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
酵母PPI網(wǎng)絡圖
基于PPI網(wǎng)絡和基因表達數(shù)據(jù)的關鍵蛋白質預測算法研究13Jaccard相關系數(shù)在0~1之間。這里,我們將Jaccard相關系數(shù)的值定義為PPI網(wǎng)絡簇中蛋白質p和蛋白質q的活性表達相似性。3.2.4基于蛋白質成簇特性和活性共表達的識別方法已經(jīng)證明,具有相似功能的基因往往表現(xiàn)出相似的表達模式,這被稱為“guilt-by-association”原理[54]。基于邊緣聚類系數(shù)(ECC)和Jaccard系數(shù)(Jaccard),提出了一種基于邊的度中心性度量方法(JDC)。我們從拓撲和生物學的角度描述了兩個蛋白質的聚類程度。因此,我們將邊(,)在PPI網(wǎng)絡中的聚類度定義如下:(,)=(,)(,)(3.9)對于一個蛋白質p,我們將其JDC值定義為該蛋白質與其鄰居屬于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示節(jié)點p的所有鄰域。JDC測量的值取決于成簇的PPI網(wǎng)絡中基因表達的“活躍”和“非活躍”狀態(tài)的相似性。在本研究中,我們提出了一種基于PPI數(shù)據(jù)和基因表達的重要蛋白質鑒定方法。該方法的優(yōu)點是計算簡單,并且JDC的性能優(yōu)于某些最新的預測方法。圖3.1顯示了JDC預測關鍵蛋白質的示例。JDC算法融合了基因表達信息和PPI網(wǎng)絡數(shù)據(jù)。JDC的整個過程包括以下幾個步驟:1)ECC用于從拓撲的角度描述兩個蛋白質在一個簇中的概率;2)設置一個動態(tài)閾值來對基因表達數(shù)據(jù)進行二值化,以過濾基因表達譜中的波動。3)Jaccard相似度指數(shù)衡量基因表達譜處于“活性”和“非活性”狀態(tài)的兩個蛋白的相似度;4)綜合ECC值和Jaccard相似度指數(shù),計算每個基因的JDC分數(shù);谶@些步驟,我們在JDC值中使用toprank分析來驗證我們的方法的性能。圖3.1JDC算法示意圖
基于PPI網(wǎng)絡和基因表達數(shù)據(jù)的關鍵蛋白質預測算法研究15圖3.2JDC方法和其他預測方法的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。比較結果如圖3.2所示,在Yeast數(shù)據(jù)下,JDC曲線下面積(AUC)為0.6996,WDC和NC曲線下面積(AUC)分別為0.6884和0.6889。JDC的方法相較于WDC和NC分別提高了0.0112和0.0107。JDC、WDC和PeC的區(qū)別就是在對PPI網(wǎng)絡如何進行加權。LI和Tang雖然在ECC的基礎上引入了PCC相關系數(shù)對PPI網(wǎng)絡進行加權,有效的抑制了假陽性和假陰性。但是在引入基因表達數(shù)據(jù)時忽略了基因表達在不同時刻的“活性”與“不活性”。為此,本研究提出了通過將基因表達數(shù)據(jù)二值化并引入Jaccard系數(shù)來加權,不僅考慮到了PPI網(wǎng)絡的假陰性和假陽性,還考慮了基因的活性共表達,使結果更準確更靈敏。從圖3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲線下面積分別為0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面積明顯要高于其余的關鍵蛋白質預測方法。當Yeast的FPR在小于0.4的情況下,JDC方法的ROC曲線較與其余關鍵蛋白質預測方法性能最優(yōu),這說明JDC方法在識別關鍵蛋白質中具有較高的靈敏度。圖3.3JDC方法和其他預測方法的TOP20%蛋白質的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。為了進一步比較JDC,WDC和Pec的性能,我們分析了ROC曲線基于每種方法排名前20%的蛋白質,ROC曲線圖如圖3.3所示。從圖3.3可以看出,JDC的AUC在酵母和ecoli數(shù)據(jù)集上均高于WDC和PeC的ROC曲線當
本文編號:3506815
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3506815.html
最近更新
教材專著