基于基因關聯(lián)網(wǎng)絡的表型相關性分析算法的研究
發(fā)布時間:2019-08-02 14:17
【摘要】:基因組測序開啟了“組學”研究的大門,其中基因型變量與表型變量之間的關系是一項重要的研究內(nèi)容。表型分子的起源和表型之間的關系的澄清,成為生物信息學和醫(yī)學研究的一個關鍵任務。從生物學的角度來講,表型會經(jīng)歷一個復雜的過程才能發(fā)生和發(fā)展,這個過程伴隨著多基因間的相互作用,隨著近年來實驗水平和檢測方法的不斷提高,基因數(shù)據(jù)的完備性也越來越高,以基因網(wǎng)絡為框架的研究方法為分析表型的發(fā)生和發(fā)展提供了新的思路。本文通過整合各類生物信息學知識,構建基因關聯(lián)網(wǎng)絡,提出算法準確地進行表型相關性分析的研究,可以更深入地理解表型之間的關系,為系統(tǒng)生物學進行表型相關性分析提供了指導和參考。本文整合物理蛋白質(zhì)交互組數(shù)據(jù)和基因表型數(shù)據(jù),構建基因網(wǎng)絡,引入表型相關性算法在基因網(wǎng)絡中分析表型之間的關系并使用實驗驗證算法的性能。本課題主要從以下幾個方面進行研究:本文通過整合物理蛋白質(zhì)的相互作用組構建基因網(wǎng)絡,使用統(tǒng)一詞匯表映射工具將不同數(shù)據(jù)規(guī)范成統(tǒng)一格式,構建出完備性高的基因網(wǎng)絡。本文通過關聯(lián)表型和基因數(shù)據(jù),在基因網(wǎng)絡中識別和定位表型模塊,結合滲流理論在網(wǎng)絡中引入自定義變量進行聚合基因模塊的識別,并進行統(tǒng)計學分析。本文提出并改進算法來進行表型相似性分析,并基于表型的相似性與共享蛋白質(zhì)相互作用有關這一理論,提出了基于網(wǎng)絡的分離度的表型相似性算法和基因的鄰居頻率算法。本文使用已經(jīng)成熟的算法和數(shù)據(jù)集來驗證結果,使用包括基因本體等成熟的數(shù)據(jù)集和對應的相似性算法來驗證我們的算法的性能,并引入重啟動隨機游走算法來進行表型相似性對比。本文在基因網(wǎng)絡中提出的表型相關性分析算法,能夠很好的量化表型之間的關系,并總結了基因網(wǎng)絡的完備性和網(wǎng)絡的初始權值等因素對不同算法產(chǎn)生的影響,為進一步探索表型的發(fā)生和發(fā)展機理提供幫助和指導作用。
【圖文】:
圖 1-1 課題的主要研究內(nèi)容并進行表型模塊的識別定位。人類表型本體算的表型知識系統(tǒng),利用其提供的表型-基因注釋信系,我們把與每一個表型相關的基因看作是一個集出標準算法在已經(jīng)建立好的基因關聯(lián)網(wǎng)絡中識別出出表型模塊在基因交互組網(wǎng)絡中的位置,并進行統(tǒng)的表型相關性算法來進行表型相似性分析。在基因后,因為表型間會有共享基因,共享基因就導致了基于基因關聯(lián)網(wǎng)絡的表型相關性算法:基因分離度型模塊之間的關系,即利用人類表型相似性與蛋白一性質(zhì),,在蛋白質(zhì)相互作用網(wǎng)絡中,提出或改進了表型相似性受到生物模塊的相關基因的相互作用,到基因網(wǎng)絡中計算表型基因的相似度,與我們提出
哈爾濱工業(yè)大學工程碩士學位論文集合(表型模塊)識別或者定位出來,然后根據(jù)他們的重疊基因分析表型之間的關系。在定位表型模塊之前,首先要分析一下假陽性鏈接(False Positive Links)對于網(wǎng)絡定位的影響。由于當前交互組網(wǎng)絡中包含一些假陽性相互作用組。因此,要探討這些作用組在何種程度上會對表型的假聚類產(chǎn)生影響。對于蛋白質(zhì)交互組或者是無偏的高通量數(shù)據(jù)集合,通過引入隨機鏈接來人為地增加假陽性網(wǎng)絡覆蓋率。使用兩種機制:第一個種機制通過從網(wǎng)絡中隨機選擇兩個蛋白質(zhì)并連接它們,產(chǎn)生完全隨機分散的鏈接。第二種機制是依據(jù)他們在原始網(wǎng)絡中的概率成比例的鏈接,從而模擬假陽性對于作用組產(chǎn)生的影響。通過變換所引入的隨機鏈接的程度,使用隨機模擬測試一個可以被良好定位的疾病(多發(fā)性硬化癥)的最大連通成分的顯著性和一個不能被良好定位的疾。ㄐ∧X共濟失調(diào))的聯(lián)通分量的顯著性(如圖 2-1 所示)。圖中顯示了 1000 個隨機發(fā)生的網(wǎng)絡的結果,其中每個假陽性率具有 1000 個隨機變化的疾病蛋白質(zhì)。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:Q811.4
本文編號:2522165
【圖文】:
圖 1-1 課題的主要研究內(nèi)容并進行表型模塊的識別定位。人類表型本體算的表型知識系統(tǒng),利用其提供的表型-基因注釋信系,我們把與每一個表型相關的基因看作是一個集出標準算法在已經(jīng)建立好的基因關聯(lián)網(wǎng)絡中識別出出表型模塊在基因交互組網(wǎng)絡中的位置,并進行統(tǒng)的表型相關性算法來進行表型相似性分析。在基因后,因為表型間會有共享基因,共享基因就導致了基于基因關聯(lián)網(wǎng)絡的表型相關性算法:基因分離度型模塊之間的關系,即利用人類表型相似性與蛋白一性質(zhì),,在蛋白質(zhì)相互作用網(wǎng)絡中,提出或改進了表型相似性受到生物模塊的相關基因的相互作用,到基因網(wǎng)絡中計算表型基因的相似度,與我們提出
哈爾濱工業(yè)大學工程碩士學位論文集合(表型模塊)識別或者定位出來,然后根據(jù)他們的重疊基因分析表型之間的關系。在定位表型模塊之前,首先要分析一下假陽性鏈接(False Positive Links)對于網(wǎng)絡定位的影響。由于當前交互組網(wǎng)絡中包含一些假陽性相互作用組。因此,要探討這些作用組在何種程度上會對表型的假聚類產(chǎn)生影響。對于蛋白質(zhì)交互組或者是無偏的高通量數(shù)據(jù)集合,通過引入隨機鏈接來人為地增加假陽性網(wǎng)絡覆蓋率。使用兩種機制:第一個種機制通過從網(wǎng)絡中隨機選擇兩個蛋白質(zhì)并連接它們,產(chǎn)生完全隨機分散的鏈接。第二種機制是依據(jù)他們在原始網(wǎng)絡中的概率成比例的鏈接,從而模擬假陽性對于作用組產(chǎn)生的影響。通過變換所引入的隨機鏈接的程度,使用隨機模擬測試一個可以被良好定位的疾病(多發(fā)性硬化癥)的最大連通成分的顯著性和一個不能被良好定位的疾。ㄐ∧X共濟失調(diào))的聯(lián)通分量的顯著性(如圖 2-1 所示)。圖中顯示了 1000 個隨機發(fā)生的網(wǎng)絡的結果,其中每個假陽性率具有 1000 個隨機變化的疾病蛋白質(zhì)。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:Q811.4
【參考文獻】
相關期刊論文 前2條
1 王秀艷;崔雷;;應用關鍵動詞抽取生物醫(yī)學實體間語義關系研究綜述[J];現(xiàn)代圖書情報技術;2011年09期
2 駱建新,鄭崛村,馬用信,張思仲;人類基因組計劃與后基因組時代[J];中國生物工程雜志;2003年11期
本文編號:2522165
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2522165.html
最近更新
教材專著