天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 基因論文 >

基于基因本體結(jié)構(gòu)的蛋白質(zhì)功能預(yù)測研究

發(fā)布時間:2020-10-19 16:50
   蛋白質(zhì)是生命活動的主要物質(zhì)基礎(chǔ),參與并執(zhí)行生物體內(nèi)的各種重要功能。整合海量生物數(shù)據(jù)中的蛋白質(zhì)特征和功能信息并對蛋白質(zhì)進(jìn)行自動且準(zhǔn)確的功能標(biāo)注,可以幫助人類更好地認(rèn)識和理解生命過程,對疾病分析、藥物研發(fā)和生物能源開發(fā)等領(lǐng)域的發(fā)展都有極大的推動作用。近年來,基于機(jī)器學(xué)習(xí)技術(shù)的蛋白質(zhì)功能預(yù)測研究受到廣泛的關(guān)注,獲得了較高的精度。但是,這些方法通常假定已有的蛋白質(zhì)功能標(biāo)注信息是完整的,并把蛋白質(zhì)功能預(yù)測問題建模為一般的多標(biāo)簽學(xué)習(xí)問題,忽略了由于實驗條件限制和生物學(xué)研究熱點等因素造成的功能標(biāo)注不完整性和不平衡性,以及功能標(biāo)簽之間的層次結(jié)構(gòu)關(guān)系在功能預(yù)測中的重要作用,預(yù)測精度依然有限。多種異構(gòu)蛋白質(zhì)數(shù)據(jù)源可以轉(zhuǎn)化為蛋白質(zhì)之間的功能關(guān)聯(lián)網(wǎng)絡(luò)克服異構(gòu)性,一些方法通過整合這些關(guān)聯(lián)網(wǎng)絡(luò)提高了功能預(yù)測精度。然而,這類方法在整合的效率和效果等方面均存在困難。充足的正負(fù)樣例有助于提高分類器的區(qū)分能力進(jìn)而提升預(yù)測精度,由于負(fù)樣例的缺失,大部分蛋白質(zhì)功能預(yù)測方法僅能利用蛋白質(zhì)已知的正樣例,或啟發(fā)式地選定負(fù)樣例,極少關(guān)注對負(fù)樣例的識別,也限制了預(yù)測精度。本文針對蛋白質(zhì)功能預(yù)測研究中存在的上述問題,以如何結(jié)合基因本體層次結(jié)構(gòu)為出發(fā)點,以提高蛋白質(zhì)功能預(yù)測精度為目標(biāo),以機(jī)器模型構(gòu)建與求解為基本手段,圍繞蛋白質(zhì)缺失功能預(yù)測,負(fù)樣例預(yù)測和面向多源數(shù)據(jù)集成的蛋白質(zhì)功能預(yù)測分別展開深入研究,提出一些計算方法。本文的主要貢獻(xiàn)包括:1、針對蛋白質(zhì)功能標(biāo)注普遍存在缺失的問題,提出一種基于有向混合圖的蛋白質(zhì)功能預(yù)測方法(dHG)。dHG針對蛋白質(zhì)功能標(biāo)簽的不完整性,標(biāo)簽之間層次結(jié)構(gòu)關(guān)系和蛋白質(zhì)缺失標(biāo)注的規(guī)律,設(shè)計了一種由蛋白質(zhì)互作網(wǎng)和基因本體有向無環(huán)圖構(gòu)成的有向混合圖,并在該混合圖上設(shè)計有向重啟動隨機(jī)游走預(yù)測蛋白質(zhì)功能。分析表明,dHG不僅能更好地預(yù)測蛋白質(zhì)缺失功能,還能預(yù)測功能完全未知蛋白質(zhì)的功能,效率也較以往方法更高。為更進(jìn)一步利用有向混合圖的結(jié)構(gòu)差異性,提出一種基于異步隨機(jī)游走的蛋白質(zhì)功能預(yù)測方法(NewGOA)。NewGOA不僅考慮了有向混合圖中蛋白質(zhì)互作網(wǎng)和基因本體子圖之間的結(jié)構(gòu)差異性,還考慮了蛋白質(zhì)互作網(wǎng)中的噪聲互作。NewGOA繼承了dHG的所有優(yōu)點,實驗表明NewGOA獲得的預(yù)測精度和效率比dHG和其他相關(guān)方法更高,這些混合圖上的隨機(jī)游走策略還可以推廣應(yīng)用到其他關(guān)聯(lián)預(yù)測問題中。2、針對蛋白質(zhì)的負(fù)樣例極少,限制了分類器的區(qū)分性和精度等問題,首先提出一種基于基因本體結(jié)構(gòu)的蛋白質(zhì)負(fù)樣例預(yù)測方法(NegGOA)。NegGOA分別基于功能層次結(jié)構(gòu)關(guān)聯(lián)和功能共同出現(xiàn)的經(jīng)驗條件概率對蛋白質(zhì)的缺失功能進(jìn)行預(yù)估,再根據(jù)這兩類預(yù)估篩選蛋白質(zhì)的負(fù)樣例功能。分析表明,NegGOA受蛋白質(zhì)功能標(biāo)注的不完整性影響較小,它預(yù)測的負(fù)樣例不僅錯誤率更低,且還能顯著提升蛋白質(zhì)功能預(yù)測的精度。為進(jìn)一步整合利用蛋白質(zhì)特征信息和已知的少量負(fù)樣例,提出一種基于正負(fù)樣例的蛋白質(zhì)功能預(yù)測方法(ProPN)。ProPN利用已知的蛋白質(zhì)-功能正負(fù)關(guān)聯(lián)信息、蛋白質(zhì)互作信息和功能標(biāo)簽關(guān)聯(lián)構(gòu)建符號混合圖,再通過符號混合圖上的信息傳播算法預(yù)測蛋白質(zhì)功能。分析表明,ProPN不僅能較好地預(yù)測蛋白質(zhì)負(fù)樣例,還能預(yù)測蛋白質(zhì)未知的正樣例。考慮到蛋白質(zhì)功能標(biāo)簽空間巨大,蛋白質(zhì)互作網(wǎng)中存在較多的噪聲互作和缺失互作等現(xiàn)實困難,本文進(jìn)一步提出一種基于降維的蛋白質(zhì)不相關(guān)功能預(yù)測方法(IFDR)。IFDR通過在蛋白質(zhì)互作網(wǎng)鄰接矩陣和蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣上分別進(jìn)行隨機(jī)游走,挖掘蛋白質(zhì)之間的內(nèi)在關(guān)系和預(yù)估蛋白質(zhì)的缺失功能標(biāo)簽,再將上述2個矩陣投影降維為低維實數(shù)矩陣,再利用半監(jiān)督回歸預(yù)測負(fù)樣例。在多個模式的生物蛋白質(zhì)數(shù)據(jù)集上的實驗表明,IFDR比已有相關(guān)算法能夠更準(zhǔn)確地預(yù)測負(fù)樣例,對網(wǎng)絡(luò)和標(biāo)簽空間的降維均可以提高負(fù)樣例預(yù)測精度。3、在基于多源數(shù)據(jù)集成整合預(yù)測蛋白質(zhì)功能方面,提出一種基于多網(wǎng)絡(luò)語義集成的蛋白質(zhì)功能預(yù)測方法(SimNet)。SimNet首先利用加權(quán)的重合相似性度量構(gòu)建蛋白質(zhì)之間的語義網(wǎng)絡(luò),再將多個蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò)向該語義網(wǎng)絡(luò)對準(zhǔn),進(jìn)而優(yōu)化各個網(wǎng)絡(luò)的權(quán)重系數(shù)并整合這些網(wǎng)絡(luò)成一個復(fù)合網(wǎng)絡(luò),再在復(fù)合網(wǎng)絡(luò)上基于局部全局一致性學(xué)習(xí)方法預(yù)測蛋白質(zhì)功能。分析表明,SimNet能相對以往的相關(guān)方法更高效準(zhǔn)確地整合多源數(shù)據(jù)預(yù)測蛋白質(zhì)功能。為了區(qū)分性地整合多個網(wǎng)絡(luò),并處理較大的功能標(biāo)簽集合,提出一種基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解的蛋白質(zhì)功能預(yù)測方法(ProCMF)。ProCMF基于非負(fù)矩陣分解將蛋白質(zhì)功能標(biāo)注矩陣分解為兩個低秩矩陣,并基于這兩個低秩矩陣分別定義基于網(wǎng)絡(luò)結(jié)構(gòu)和標(biāo)簽關(guān)聯(lián)的平滑性正則項約束指導(dǎo)矩陣協(xié)同分解,再對不同網(wǎng)絡(luò)設(shè)置權(quán)重,并把權(quán)重優(yōu)化和功能預(yù)測統(tǒng)一到一個目標(biāo)方程中。在酵母菌,人類和老鼠蛋白質(zhì)數(shù)據(jù)集上的實驗證明ProCMF較現(xiàn)有相關(guān)算法能獲得更好的預(yù)測結(jié)果,并能高效地處理大量存在關(guān)聯(lián)的功能標(biāo)簽,區(qū)分性地整合多個網(wǎng)絡(luò),且對輸入?yún)?shù)魯棒。
【學(xué)位單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP18;Q51
【部分圖文】:

標(biāo)簽,蛋白質(zhì),例子,蛋白質(zhì)功能


通過對蛋白質(zhì)功能標(biāo)注的準(zhǔn)確預(yù)測,的了解各類蛋白質(zhì)的生物特性,對藥物開發(fā)、疾病等諸多方面均有著重要的理論和現(xiàn)實意義。現(xiàn)狀功能預(yù)測質(zhì)功能預(yù)測模型通常假設(shè)現(xiàn)有的蛋白質(zhì)功能標(biāo)簽是完功能標(biāo)簽對未標(biāo)注功能的蛋白質(zhì)進(jìn)行計算預(yù)測。然而于資源的限制,實驗方案的局限以及不斷更新的生地在補(bǔ)充和完善。人類蛋白質(zhì)組項目組織也重申我們能知之甚少[25]。圖 1-1 中舉了一個具體的蛋白質(zhì)功‘GO:0005886’(plasma membrane),‘GO0071944’(cmembrane)是酵母菌蛋白質(zhì)‘YOL086C’與 2016 年 年 7 月的該蛋白質(zhì)標(biāo)簽集合中并沒標(biāo)注。而從圖中三個功能都是該蛋白質(zhì)已知功能標(biāo)簽節(jié)點的子孫節(jié)點

蛋白質(zhì)功能,標(biāo)簽,示例,功能


Ontology(GO,基因本體)不夠齊全且更新迭代較慢,而 GO 已被作為蛋白能標(biāo)注的基準(zhǔn),應(yīng)用更為廣泛。因此,本文的研究也基于 GO 及其提供的蛋白能標(biāo)注文件(GOA)展開。矩陣A的定義如下:1( , )0i t ti t A, 蛋白質(zhì) 標(biāo)注 或者 的子孫節(jié)點功能, 其它(蛋白質(zhì)功能預(yù)測問題根據(jù)目標(biāo)不同可以分為對部分功能已知的蛋白質(zhì)進(jìn)能預(yù)測和對功能完全未知的蛋白質(zhì)進(jìn)行功能預(yù)測。對功能完全未知的蛋白質(zhì)根據(jù)其特征屬性計算與其它特征相似蛋白質(zhì)的關(guān)聯(lián),從而達(dá)到功能預(yù)測[7,15,22-24];而部分功能已知蛋白質(zhì)進(jìn)行功能預(yù)測,不僅需要利用其特征數(shù)據(jù)考慮蛋白質(zhì)已知功能在基因本體上的層次結(jié)構(gòu)信息,計算該蛋白質(zhì)缺失功能在性,從而進(jìn)行預(yù)測[4,8,9,13]。而蛋白質(zhì)負(fù)樣例功能預(yù)測問題不同于蛋白質(zhì)功能預(yù)測,其目標(biāo)是標(biāo)簽出蛋白質(zhì)不會帶有某一類功能,即將關(guān)聯(lián)矩陣 中的 0 更新為-1,后者是將關(guān)中的 0 更新為 1,顯示表明某個蛋白質(zhì)具有某一功能,也不同于蛋白質(zhì)噪標(biāo)簽識別,它是將將關(guān)聯(lián)矩陣 A中的相應(yīng)元素從 1 更新為 0,從而剔除噪聲

層次結(jié)構(gòu)圖,標(biāo)簽,蛋白質(zhì)功能,混合圖


上側(cè)的子圖即為一個 GO 有向無環(huán)圖的簡單示例,子圖節(jié)點,節(jié)點間的有向箭頭表示標(biāo)簽之間的層次結(jié)構(gòu)關(guān)系3 的父節(jié)點,GO1 為 GO4 的祖先節(jié)點。下側(cè)的子圖為一圖中每個矩形表示一個蛋白質(zhì)節(jié)點,節(jié)點的連線表示蛋互作的強(qiáng)度或置信度。蛋白質(zhì)的功能標(biāo)簽信息通過功能表示,其中實線表示蛋白質(zhì)已知的功能標(biāo)簽信息,帶“?能標(biāo)簽(蛋白質(zhì)實際應(yīng)具有該功能,但該功能尚未被標(biāo)失的功能標(biāo)簽稱為蛋白質(zhì)的新功能。為了簡潔,完全未5)的新功能標(biāo)簽并未在圖中體現(xiàn)?梢园l(fā)現(xiàn),每個蛋白定義一個層次結(jié)構(gòu)圖,該蛋白質(zhì)的缺失功能標(biāo)簽只能是節(jié)點。如 P2 的層次結(jié)構(gòu)圖由 GO2 和 GO3 構(gòu)成,它的O3 的子孫節(jié)點。這些缺失功能是蛋白質(zhì)已知功能的進(jìn)一質(zhì)互作網(wǎng),基因本體層次結(jié)構(gòu)關(guān)系和已知蛋白質(zhì)功能標(biāo)簽的有向混合圖。蛋表示已知功能關(guān)聯(lián),而它們之間虛線帶“?”的邊表示潛在的蛋白質(zhì)新功
【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 郭茂祖;代啟國;徐立秋;劉曉燕;;一種蛋白質(zhì)復(fù)合體模塊度函數(shù)及其識別算法[J];計算機(jī)研究與發(fā)展;2014年10期

2 李彥輝;郭政;馬文財;楊達(dá);王棟;張敏;朱晶;鐘國才;李永進(jìn);姚晨;王靖;;通過蛋白質(zhì)互作網(wǎng)絡(luò)預(yù)測已知部分功能的蛋白質(zhì)的精細(xì)功能[J];科學(xué)通報;2007年20期

3 高磊;李霞;郭政;朱明珠;李彥輝;饒紹奇;;結(jié)合蛋白質(zhì)互作與基因表達(dá)譜信息大范圍預(yù)測蛋白質(zhì)的精細(xì)功能[J];中國科學(xué)C輯:生命科學(xué);2006年05期



本文編號:2847465

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2847465.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e9a7c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com