基于基因本體結(jié)構(gòu)的蛋白質(zhì)功能預(yù)測(cè)研究
發(fā)布時(shí)間:2020-10-19 16:50
蛋白質(zhì)是生命活動(dòng)的主要物質(zhì)基礎(chǔ),參與并執(zhí)行生物體內(nèi)的各種重要功能。整合海量生物數(shù)據(jù)中的蛋白質(zhì)特征和功能信息并對(duì)蛋白質(zhì)進(jìn)行自動(dòng)且準(zhǔn)確的功能標(biāo)注,可以幫助人類更好地認(rèn)識(shí)和理解生命過程,對(duì)疾病分析、藥物研發(fā)和生物能源開發(fā)等領(lǐng)域的發(fā)展都有極大的推動(dòng)作用。近年來,基于機(jī)器學(xué)習(xí)技術(shù)的蛋白質(zhì)功能預(yù)測(cè)研究受到廣泛的關(guān)注,獲得了較高的精度。但是,這些方法通常假定已有的蛋白質(zhì)功能標(biāo)注信息是完整的,并把蛋白質(zhì)功能預(yù)測(cè)問題建模為一般的多標(biāo)簽學(xué)習(xí)問題,忽略了由于實(shí)驗(yàn)條件限制和生物學(xué)研究熱點(diǎn)等因素造成的功能標(biāo)注不完整性和不平衡性,以及功能標(biāo)簽之間的層次結(jié)構(gòu)關(guān)系在功能預(yù)測(cè)中的重要作用,預(yù)測(cè)精度依然有限。多種異構(gòu)蛋白質(zhì)數(shù)據(jù)源可以轉(zhuǎn)化為蛋白質(zhì)之間的功能關(guān)聯(lián)網(wǎng)絡(luò)克服異構(gòu)性,一些方法通過整合這些關(guān)聯(lián)網(wǎng)絡(luò)提高了功能預(yù)測(cè)精度。然而,這類方法在整合的效率和效果等方面均存在困難。充足的正負(fù)樣例有助于提高分類器的區(qū)分能力進(jìn)而提升預(yù)測(cè)精度,由于負(fù)樣例的缺失,大部分蛋白質(zhì)功能預(yù)測(cè)方法僅能利用蛋白質(zhì)已知的正樣例,或啟發(fā)式地選定負(fù)樣例,極少關(guān)注對(duì)負(fù)樣例的識(shí)別,也限制了預(yù)測(cè)精度。本文針對(duì)蛋白質(zhì)功能預(yù)測(cè)研究中存在的上述問題,以如何結(jié)合基因本體層次結(jié)構(gòu)為出發(fā)點(diǎn),以提高蛋白質(zhì)功能預(yù)測(cè)精度為目標(biāo),以機(jī)器模型構(gòu)建與求解為基本手段,圍繞蛋白質(zhì)缺失功能預(yù)測(cè),負(fù)樣例預(yù)測(cè)和面向多源數(shù)據(jù)集成的蛋白質(zhì)功能預(yù)測(cè)分別展開深入研究,提出一些計(jì)算方法。本文的主要貢獻(xiàn)包括:1、針對(duì)蛋白質(zhì)功能標(biāo)注普遍存在缺失的問題,提出一種基于有向混合圖的蛋白質(zhì)功能預(yù)測(cè)方法(dHG)。dHG針對(duì)蛋白質(zhì)功能標(biāo)簽的不完整性,標(biāo)簽之間層次結(jié)構(gòu)關(guān)系和蛋白質(zhì)缺失標(biāo)注的規(guī)律,設(shè)計(jì)了一種由蛋白質(zhì)互作網(wǎng)和基因本體有向無環(huán)圖構(gòu)成的有向混合圖,并在該混合圖上設(shè)計(jì)有向重啟動(dòng)隨機(jī)游走預(yù)測(cè)蛋白質(zhì)功能。分析表明,dHG不僅能更好地預(yù)測(cè)蛋白質(zhì)缺失功能,還能預(yù)測(cè)功能完全未知蛋白質(zhì)的功能,效率也較以往方法更高。為更進(jìn)一步利用有向混合圖的結(jié)構(gòu)差異性,提出一種基于異步隨機(jī)游走的蛋白質(zhì)功能預(yù)測(cè)方法(NewGOA)。NewGOA不僅考慮了有向混合圖中蛋白質(zhì)互作網(wǎng)和基因本體子圖之間的結(jié)構(gòu)差異性,還考慮了蛋白質(zhì)互作網(wǎng)中的噪聲互作。NewGOA繼承了dHG的所有優(yōu)點(diǎn),實(shí)驗(yàn)表明NewGOA獲得的預(yù)測(cè)精度和效率比dHG和其他相關(guān)方法更高,這些混合圖上的隨機(jī)游走策略還可以推廣應(yīng)用到其他關(guān)聯(lián)預(yù)測(cè)問題中。2、針對(duì)蛋白質(zhì)的負(fù)樣例極少,限制了分類器的區(qū)分性和精度等問題,首先提出一種基于基因本體結(jié)構(gòu)的蛋白質(zhì)負(fù)樣例預(yù)測(cè)方法(NegGOA)。NegGOA分別基于功能層次結(jié)構(gòu)關(guān)聯(lián)和功能共同出現(xiàn)的經(jīng)驗(yàn)條件概率對(duì)蛋白質(zhì)的缺失功能進(jìn)行預(yù)估,再根據(jù)這兩類預(yù)估篩選蛋白質(zhì)的負(fù)樣例功能。分析表明,NegGOA受蛋白質(zhì)功能標(biāo)注的不完整性影響較小,它預(yù)測(cè)的負(fù)樣例不僅錯(cuò)誤率更低,且還能顯著提升蛋白質(zhì)功能預(yù)測(cè)的精度。為進(jìn)一步整合利用蛋白質(zhì)特征信息和已知的少量負(fù)樣例,提出一種基于正負(fù)樣例的蛋白質(zhì)功能預(yù)測(cè)方法(ProPN)。ProPN利用已知的蛋白質(zhì)-功能正負(fù)關(guān)聯(lián)信息、蛋白質(zhì)互作信息和功能標(biāo)簽關(guān)聯(lián)構(gòu)建符號(hào)混合圖,再通過符號(hào)混合圖上的信息傳播算法預(yù)測(cè)蛋白質(zhì)功能。分析表明,ProPN不僅能較好地預(yù)測(cè)蛋白質(zhì)負(fù)樣例,還能預(yù)測(cè)蛋白質(zhì)未知的正樣例。考慮到蛋白質(zhì)功能標(biāo)簽空間巨大,蛋白質(zhì)互作網(wǎng)中存在較多的噪聲互作和缺失互作等現(xiàn)實(shí)困難,本文進(jìn)一步提出一種基于降維的蛋白質(zhì)不相關(guān)功能預(yù)測(cè)方法(IFDR)。IFDR通過在蛋白質(zhì)互作網(wǎng)鄰接矩陣和蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣上分別進(jìn)行隨機(jī)游走,挖掘蛋白質(zhì)之間的內(nèi)在關(guān)系和預(yù)估蛋白質(zhì)的缺失功能標(biāo)簽,再將上述2個(gè)矩陣投影降維為低維實(shí)數(shù)矩陣,再利用半監(jiān)督回歸預(yù)測(cè)負(fù)樣例。在多個(gè)模式的生物蛋白質(zhì)數(shù)據(jù)集上的實(shí)驗(yàn)表明,IFDR比已有相關(guān)算法能夠更準(zhǔn)確地預(yù)測(cè)負(fù)樣例,對(duì)網(wǎng)絡(luò)和標(biāo)簽空間的降維均可以提高負(fù)樣例預(yù)測(cè)精度。3、在基于多源數(shù)據(jù)集成整合預(yù)測(cè)蛋白質(zhì)功能方面,提出一種基于多網(wǎng)絡(luò)語義集成的蛋白質(zhì)功能預(yù)測(cè)方法(SimNet)。SimNet首先利用加權(quán)的重合相似性度量構(gòu)建蛋白質(zhì)之間的語義網(wǎng)絡(luò),再將多個(gè)蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò)向該語義網(wǎng)絡(luò)對(duì)準(zhǔn),進(jìn)而優(yōu)化各個(gè)網(wǎng)絡(luò)的權(quán)重系數(shù)并整合這些網(wǎng)絡(luò)成一個(gè)復(fù)合網(wǎng)絡(luò),再在復(fù)合網(wǎng)絡(luò)上基于局部全局一致性學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)功能。分析表明,SimNet能相對(duì)以往的相關(guān)方法更高效準(zhǔn)確地整合多源數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)功能。為了區(qū)分性地整合多個(gè)網(wǎng)絡(luò),并處理較大的功能標(biāo)簽集合,提出一種基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解的蛋白質(zhì)功能預(yù)測(cè)方法(ProCMF)。ProCMF基于非負(fù)矩陣分解將蛋白質(zhì)功能標(biāo)注矩陣分解為兩個(gè)低秩矩陣,并基于這兩個(gè)低秩矩陣分別定義基于網(wǎng)絡(luò)結(jié)構(gòu)和標(biāo)簽關(guān)聯(lián)的平滑性正則項(xiàng)約束指導(dǎo)矩陣協(xié)同分解,再對(duì)不同網(wǎng)絡(luò)設(shè)置權(quán)重,并把權(quán)重優(yōu)化和功能預(yù)測(cè)統(tǒng)一到一個(gè)目標(biāo)方程中。在酵母菌,人類和老鼠蛋白質(zhì)數(shù)據(jù)集上的實(shí)驗(yàn)證明ProCMF較現(xiàn)有相關(guān)算法能獲得更好的預(yù)測(cè)結(jié)果,并能高效地處理大量存在關(guān)聯(lián)的功能標(biāo)簽,區(qū)分性地整合多個(gè)網(wǎng)絡(luò),且對(duì)輸入?yún)?shù)魯棒。
【學(xué)位單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP18;Q51
【部分圖文】:
通過對(duì)蛋白質(zhì)功能標(biāo)注的準(zhǔn)確預(yù)測(cè),的了解各類蛋白質(zhì)的生物特性,對(duì)藥物開發(fā)、疾病等諸多方面均有著重要的理論和現(xiàn)實(shí)意義,F(xiàn)狀功能預(yù)測(cè)質(zhì)功能預(yù)測(cè)模型通常假設(shè)現(xiàn)有的蛋白質(zhì)功能標(biāo)簽是完功能標(biāo)簽對(duì)未標(biāo)注功能的蛋白質(zhì)進(jìn)行計(jì)算預(yù)測(cè)。然而于資源的限制,實(shí)驗(yàn)方案的局限以及不斷更新的生地在補(bǔ)充和完善。人類蛋白質(zhì)組項(xiàng)目組織也重申我們能知之甚少[25]。圖 1-1 中舉了一個(gè)具體的蛋白質(zhì)功‘GO:0005886’(plasma membrane),‘GO0071944’(cmembrane)是酵母菌蛋白質(zhì)‘YOL086C’與 2016 年 年 7 月的該蛋白質(zhì)標(biāo)簽集合中并沒標(biāo)注。而從圖中三個(gè)功能都是該蛋白質(zhì)已知功能標(biāo)簽節(jié)點(diǎn)的子孫節(jié)點(diǎn)
Ontology(GO,基因本體)不夠齊全且更新迭代較慢,而 GO 已被作為蛋白能標(biāo)注的基準(zhǔn),應(yīng)用更為廣泛。因此,本文的研究也基于 GO 及其提供的蛋白能標(biāo)注文件(GOA)展開。矩陣A的定義如下:1( , )0i t ti t A, 蛋白質(zhì) 標(biāo)注 或者 的子孫節(jié)點(diǎn)功能, 其它(蛋白質(zhì)功能預(yù)測(cè)問題根據(jù)目標(biāo)不同可以分為對(duì)部分功能已知的蛋白質(zhì)進(jìn)能預(yù)測(cè)和對(duì)功能完全未知的蛋白質(zhì)進(jìn)行功能預(yù)測(cè)。對(duì)功能完全未知的蛋白質(zhì)根據(jù)其特征屬性計(jì)算與其它特征相似蛋白質(zhì)的關(guān)聯(lián),從而達(dá)到功能預(yù)測(cè)[7,15,22-24];而部分功能已知蛋白質(zhì)進(jìn)行功能預(yù)測(cè),不僅需要利用其特征數(shù)據(jù)考慮蛋白質(zhì)已知功能在基因本體上的層次結(jié)構(gòu)信息,計(jì)算該蛋白質(zhì)缺失功能在性,從而進(jìn)行預(yù)測(cè)[4,8,9,13]。而蛋白質(zhì)負(fù)樣例功能預(yù)測(cè)問題不同于蛋白質(zhì)功能預(yù)測(cè),其目標(biāo)是標(biāo)簽出蛋白質(zhì)不會(huì)帶有某一類功能,即將關(guān)聯(lián)矩陣 中的 0 更新為-1,后者是將關(guān)中的 0 更新為 1,顯示表明某個(gè)蛋白質(zhì)具有某一功能,也不同于蛋白質(zhì)噪標(biāo)簽識(shí)別,它是將將關(guān)聯(lián)矩陣 A中的相應(yīng)元素從 1 更新為 0,從而剔除噪聲
上側(cè)的子圖即為一個(gè) GO 有向無環(huán)圖的簡(jiǎn)單示例,子圖節(jié)點(diǎn),節(jié)點(diǎn)間的有向箭頭表示標(biāo)簽之間的層次結(jié)構(gòu)關(guān)系3 的父節(jié)點(diǎn),GO1 為 GO4 的祖先節(jié)點(diǎn)。下側(cè)的子圖為一圖中每個(gè)矩形表示一個(gè)蛋白質(zhì)節(jié)點(diǎn),節(jié)點(diǎn)的連線表示蛋互作的強(qiáng)度或置信度。蛋白質(zhì)的功能標(biāo)簽信息通過功能表示,其中實(shí)線表示蛋白質(zhì)已知的功能標(biāo)簽信息,帶“?能標(biāo)簽(蛋白質(zhì)實(shí)際應(yīng)具有該功能,但該功能尚未被標(biāo)失的功能標(biāo)簽稱為蛋白質(zhì)的新功能。為了簡(jiǎn)潔,完全未5)的新功能標(biāo)簽并未在圖中體現(xiàn)?梢园l(fā)現(xiàn),每個(gè)蛋白定義一個(gè)層次結(jié)構(gòu)圖,該蛋白質(zhì)的缺失功能標(biāo)簽只能是節(jié)點(diǎn)。如 P2 的層次結(jié)構(gòu)圖由 GO2 和 GO3 構(gòu)成,它的O3 的子孫節(jié)點(diǎn)。這些缺失功能是蛋白質(zhì)已知功能的進(jìn)一質(zhì)互作網(wǎng),基因本體層次結(jié)構(gòu)關(guān)系和已知蛋白質(zhì)功能標(biāo)簽的有向混合圖。蛋表示已知功能關(guān)聯(lián),而它們之間虛線帶“?”的邊表示潛在的蛋白質(zhì)新功
【參考文獻(xiàn)】
本文編號(hào):2847465
【學(xué)位單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP18;Q51
【部分圖文】:
通過對(duì)蛋白質(zhì)功能標(biāo)注的準(zhǔn)確預(yù)測(cè),的了解各類蛋白質(zhì)的生物特性,對(duì)藥物開發(fā)、疾病等諸多方面均有著重要的理論和現(xiàn)實(shí)意義,F(xiàn)狀功能預(yù)測(cè)質(zhì)功能預(yù)測(cè)模型通常假設(shè)現(xiàn)有的蛋白質(zhì)功能標(biāo)簽是完功能標(biāo)簽對(duì)未標(biāo)注功能的蛋白質(zhì)進(jìn)行計(jì)算預(yù)測(cè)。然而于資源的限制,實(shí)驗(yàn)方案的局限以及不斷更新的生地在補(bǔ)充和完善。人類蛋白質(zhì)組項(xiàng)目組織也重申我們能知之甚少[25]。圖 1-1 中舉了一個(gè)具體的蛋白質(zhì)功‘GO:0005886’(plasma membrane),‘GO0071944’(cmembrane)是酵母菌蛋白質(zhì)‘YOL086C’與 2016 年 年 7 月的該蛋白質(zhì)標(biāo)簽集合中并沒標(biāo)注。而從圖中三個(gè)功能都是該蛋白質(zhì)已知功能標(biāo)簽節(jié)點(diǎn)的子孫節(jié)點(diǎn)
Ontology(GO,基因本體)不夠齊全且更新迭代較慢,而 GO 已被作為蛋白能標(biāo)注的基準(zhǔn),應(yīng)用更為廣泛。因此,本文的研究也基于 GO 及其提供的蛋白能標(biāo)注文件(GOA)展開。矩陣A的定義如下:1( , )0i t ti t A, 蛋白質(zhì) 標(biāo)注 或者 的子孫節(jié)點(diǎn)功能, 其它(蛋白質(zhì)功能預(yù)測(cè)問題根據(jù)目標(biāo)不同可以分為對(duì)部分功能已知的蛋白質(zhì)進(jìn)能預(yù)測(cè)和對(duì)功能完全未知的蛋白質(zhì)進(jìn)行功能預(yù)測(cè)。對(duì)功能完全未知的蛋白質(zhì)根據(jù)其特征屬性計(jì)算與其它特征相似蛋白質(zhì)的關(guān)聯(lián),從而達(dá)到功能預(yù)測(cè)[7,15,22-24];而部分功能已知蛋白質(zhì)進(jìn)行功能預(yù)測(cè),不僅需要利用其特征數(shù)據(jù)考慮蛋白質(zhì)已知功能在基因本體上的層次結(jié)構(gòu)信息,計(jì)算該蛋白質(zhì)缺失功能在性,從而進(jìn)行預(yù)測(cè)[4,8,9,13]。而蛋白質(zhì)負(fù)樣例功能預(yù)測(cè)問題不同于蛋白質(zhì)功能預(yù)測(cè),其目標(biāo)是標(biāo)簽出蛋白質(zhì)不會(huì)帶有某一類功能,即將關(guān)聯(lián)矩陣 中的 0 更新為-1,后者是將關(guān)中的 0 更新為 1,顯示表明某個(gè)蛋白質(zhì)具有某一功能,也不同于蛋白質(zhì)噪標(biāo)簽識(shí)別,它是將將關(guān)聯(lián)矩陣 A中的相應(yīng)元素從 1 更新為 0,從而剔除噪聲
上側(cè)的子圖即為一個(gè) GO 有向無環(huán)圖的簡(jiǎn)單示例,子圖節(jié)點(diǎn),節(jié)點(diǎn)間的有向箭頭表示標(biāo)簽之間的層次結(jié)構(gòu)關(guān)系3 的父節(jié)點(diǎn),GO1 為 GO4 的祖先節(jié)點(diǎn)。下側(cè)的子圖為一圖中每個(gè)矩形表示一個(gè)蛋白質(zhì)節(jié)點(diǎn),節(jié)點(diǎn)的連線表示蛋互作的強(qiáng)度或置信度。蛋白質(zhì)的功能標(biāo)簽信息通過功能表示,其中實(shí)線表示蛋白質(zhì)已知的功能標(biāo)簽信息,帶“?能標(biāo)簽(蛋白質(zhì)實(shí)際應(yīng)具有該功能,但該功能尚未被標(biāo)失的功能標(biāo)簽稱為蛋白質(zhì)的新功能。為了簡(jiǎn)潔,完全未5)的新功能標(biāo)簽并未在圖中體現(xiàn)?梢园l(fā)現(xiàn),每個(gè)蛋白定義一個(gè)層次結(jié)構(gòu)圖,該蛋白質(zhì)的缺失功能標(biāo)簽只能是節(jié)點(diǎn)。如 P2 的層次結(jié)構(gòu)圖由 GO2 和 GO3 構(gòu)成,它的O3 的子孫節(jié)點(diǎn)。這些缺失功能是蛋白質(zhì)已知功能的進(jìn)一質(zhì)互作網(wǎng),基因本體層次結(jié)構(gòu)關(guān)系和已知蛋白質(zhì)功能標(biāo)簽的有向混合圖。蛋表示已知功能關(guān)聯(lián),而它們之間虛線帶“?”的邊表示潛在的蛋白質(zhì)新功
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 郭茂祖;代啟國(guó);徐立秋;劉曉燕;;一種蛋白質(zhì)復(fù)合體模塊度函數(shù)及其識(shí)別算法[J];計(jì)算機(jī)研究與發(fā)展;2014年10期
2 李彥輝;郭政;馬文財(cái);楊達(dá);王棟;張敏;朱晶;鐘國(guó)才;李永進(jìn);姚晨;王靖;;通過蛋白質(zhì)互作網(wǎng)絡(luò)預(yù)測(cè)已知部分功能的蛋白質(zhì)的精細(xì)功能[J];科學(xué)通報(bào);2007年20期
3 高磊;李霞;郭政;朱明珠;李彥輝;饒紹奇;;結(jié)合蛋白質(zhì)互作與基因表達(dá)譜信息大范圍預(yù)測(cè)蛋白質(zhì)的精細(xì)功能[J];中國(guó)科學(xué)C輯:生命科學(xué);2006年05期
本文編號(hào):2847465
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2847465.html
最近更新
教材專著