Hub蛋白質(zhì)相互作用結(jié)合面預(yù)測(cè)方法研究
發(fā)布時(shí)間:2020-06-10 04:48
【摘要】:蛋白質(zhì)相互作用中的Hub蛋白質(zhì)是協(xié)調(diào)蛋白質(zhì)相互作用并發(fā)揮生物學(xué)功能的關(guān)鍵因素,它有助于解釋蛋白質(zhì)發(fā)揮其生物學(xué)功能的分子機(jī)制,進(jìn)一步理解生命活動(dòng)的微觀過(guò)程,并對(duì)基于蛋白質(zhì)結(jié)構(gòu)的藥物設(shè)計(jì)提供理論指導(dǎo)。蛋白質(zhì)相互作用結(jié)合面上某些熱點(diǎn)殘基對(duì)結(jié)合自由能的貢獻(xiàn)較大。熱點(diǎn)殘基在蛋白質(zhì)結(jié)合面上形成緊密堆積的熱區(qū)。熱區(qū)是受體與高親和力配體結(jié)合的重要區(qū)域,也是促進(jìn)蛋白質(zhì)相互作用穩(wěn)定性的特定功能區(qū)域。因此,研究Hub蛋白質(zhì)相互作用結(jié)合面上的熱點(diǎn)和熱區(qū),以及不同類型的Hub蛋白質(zhì)相互作用結(jié)合面,對(duì)于理解蛋白質(zhì)的功能是非常重要的。雖然,越來(lái)越多的蛋白質(zhì)結(jié)構(gòu)和屬性被發(fā)現(xiàn),但是大量的信息是冗余的,導(dǎo)致使用傳統(tǒng)方法研究Hub蛋白質(zhì)相互作用結(jié)合面極其困難。高質(zhì)量的預(yù)測(cè)模型和高效的計(jì)算方法顯得尤為重要。本文利用集成學(xué)習(xí)和聚類方法對(duì)Hub蛋白質(zhì)相互作用結(jié)合面開展了一些研究工作,主要內(nèi)容包括:(1)基于相關(guān)系數(shù)的特征選擇方法首先,利用皮爾森相關(guān)系數(shù)對(duì)特征子集進(jìn)行評(píng)價(jià),獲得高度相關(guān)的特征屬性,并將相關(guān)系數(shù)矩陣進(jìn)行可視化處理,移除一些高度關(guān)聯(lián)的特征屬性。為了將具有相關(guān)模式的變量聚集在一起,采用主成分分析法(PCA)對(duì)相關(guān)系數(shù)圖中矩陣的行和列進(jìn)行重新排序。接著采用基于支持向量機(jī)的遞歸特征剔除方法(SVM-RFE)進(jìn)行反向特征篩選,獲得最優(yōu)特征子集。通過(guò)該方法,無(wú)關(guān)的特征可以去除,且不會(huì)造成大量的信息丟失。(2)基于集成學(xué)習(xí)的Hub蛋白質(zhì)結(jié)合面熱點(diǎn)預(yù)測(cè)方法為了有效地預(yù)測(cè)Hub蛋白質(zhì)結(jié)合面上的熱點(diǎn),并對(duì)不同類型的Hub蛋白質(zhì)結(jié)合面進(jìn)行分類,本文首先采用三個(gè)集成學(xué)習(xí)方法Boosting、Gradient Boosting和隨機(jī)森林在不同的數(shù)據(jù)集上建立訓(xùn)練模型,并采用十折交叉驗(yàn)證進(jìn)行評(píng)估。然后,將三種集成學(xué)習(xí)方法用到Hub蛋白質(zhì)結(jié)合面的熱點(diǎn)預(yù)測(cè)中,并采用相互作用傾向性優(yōu)化策略計(jì)算Hub蛋白質(zhì)的傾向性系數(shù),對(duì)傾向性系數(shù)較高的DD結(jié)合面(DateHub-DateHub)和PP結(jié)合面(PartyHub-PartyHub)進(jìn)行分類。為了評(píng)估分類模型的性能,利用平均精確率下降曲線和平均基尼系數(shù)下降曲線對(duì)特征變量的重要性進(jìn)行分析,并繪制邊緣分布圖來(lái)度量分類模型的確定性。實(shí)驗(yàn)結(jié)果表明,基于相互作用傾向性的隨機(jī)森林方法的誤判率較低,模型的分類結(jié)果有較高的可信度。(3)基于局部社區(qū)結(jié)構(gòu)探測(cè)的Hub蛋白質(zhì)結(jié)合面熱區(qū)預(yù)測(cè)方法采用基于局部社區(qū)結(jié)構(gòu)探測(cè)(LCSD)的聚類方法預(yù)測(cè)Hub蛋白質(zhì)結(jié)合面上的熱區(qū)結(jié)構(gòu)。首先,利用基于聚類的邊界點(diǎn)識(shí)別方法劃分社區(qū),并通過(guò)對(duì)勢(shì)和相對(duì)可及表面積優(yōu)化策略(PPRA)對(duì)熱區(qū)結(jié)果進(jìn)行優(yōu)化。然后,通過(guò)丟失殘基優(yōu)化策略,對(duì)丟失的蛋白質(zhì)殘基重新處理,從而得到最終的熱區(qū)。實(shí)驗(yàn)結(jié)果表明LCSD方法預(yù)測(cè)熱區(qū)是可行和有效的,精度得到了較好的提升。(4)基于殘基配位數(shù)優(yōu)化和K-means的Hub蛋白質(zhì)結(jié)合面熱區(qū)預(yù)測(cè)方法利用K-means聚類方法預(yù)測(cè)Hub蛋白質(zhì)結(jié)合面上的熱區(qū)結(jié)構(gòu)。首先,為了提高K-means聚類算法的效率,通過(guò)計(jì)算距離平方和以及平均輪廓值來(lái)確定能夠得到最佳聚類結(jié)果的k值。然后,用殘基配位數(shù)優(yōu)化(RCNO)策略計(jì)算平均配位數(shù),同時(shí),根據(jù)對(duì)勢(shì)和相對(duì)可及表面積(PPRA),對(duì)識(shí)別的熱區(qū)進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,殘基配位數(shù)優(yōu)化策略對(duì)預(yù)測(cè)熱區(qū)的個(gè)數(shù)沒(méi)有影響,但在預(yù)測(cè)的熱區(qū)內(nèi)部,熱點(diǎn)殘基數(shù)量增加,非熱點(diǎn)殘基數(shù)目減少,預(yù)測(cè)出來(lái)的熱區(qū)與標(biāo)準(zhǔn)熱區(qū)更為接近。綜上所述,本文基于新的特征選擇方法,采用三種集成學(xué)習(xí)和兩種聚類方法對(duì)Hub蛋白質(zhì)結(jié)合面上的熱點(diǎn)殘基和熱區(qū)結(jié)構(gòu)進(jìn)行預(yù)測(cè),并通過(guò)多種優(yōu)化策略進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,使用本文方法所創(chuàng)建的模型具有較高的確定性,對(duì)預(yù)測(cè)Hub蛋白質(zhì)結(jié)合面是有效的。
【學(xué)位授予單位】:武漢科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q51
本文編號(hào):2705794
【學(xué)位授予單位】:武漢科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q51
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 張?chǎng)?劉秉權(quán);王曉龍;;復(fù)雜網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2015年24期
2 尹穩(wěn);伏旭;李平;;蛋白質(zhì)組學(xué)的應(yīng)用研究進(jìn)展[J];生物技術(shù)通報(bào);2014年01期
3 龐爾麗;;蛋白質(zhì)相互作用研究進(jìn)展[J];生物學(xué)通報(bào);2012年11期
4 張長(zhǎng)勝;來(lái)魯華;;蛋白質(zhì)相互作用預(yù)測(cè)、設(shè)計(jì)與調(diào)控[J];物理化學(xué)學(xué)報(bào);2012年10期
5 白紅軍;來(lái)魯華;;蛋白質(zhì)相互作用:界面分析,結(jié)合自由能計(jì)算與相互作用設(shè)計(jì)[J];物理化學(xué)學(xué)報(bào);2010年07期
6 王靖;李霞;朱明珠;肖雪;;人類蛋白質(zhì)互作網(wǎng)絡(luò)hub蛋白與其結(jié)構(gòu)域關(guān)聯(lián)分析[J];生命科學(xué)研究;2008年03期
,本文編號(hào):2705794
本文鏈接:http://sikaile.net/projectlw/swxlw/2705794.html
最近更新
教材專著