基于GBM算法識別蛋白質(zhì)中金屬離子配體的結(jié)合殘基
發(fā)布時間:2020-04-12 19:28
【摘要】:蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),在不同的生命過程中實現(xiàn)了不同的特殊功能。然而,許多蛋白質(zhì)功能的實現(xiàn)需要結(jié)合特定的配體,超過三分之一的蛋白質(zhì)需要與金屬離子配體結(jié)合,因此金屬離子配體對蛋白質(zhì)功能的實現(xiàn)起著重要作用,正確識別蛋白質(zhì)中金屬離子配體的結(jié)合殘基對人體健康及分子藥物設(shè)計有重要意義。通過實驗識別金屬離子配體的結(jié)合殘基費時耗材,且不能批量處理數(shù)據(jù),所以利用理論計算的方法準確識別蛋白質(zhì)中金屬離子配體的結(jié)合殘基顯得尤為重要。此外,不是所有的蛋白質(zhì)都有三維結(jié)構(gòu)信息,因此本文從蛋白質(zhì)的序列信息出發(fā),對金屬離子配體的結(jié)合殘基進行了統(tǒng)計分析和預(yù)測,主要工作如下:(1)以10種金屬離子配體Zn~(2+)、Cu~(2+)、Fe~(2+)、Fe~(3+)、Co~(2+)、Ca~(2+)、Mg~(2+)、Mn~(2+)、Na~+和K~+的結(jié)合殘基為研究對象,根據(jù)前人的研究及蛋白質(zhì)的生物學(xué)背景知識,選取了氨基酸殘基、親疏水、極化電荷、預(yù)測的二級結(jié)構(gòu)以及相對溶劑可及性信息作為特征參數(shù),通過對相對溶劑可及性信息進行統(tǒng)計分析,將相對溶劑可及性進行了重新分類,得到了4種不同的分類(SA_2、SA_V、SA_P、SA_4)。(2)以位點氨基酸、位點親疏水、位點電荷、位點二級結(jié)構(gòu)和位點相對溶劑可及性保守信息為基礎(chǔ)特征,利用位置權(quán)重矩陣分別得到了2L維特征參數(shù);將相對溶劑可及性4種不同分類分別對應(yīng)的5*2L維特征參數(shù)輸入梯度提升算法(GBM)對10種金屬離子配體結(jié)合殘基進行識別,根據(jù)最優(yōu)的預(yù)測結(jié)果,我們得到了10種金屬離子配體相對應(yīng)的相對溶劑可及性的最優(yōu)分類;5交叉檢驗下得到的最優(yōu)預(yù)測結(jié)果好于前人的預(yù)測結(jié)果,預(yù)測總精度(Acc)和馬氏相關(guān)系數(shù)(MCC)均高于77.9%和0.558。而且以降維之后的特征子集為特征參數(shù),也得到了好于前人的預(yù)測結(jié)果,說明構(gòu)建的預(yù)測模型穩(wěn)定性較好。為了檢驗預(yù)測模型的實用性,對金屬離子配體的預(yù)測模型進行了獨立檢驗,得到了較好的預(yù)測結(jié)果。實驗結(jié)果說明本文構(gòu)建的預(yù)測模型對金屬離子配體結(jié)合殘基有較好的識別能力。(3)利用離散增量算法和位置權(quán)重矩陣打分算法分別對氨基酸、親疏水、極化電荷、二級結(jié)構(gòu)和相對溶劑可及性的組分信息和位點保守信息進行降維處理,得到了20維組合信息。以組合信息為特征參數(shù),基于算法參數(shù)優(yōu)化設(shè)置的GBM算法,給出了10種金屬離子配體分別對應(yīng)的最優(yōu)算法參數(shù)以及最優(yōu)預(yù)測結(jié)果。同時計算了以5*2L維位點保守信息為特征參數(shù),GBM在算法參數(shù)優(yōu)化設(shè)置下10種金屬離子配體結(jié)合殘基的預(yù)測結(jié)果,預(yù)測結(jié)果進一步說明GBM中算法參數(shù)的優(yōu)化設(shè)置是很重要的。
【圖文】:
氨基酸組分信息在配體結(jié)合殘基的識別工作中應(yīng)用廣泛[23,24][45],而且對配體結(jié)合殘基的分類預(yù)測取得了較好的效果,所以本文對金屬離子配體的氨基酸組分信息進行了統(tǒng)計分析,以 K+配體為例,我們統(tǒng)計了 20 種氨基酸在 K+配體正負集樣本中的分布,對應(yīng)的小提琴圖見圖 2-1。小提琴圖是核密度圖在箱線圖上的疊加,結(jié)合了核密度圖和箱線圖的特征主要用來顯示數(shù)據(jù)的分布情況。外層的核密度圖表示核密度估計,而內(nèi)部的箱線圖中有五個統(tǒng)計量,最大值、上四分位數(shù)、中位數(shù)、下四分位數(shù)、最小值,這些數(shù)值給出了集中性、分散性、極端數(shù)據(jù)的分布情況,其中白點是中位數(shù),,黑色盒型的范圍是下四分位數(shù)到上四分位數(shù),代表氨基酸的集中分布區(qū)間。每組圖中左邊為某一氨基酸在負集樣本中出現(xiàn)的組分信息,右邊為該種氨基酸在正集樣本中出現(xiàn)的組分信息,縱坐標為該種氨基酸出現(xiàn)的頻數(shù)。由圖 2-1 可以明顯看出:D(天冬氨酸)、E(谷氨酸)、G(甘氨酸)、L(亮氨酸)Q(谷酰胺)、S(絲氨酸)和 T(蘇氨酸)在 K+配體正負集樣本中的分布密度、集中分布區(qū)間和極端數(shù)據(jù)不同。
第二章 數(shù)據(jù)的統(tǒng)計分析和算法的介紹的箱線圖可以看出,正負集樣本的集中分布區(qū)間不同,負集樣本中數(shù)據(jù)的集中分布區(qū)間為下四位數(shù)到中位數(shù),即[0,1],而正集樣本的集中區(qū)間為下四分位數(shù)到上四分位數(shù),即[0,2]。同樣的,L(亮氨酸)在正負集樣本中的分布也存在較大差異。
【學(xué)位授予單位】:內(nèi)蒙古工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q51;TP301.6
本文編號:2625097
【圖文】:
氨基酸組分信息在配體結(jié)合殘基的識別工作中應(yīng)用廣泛[23,24][45],而且對配體結(jié)合殘基的分類預(yù)測取得了較好的效果,所以本文對金屬離子配體的氨基酸組分信息進行了統(tǒng)計分析,以 K+配體為例,我們統(tǒng)計了 20 種氨基酸在 K+配體正負集樣本中的分布,對應(yīng)的小提琴圖見圖 2-1。小提琴圖是核密度圖在箱線圖上的疊加,結(jié)合了核密度圖和箱線圖的特征主要用來顯示數(shù)據(jù)的分布情況。外層的核密度圖表示核密度估計,而內(nèi)部的箱線圖中有五個統(tǒng)計量,最大值、上四分位數(shù)、中位數(shù)、下四分位數(shù)、最小值,這些數(shù)值給出了集中性、分散性、極端數(shù)據(jù)的分布情況,其中白點是中位數(shù),,黑色盒型的范圍是下四分位數(shù)到上四分位數(shù),代表氨基酸的集中分布區(qū)間。每組圖中左邊為某一氨基酸在負集樣本中出現(xiàn)的組分信息,右邊為該種氨基酸在正集樣本中出現(xiàn)的組分信息,縱坐標為該種氨基酸出現(xiàn)的頻數(shù)。由圖 2-1 可以明顯看出:D(天冬氨酸)、E(谷氨酸)、G(甘氨酸)、L(亮氨酸)Q(谷酰胺)、S(絲氨酸)和 T(蘇氨酸)在 K+配體正負集樣本中的分布密度、集中分布區(qū)間和極端數(shù)據(jù)不同。
第二章 數(shù)據(jù)的統(tǒng)計分析和算法的介紹的箱線圖可以看出,正負集樣本的集中分布區(qū)間不同,負集樣本中數(shù)據(jù)的集中分布區(qū)間為下四位數(shù)到中位數(shù),即[0,1],而正集樣本的集中區(qū)間為下四分位數(shù)到上四分位數(shù),即[0,2]。同樣的,L(亮氨酸)在正負集樣本中的分布也存在較大差異。
【學(xué)位授予單位】:內(nèi)蒙古工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q51;TP301.6
【相似文獻】
相關(guān)碩士學(xué)位論文 前2條
1 張曉瑾;基于GBM算法識別蛋白質(zhì)中金屬離子配體的結(jié)合殘基[D];內(nèi)蒙古工業(yè)大學(xué);2019年
2 吳潤林;基于GBM算法預(yù)測蛋白質(zhì)琥珀;稽c的研究與實現(xiàn)[D];遼寧大學(xué);2017年
本文編號:2625097
本文鏈接:http://sikaile.net/projectlw/swxlw/2625097.html
最近更新
教材專著