基于GBM算法識(shí)別蛋白質(zhì)中金屬離子配體的結(jié)合殘基

發(fā)布時(shí)間：2020-04-12 19:28

【摘要】：蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),在不同的生命過(guò)程中實(shí)現(xiàn)了不同的特殊功能。然而,許多蛋白質(zhì)功能的實(shí)現(xiàn)需要結(jié)合特定的配體,超過(guò)三分之一的蛋白質(zhì)需要與金屬離子配體結(jié)合,因此金屬離子配體對(duì)蛋白質(zhì)功能的實(shí)現(xiàn)起著重要作用,正確識(shí)別蛋白質(zhì)中金屬離子配體的結(jié)合殘基對(duì)人體健康及分子藥物設(shè)計(jì)有重要意義。通過(guò)實(shí)驗(yàn)識(shí)別金屬離子配體的結(jié)合殘基費(fèi)時(shí)耗材,且不能批量處理數(shù)據(jù),所以利用理論計(jì)算的方法準(zhǔn)確識(shí)別蛋白質(zhì)中金屬離子配體的結(jié)合殘基顯得尤為重要。此外,不是所有的蛋白質(zhì)都有三維結(jié)構(gòu)信息,因此本文從蛋白質(zhì)的序列信息出發(fā),對(duì)金屬離子配體的結(jié)合殘基進(jìn)行了統(tǒng)計(jì)分析和預(yù)測(cè),主要工作如下:(1)以10種金屬離子配體Zn~(2+)、Cu~(2+)、Fe~(2+)、Fe~(3+)、Co~(2+)、Ca~(2+)、Mg~(2+)、Mn~(2+)、Na~+和K~+的結(jié)合殘基為研究對(duì)象,根據(jù)前人的研究及蛋白質(zhì)的生物學(xué)背景知識(shí),選取了氨基酸殘基、親疏水、極化電荷、預(yù)測(cè)的二級(jí)結(jié)構(gòu)以及相對(duì)溶劑可及性信息作為特征參數(shù),通過(guò)對(duì)相對(duì)溶劑可及性信息進(jìn)行統(tǒng)計(jì)分析,將相對(duì)溶劑可及性進(jìn)行了重新分類,得到了4種不同的分類(SA_2、SA_V、SA_P、SA_4)。(2)以位點(diǎn)氨基酸、位點(diǎn)親疏水、位點(diǎn)電荷、位點(diǎn)二級(jí)結(jié)構(gòu)和位點(diǎn)相對(duì)溶劑可及性保守信息為基礎(chǔ)特征,利用位置權(quán)重矩陣分別得到了2L維特征參數(shù);將相對(duì)溶劑可及性4種不同分類分別對(duì)應(yīng)的5*2L維特征參數(shù)輸入梯度提升算法(GBM)對(duì)10種金屬離子配體結(jié)合殘基進(jìn)行識(shí)別,根據(jù)最優(yōu)的預(yù)測(cè)結(jié)果,我們得到了10種金屬離子配體相對(duì)應(yīng)的相對(duì)溶劑可及性的最優(yōu)分類;5交叉檢驗(yàn)下得到的最優(yōu)預(yù)測(cè)結(jié)果好于前人的預(yù)測(cè)結(jié)果,預(yù)測(cè)總精度(Acc)和馬氏相關(guān)系數(shù)(MCC)均高于77.9%和0.558。而且以降維之后的特征子集為特征參數(shù),也得到了好于前人的預(yù)測(cè)結(jié)果,說(shuō)明構(gòu)建的預(yù)測(cè)模型穩(wěn)定性較好。為了檢驗(yàn)預(yù)測(cè)模型的實(shí)用性,對(duì)金屬離子配體的預(yù)測(cè)模型進(jìn)行了獨(dú)立檢驗(yàn),得到了較好的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果說(shuō)明本文構(gòu)建的預(yù)測(cè)模型對(duì)金屬離子配體結(jié)合殘基有較好的識(shí)別能力。(3)利用離散增量算法和位置權(quán)重矩陣打分算法分別對(duì)氨基酸、親疏水、極化電荷、二級(jí)結(jié)構(gòu)和相對(duì)溶劑可及性的組分信息和位點(diǎn)保守信息進(jìn)行降維處理,得到了20維組合信息。以組合信息為特征參數(shù),基于算法參數(shù)優(yōu)化設(shè)置的GBM算法,給出了10種金屬離子配體分別對(duì)應(yīng)的最優(yōu)算法參數(shù)以及最優(yōu)預(yù)測(cè)結(jié)果。同時(shí)計(jì)算了以5*2L維位點(diǎn)保守信息為特征參數(shù),GBM在算法參數(shù)優(yōu)化設(shè)置下10種金屬離子配體結(jié)合殘基的預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果進(jìn)一步說(shuō)明GBM中算法參數(shù)的優(yōu)化設(shè)置是很重要的。
【圖文】：

分布情況,集樣,配體,氨基酸

氨基酸組分信息在配體結(jié)合殘基的識(shí)別工作中應(yīng)用廣泛[23,24][45]，而且對(duì)配體結(jié)合殘基的分類預(yù)測(cè)取得了較好的效果，所以本文對(duì)金屬離子配體的氨基酸組分信息進(jìn)行了統(tǒng)計(jì)分析，以 K+配體為例，我們統(tǒng)計(jì)了 20 種氨基酸在 K+配體正負(fù)集樣本中的分布，對(duì)應(yīng)的小提琴圖見(jiàn)圖 2-1。小提琴圖是核密度圖在箱線圖上的疊加，結(jié)合了核密度圖和箱線圖的特征主要用來(lái)顯示數(shù)據(jù)的分布情況。外層的核密度圖表示核密度估計(jì)，而內(nèi)部的箱線圖中有五個(gè)統(tǒng)計(jì)量，最大值、上四分位數(shù)、中位數(shù)、下四分位數(shù)、最小值，這些數(shù)值給出了集中性、分散性、極端數(shù)據(jù)的分布情況，其中白點(diǎn)是中位數(shù)，，黑色盒型的范圍是下四分位數(shù)到上四分位數(shù)，代表氨基酸的集中分布區(qū)間。每組圖中左邊為某一氨基酸在負(fù)集樣本中出現(xiàn)的組分信息，右邊為該種氨基酸在正集樣本中出現(xiàn)的組分信息，縱坐標(biāo)為該種氨基酸出現(xiàn)的頻數(shù)。由圖 2-1 可以明顯看出：D(天冬氨酸)、E(谷氨酸)、G(甘氨酸)、L(亮氨酸)Q(谷酰胺)、S(絲氨酸)和 T(蘇氨酸)在 K+配體正負(fù)集樣本中的分布密度、集中分布區(qū)間和極端數(shù)據(jù)不同。

集樣,亮氨酸,甘氨酸,配體

第二章數(shù)據(jù)的統(tǒng)計(jì)分析和算法的介紹的箱線圖可以看出，正負(fù)集樣本的集中分布區(qū)間不同，負(fù)集樣本中數(shù)據(jù)的集中分布區(qū)間為下四位數(shù)到中位數(shù)，即[0,1]，而正集樣本的集中區(qū)間為下四分位數(shù)到上四分位數(shù)，即[0,2]。同樣的，L(亮氨酸)在正負(fù)集樣本中的分布也存在較大差異。
【學(xué)位授予單位】：內(nèi)蒙古工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類號(hào)】：Q51;TP301.6

【相似文獻(xiàn)】

相關(guān)碩士學(xué)位論文前2條

1 張曉瑾;基于GBM算法識(shí)別蛋白質(zhì)中金屬離子配體的結(jié)合殘基[D];內(nèi)蒙古工業(yè)大學(xué);2019年

2 吳潤(rùn)林;基于GBM算法預(yù)測(cè)蛋白質(zhì)琥珀酰化位點(diǎn)的研究與實(shí)現(xiàn)[D];遼寧大學(xué);2017年

本文編號(hào)：2625097

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/projectlw/swxlw/2625097.html

上一篇：根瘤菌屬五個(gè)新種的多相分類研究
下一篇：滇東湖泊水生植物和浮游生物碳、氮穩(wěn)定同位素與元素的地理分布特征研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于GBM算法識(shí)別蛋白質(zhì)中金屬離子配體的結(jié)合殘基