蛋白質(zhì)突變位點(diǎn)數(shù)據(jù)庫的構(gòu)建及位點(diǎn)預(yù)測研究
發(fā)布時(shí)間:2020-05-21 17:12
【摘要】:隨著生物數(shù)據(jù)不斷地增長,研究人員開始借助于計(jì)算機(jī)來分析海量的生物學(xué)數(shù)據(jù)。蛋白質(zhì)的研究一直是熱門話題,研究深度逐漸拓寬。隨著越來越多的蛋白質(zhì)結(jié)構(gòu)被解析,研究人員獲得了大量的蛋白質(zhì)晶體,也為研究蛋白質(zhì)-蛋白質(zhì)相互作用提供生物學(xué)數(shù)據(jù)支持。蛋白質(zhì)-蛋白質(zhì)相互作用通過控制細(xì)胞內(nèi)外的生物學(xué)通路從而對生命活動(dòng)的完整性產(chǎn)生重大影響。而熱點(diǎn)殘基扮演著蛋白質(zhì)間相互作用界面的功能性位點(diǎn)的角色,并且對整個(gè)相互作用過程有著調(diào)節(jié)功能。近些年來,研究人員借助解析熱點(diǎn)殘基的研究工作,來進(jìn)一步研究蛋白質(zhì)間相互作用在細(xì)胞生命活動(dòng)中的影響。本文首先收集蛋白質(zhì)間相互作用的相關(guān)生物學(xué)數(shù)據(jù),構(gòu)建一個(gè)突變蛋白質(zhì)間相互作用動(dòng)力學(xué)和熱力學(xué)數(shù)據(jù)庫,并在此基礎(chǔ)上,構(gòu)建集成機(jī)器學(xué)習(xí)自相關(guān)模型來預(yù)測蛋白質(zhì)復(fù)合物界面處的熱點(diǎn)殘基。具體的研究內(nèi)容總結(jié)如下:1、構(gòu)建突變蛋白質(zhì)間相互作用動(dòng)力學(xué)和熱力學(xué)數(shù)據(jù)庫;谙惹把芯空哒硎占臄(shù)據(jù)庫,從以下兩個(gè)方面來收集數(shù)據(jù)。首先,收集并整合以前的數(shù)據(jù)庫并獲得部分的數(shù)據(jù)。這些數(shù)據(jù)庫收集和儲存突變蛋白的熱力學(xué)和動(dòng)力學(xué)數(shù)據(jù),包括SKEMPI,BID和AB-Bind。其次,再利用文獻(xiàn)挖掘獲取近三年新增的突變蛋白質(zhì)的熱力學(xué)和動(dòng)力學(xué)數(shù)據(jù)。進(jìn)行文獻(xiàn)搜索時(shí),本文基于兩點(diǎn)進(jìn)行考慮。第一點(diǎn),從蛋白質(zhì)結(jié)構(gòu)開始,通過搜索關(guān)鍵詞來鎖定蛋白質(zhì)復(fù)合物,將這些蛋白質(zhì)復(fù)合物置于PDB-Bind數(shù)據(jù)庫中進(jìn)行比對,以獲得具有Kd值的蛋白質(zhì)復(fù)合物,然后閱讀文獻(xiàn),獲取文獻(xiàn)中需要收集的數(shù)據(jù)。第二點(diǎn),基于發(fā)表的相關(guān)文獻(xiàn),通過關(guān)鍵詞進(jìn)行搜索近三年所發(fā)表的相關(guān)文獻(xiàn),通過閱讀文獻(xiàn)的方式獲得突變蛋白質(zhì)的熱力學(xué)和動(dòng)力學(xué)數(shù)據(jù)。由此,最終獲得了5291個(gè)突變體,這些突變體來自于341種蛋白質(zhì)復(fù)合物;诘玫降耐蛔償(shù)據(jù),構(gòu)建一個(gè)突變蛋白質(zhì)間相互作用熱力學(xué)和動(dòng)力學(xué)數(shù)據(jù)庫網(wǎng)站-dbMPIKT。用戶可通過搜尋網(wǎng)址進(jìn)入網(wǎng)站瀏覽突變數(shù)據(jù),進(jìn)行查詢和下載等操作。此外,對突變數(shù)據(jù)進(jìn)行簡單的統(tǒng)計(jì)分析,利用cytoscape工具創(chuàng)建蛋白質(zhì)相互作用網(wǎng)絡(luò),用戶可以在網(wǎng)站的文件界面看到有關(guān)突變數(shù)據(jù)的生物學(xué)分析。因此,dbMPIKT數(shù)據(jù)庫提供較全面的突變體數(shù)據(jù),并對近三年的數(shù)據(jù)進(jìn)行更新,更加方便研究人員獲取到突變體數(shù)據(jù)。2、構(gòu)建集成學(xué)習(xí)自相關(guān)模型來預(yù)測PPI界面處的功能性位點(diǎn)-熱點(diǎn)殘基。基于已構(gòu)建的突變蛋白質(zhì)相互作用熱力學(xué)和動(dòng)力學(xué)數(shù)據(jù)庫,利用得到的數(shù)據(jù)集來進(jìn)行熱點(diǎn)殘基的預(yù)測。首先,在數(shù)據(jù)集的選擇上,基于相關(guān)人員的研究,最終選擇五套數(shù)據(jù)集,包括:ASEdb,BID,SKEMPI,dbMPIKT以及構(gòu)建的混合數(shù)據(jù)集。其中:ASEdb和BID是用于訓(xùn)練和測試的標(biāo)準(zhǔn)數(shù)據(jù)集,其他三組數(shù)據(jù)集用作獨(dú)立的測試集。為增加模型的可靠性,將這三個(gè)數(shù)據(jù)集進(jìn)行整合,得到一個(gè)數(shù)據(jù)量較大的數(shù)據(jù)集作為獨(dú)立測試集。其次,本文提出將自相關(guān)函數(shù)方法應(yīng)用到氨基酸序列的編碼,在AAindex1上經(jīng)過相關(guān)因子的篩選,得到46種氨基酸的物理化學(xué)性質(zhì)來表征氨基酸序列,再利用自相關(guān)函數(shù)結(jié)合滑動(dòng)窗口的思想來獲得最終的特征。在分類器選擇上,構(gòu)建集成分類器,將支持向量機(jī)和K-最鄰近算法結(jié)合進(jìn)行模型的訓(xùn)練和測試,最后得到最終的預(yù)測模型。本文構(gòu)建一個(gè)突變蛋白質(zhì)間相互作用的生物學(xué)數(shù)據(jù)庫和有效的預(yù)測模型,可預(yù)測熱點(diǎn)殘基且預(yù)測結(jié)果良好。本文旨在對蛋白質(zhì)間相互作用的數(shù)據(jù)和熱點(diǎn)殘基預(yù)測模型方面進(jìn)行研究,為蛋白質(zhì)功能相關(guān)研究的研究人員提供數(shù)據(jù)基礎(chǔ)和研究思路。
【圖文】:
蛋白質(zhì)突變位點(diǎn)數(shù)據(jù)庫的構(gòu)建及位點(diǎn)預(yù)測研宄邐逡逑一組關(guān)鍵詞包含PPI,氨基酸突變和動(dòng)力學(xué)數(shù)據(jù)。通過這兩組關(guān)鍵詞,獲得425逡逑相關(guān)的文獻(xiàn)。第二步,通過在PDB數(shù)據(jù)庫中使用一些查詢項(xiàng)目進(jìn)行高級搜索逡逑得蛋白質(zhì)復(fù)合物的結(jié)構(gòu),即大分子類型(僅含有蛋白質(zhì)),蛋白質(zhì)化學(xué)計(jì)量學(xué)逡逑(異二聚體復(fù)合物),發(fā)布日期(2013年1月1日至2016年12月31日)和X逡逑線分辨率(小于3邋A)。最終從PDB數(shù)據(jù)庫中的682篇文獻(xiàn)中獲得1017個(gè)蛋逡逑質(zhì)結(jié)構(gòu)復(fù)合物,并將這些蛋白質(zhì)復(fù)合物映射到PDB-Bind數(shù)據(jù)庫中以提取其相逡逑的熱力學(xué)數(shù)據(jù)[47]。最后,綜合所有數(shù)據(jù),一共發(fā)現(xiàn)來自85篇文獻(xiàn)中99個(gè)復(fù)雜逡逑白質(zhì)復(fù)合物的熱力學(xué)數(shù)據(jù),其中包含解離常數(shù)(Kd值)。第三步,閱讀所有逡逑文獻(xiàn)并手動(dòng)記錄相關(guān)的動(dòng)力學(xué)和熱力學(xué)數(shù)據(jù),對數(shù)據(jù)進(jìn)行收集和整合。最后,逡逑過一系列的數(shù)據(jù)收集工作,先刪除掉一些冗余的數(shù)據(jù)之后得到5291個(gè)突變體,逡逑是最終收集到的所有突變體數(shù)據(jù)。逡逑
逡逑最后,展示的是數(shù)據(jù)庫的文件(Document)界面。如圖2.5所示,該界面一逡逑方面展示突變體數(shù)據(jù)的統(tǒng)計(jì)和分析信息,包括:突變體數(shù)目和種類的統(tǒng)計(jì)分析,逡逑蛋白質(zhì)對來源分析和PPI網(wǎng)絡(luò)圖的構(gòu)建。這些數(shù)據(jù)可以幫助了解整個(gè)數(shù)據(jù)庫的數(shù)逡逑據(jù)數(shù)目。另一方面,,該界面則是對網(wǎng)站中的每一個(gè)界面進(jìn)行詳細(xì)的解說,讓用戶逡逑清晰的知道每個(gè)界面具有的功能,方便使用。逡逑Doc—nt邐焉邐Coatactus逡逑u,,逡逑Home邐Browse邐D0^?J0ad邐Upload逡逑Introduction邐1.邋SKEMPI邋D
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q51;Q811.4
【圖文】:
蛋白質(zhì)突變位點(diǎn)數(shù)據(jù)庫的構(gòu)建及位點(diǎn)預(yù)測研宄邐逡逑一組關(guān)鍵詞包含PPI,氨基酸突變和動(dòng)力學(xué)數(shù)據(jù)。通過這兩組關(guān)鍵詞,獲得425逡逑相關(guān)的文獻(xiàn)。第二步,通過在PDB數(shù)據(jù)庫中使用一些查詢項(xiàng)目進(jìn)行高級搜索逡逑得蛋白質(zhì)復(fù)合物的結(jié)構(gòu),即大分子類型(僅含有蛋白質(zhì)),蛋白質(zhì)化學(xué)計(jì)量學(xué)逡逑(異二聚體復(fù)合物),發(fā)布日期(2013年1月1日至2016年12月31日)和X逡逑線分辨率(小于3邋A)。最終從PDB數(shù)據(jù)庫中的682篇文獻(xiàn)中獲得1017個(gè)蛋逡逑質(zhì)結(jié)構(gòu)復(fù)合物,并將這些蛋白質(zhì)復(fù)合物映射到PDB-Bind數(shù)據(jù)庫中以提取其相逡逑的熱力學(xué)數(shù)據(jù)[47]。最后,綜合所有數(shù)據(jù),一共發(fā)現(xiàn)來自85篇文獻(xiàn)中99個(gè)復(fù)雜逡逑白質(zhì)復(fù)合物的熱力學(xué)數(shù)據(jù),其中包含解離常數(shù)(Kd值)。第三步,閱讀所有逡逑文獻(xiàn)并手動(dòng)記錄相關(guān)的動(dòng)力學(xué)和熱力學(xué)數(shù)據(jù),對數(shù)據(jù)進(jìn)行收集和整合。最后,逡逑過一系列的數(shù)據(jù)收集工作,先刪除掉一些冗余的數(shù)據(jù)之后得到5291個(gè)突變體,逡逑是最終收集到的所有突變體數(shù)據(jù)。逡逑
逡逑最后,展示的是數(shù)據(jù)庫的文件(Document)界面。如圖2.5所示,該界面一逡逑方面展示突變體數(shù)據(jù)的統(tǒng)計(jì)和分析信息,包括:突變體數(shù)目和種類的統(tǒng)計(jì)分析,逡逑蛋白質(zhì)對來源分析和PPI網(wǎng)絡(luò)圖的構(gòu)建。這些數(shù)據(jù)可以幫助了解整個(gè)數(shù)據(jù)庫的數(shù)逡逑據(jù)數(shù)目。另一方面,,該界面則是對網(wǎng)站中的每一個(gè)界面進(jìn)行詳細(xì)的解說,讓用戶逡逑清晰的知道每個(gè)界面具有的功能,方便使用。逡逑Doc—nt邐焉邐Coatactus逡逑u,,逡逑Home邐Browse邐D0^?J0ad邐Upload逡逑Introduction邐1.邋SKEMPI邋D
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q51;Q811.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王建;;蛋白質(zhì)相互作用數(shù)據(jù)庫[J];中國生物化學(xué)與分子生物學(xué)報(bào);2017年08期
2 陳心浩;胡儉;;基于多特征融合預(yù)測蛋白質(zhì)相互作用界面[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年03期
3 譚從娥;黃祥云;;基于蛋白質(zhì)相互作用網(wǎng)絡(luò)分析右歸丸治療腎陽虛證的療效機(jī)制[J];中國中醫(yī)藥信息雜志;2016年02期
4 楊曉敏;李英倫;;基于蛋白質(zhì)相互作用“熱點(diǎn)”區(qū)域的小分子藥物設(shè)計(jì)研究進(jìn)展[J];生物物理學(xué)報(bào);2015年02期
5 馮舒s
本文編號:2674632
本文鏈接:http://sikaile.net/projectlw/swxlw/2674632.html
最近更新
教材專著