基于機(jī)器學(xué)習(xí)的蛋白質(zhì)類別及蛋白質(zhì)-配體相互作用預(yù)測研究
發(fā)布時(shí)間:2017-12-10 07:22
本文關(guān)鍵詞:基于機(jī)器學(xué)習(xí)的蛋白質(zhì)類別及蛋白質(zhì)-配體相互作用預(yù)測研究
更多相關(guān)文章: 蛋白質(zhì)類別預(yù)測 蛋白質(zhì)-配體相互作用預(yù)測 機(jī)器學(xué)習(xí) 特征提取 類不平衡問題
【摘要】:在后基因組時(shí)代,生物信息技術(shù)迅速發(fā)展,生命科學(xué)的研究重心從破譯基因組序列轉(zhuǎn)移到基因功能注釋。依據(jù)分子生物學(xué)中心法則,攜帶遺傳信息的基因翻譯成蛋白質(zhì)才能在生物體內(nèi)執(zhí)行多種多樣的生理功能。隨著高通量測序技術(shù)的日臻成熟,被測定的蛋白質(zhì)序列數(shù)目呈指數(shù)增長,與此相比,被測定功能的蛋白質(zhì)數(shù)目的增長速度相對滯后。已知序列的蛋白質(zhì)數(shù)目和已知功能的蛋白質(zhì)數(shù)目之間的差距不斷擴(kuò)大,蛋白質(zhì)功能預(yù)測成為重要且極具挑戰(zhàn)性的研究課題,其不僅有助于探索生命起源和遺傳變異,而且有助于從細(xì)胞和分子水平上探討人類重大疾病的發(fā)病機(jī)制,為疾病的診斷、預(yù)防和藥物開發(fā)等提供重要的理論支持。通過實(shí)驗(yàn)方法進(jìn)行蛋白質(zhì)功能注釋,成本昂貴、耗時(shí)耗力且無法大規(guī)模開展。因此,亟需開發(fā)可靠、經(jīng)濟(jì)和高通量的計(jì)算方法,快速精確地預(yù)測蛋白質(zhì)功能。蛋白質(zhì)類別預(yù)測和蛋白質(zhì)-配體相互作用預(yù)測是蛋白質(zhì)功能預(yù)測的兩大重要研究分支。基于機(jī)器學(xué)習(xí),本學(xué)位論文對蛋白質(zhì)類別預(yù)測和蛋白質(zhì)-配體相互作用預(yù)測進(jìn)行了深入研究,具體內(nèi)容如下:(1)蛋白質(zhì)類別預(yù)測中的二分類問題噬菌體病毒蛋白和非病毒蛋白具有不同的生物學(xué)功能。從噬菌體蛋白中準(zhǔn)確地識別病毒蛋白有助于理解復(fù)雜的病毒機(jī)制和開發(fā)抗細(xì)菌藥物。現(xiàn)有的計(jì)算方法未全方位的提取蛋白質(zhì)序列特征,且利用單一的分類器構(gòu)建預(yù)測模型;赟tacking方法,提出了新的噬菌體病毒蛋白預(yù)測方法。該方法從蛋白質(zhì)序列中提取氨基酸的組成、位置、順序、分布、理化屬性和進(jìn)化等信息。基于不同的特征提取策略,分別構(gòu)建不同的隨機(jī)森林預(yù)測模型,并利用邏輯回歸算法整合隨機(jī)森林預(yù)測模型的預(yù)測結(jié)果。在獨(dú)立測試集上,該方法的預(yù)測性能優(yōu)于現(xiàn)有方法,是預(yù)測噬菌體病毒蛋白的有效工具。在生物體內(nèi),抗氧蛋白在維持氧化/抗氧化的平衡過程中發(fā)揮著重要作用,且對于疾病的治療具有潛在的價(jià)值。準(zhǔn)確地預(yù)測抗氧蛋白為揭示氧化/抗氧化平衡的生理機(jī)制和開發(fā)抗氧化藥物提供理論依據(jù)。針對現(xiàn)有方法的局限性,通過多源特征提取和分類器選擇策略,構(gòu)建了預(yù)測抗氧蛋白的集成學(xué)習(xí)方法。為進(jìn)一步提高預(yù)測性能,該方法利用Relief-增量特征選擇剔除冗余和不相關(guān)的特征。在獨(dú)立測試集上,該方法取得了較為均衡的敏感性和特異性,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有方法。抗血管生成肽對于血管生成具有抑制作用,有助于治療與血管生成相關(guān)的疾病。準(zhǔn)確地預(yù)測抗血管生成肽能夠?yàn)槔斫庋艿纳蓹C(jī)制和發(fā)展抗腫瘤療法提供重要線索,F(xiàn)有方法通過單分類器建立預(yù)測模型,并未利用特征選擇技術(shù)獲取具有高度識別能力的特征。通過分別選取具有高敏感性以及高特異性的基分類器模型,構(gòu)建了預(yù)測抗血管生成肽的集成分類器模型。為降低計(jì)算復(fù)雜度和提高預(yù)測能力,利用特征選擇技術(shù)獲取與分類目標(biāo)更相關(guān)的特征。與現(xiàn)有方法在相同的基準(zhǔn)數(shù)據(jù)集上的預(yù)測性能比較結(jié)果表明,該集成分類器是預(yù)測抗血管生成肽的有效方法。(2)蛋白質(zhì)類別預(yù)測中的多分類問題不同類型J蛋白在疾病發(fā)展中發(fā)揮著不同功能。準(zhǔn)確地識別J蛋白的類型將為闡明不同類型J蛋白在相關(guān)生物學(xué)過程中的功能提供線索,并有助于理解疾病的發(fā)作機(jī)制。現(xiàn)有方法采用的特征編碼方式單一,尚未解決類不平衡問題;谇凡蓸臃椒,借鑒集成學(xué)習(xí)思想,構(gòu)建了J蛋白類型預(yù)測模型。該預(yù)測模型有效地解決了類不平衡問題。與現(xiàn)有方法相比,該集成分類器模型的敏感性和特異性更均衡。在生物體內(nèi),不同離子通道的芋螺毒素所發(fā)揮的生理功能和對疾病的治療潛力有較大差異。準(zhǔn)確地預(yù)測芋螺毒素離子通道類型有助于破譯芋螺毒素的生理機(jī)制和藥理學(xué)特性,F(xiàn)有方法從蛋白質(zhì)序列中只提取了氨基酸的組成信息,并未解決類不平衡問題。通過提取蛋白質(zhì)序列中的氨基酸組成、分布、順序、理化屬性和二級結(jié)構(gòu)信息,利用少數(shù)類過采樣算法增加少數(shù)類樣本的數(shù)目,建立了新的芋螺毒素離子通道類型預(yù)測模型。在獨(dú)立測試集上,該預(yù)測模型對不同類型芋螺毒素的預(yù)測精度都高于現(xiàn)有方法,驗(yàn)證了其強(qiáng)大預(yù)測能力。(3)蛋白質(zhì)-配體相互作用預(yù)測蛋白質(zhì)-適配體相互作用在生物體內(nèi)發(fā)揮著各種生理功能,并具有潛在的疾病治療價(jià)值。快速有效地預(yù)測蛋白質(zhì)-適配體相互作用有助于深刻理解蛋白質(zhì)-適配體相互作用的作用機(jī)制和開發(fā)基于適配體的療法,F(xiàn)有方法采用單分類器構(gòu)建預(yù)測模型,僅從序列中提取了氨基酸組成信息,并未處理類不平衡問題。為此,基于多源特征提取策略,利用集成學(xué)習(xí)方法構(gòu)建蛋白質(zhì)-適配體相互作用預(yù)測模型。在訓(xùn)練集上的10交叉驗(yàn)證結(jié)果表明,該方法的敏感性和特異性較為均衡,有效地解決了數(shù)據(jù)不平衡問題。為客觀地評價(jià)該方法的預(yù)測能力,與現(xiàn)有方法在獨(dú)立測試集上進(jìn)行了性能比較。實(shí)驗(yàn)結(jié)果顯示,該方法的敏感性和Youden指數(shù)均優(yōu)于現(xiàn)有方法。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:Q51;TP181
,
本文編號:1273636
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1273636.html
最近更新
教材專著