天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機器學習的蛋白質類別及蛋白質-配體相互作用預測研究

發(fā)布時間:2017-12-10 07:22

  本文關鍵詞:基于機器學習的蛋白質類別及蛋白質-配體相互作用預測研究


  更多相關文章: 蛋白質類別預測 蛋白質-配體相互作用預測 機器學習 特征提取 類不平衡問題


【摘要】:在后基因組時代,生物信息技術迅速發(fā)展,生命科學的研究重心從破譯基因組序列轉移到基因功能注釋。依據(jù)分子生物學中心法則,攜帶遺傳信息的基因翻譯成蛋白質才能在生物體內執(zhí)行多種多樣的生理功能。隨著高通量測序技術的日臻成熟,被測定的蛋白質序列數(shù)目呈指數(shù)增長,與此相比,被測定功能的蛋白質數(shù)目的增長速度相對滯后。已知序列的蛋白質數(shù)目和已知功能的蛋白質數(shù)目之間的差距不斷擴大,蛋白質功能預測成為重要且極具挑戰(zhàn)性的研究課題,其不僅有助于探索生命起源和遺傳變異,而且有助于從細胞和分子水平上探討人類重大疾病的發(fā)病機制,為疾病的診斷、預防和藥物開發(fā)等提供重要的理論支持。通過實驗方法進行蛋白質功能注釋,成本昂貴、耗時耗力且無法大規(guī)模開展。因此,亟需開發(fā)可靠、經(jīng)濟和高通量的計算方法,快速精確地預測蛋白質功能。蛋白質類別預測和蛋白質-配體相互作用預測是蛋白質功能預測的兩大重要研究分支;跈C器學習,本學位論文對蛋白質類別預測和蛋白質-配體相互作用預測進行了深入研究,具體內容如下:(1)蛋白質類別預測中的二分類問題噬菌體病毒蛋白和非病毒蛋白具有不同的生物學功能。從噬菌體蛋白中準確地識別病毒蛋白有助于理解復雜的病毒機制和開發(fā)抗細菌藥物,F(xiàn)有的計算方法未全方位的提取蛋白質序列特征,且利用單一的分類器構建預測模型;赟tacking方法,提出了新的噬菌體病毒蛋白預測方法。該方法從蛋白質序列中提取氨基酸的組成、位置、順序、分布、理化屬性和進化等信息。基于不同的特征提取策略,分別構建不同的隨機森林預測模型,并利用邏輯回歸算法整合隨機森林預測模型的預測結果。在獨立測試集上,該方法的預測性能優(yōu)于現(xiàn)有方法,是預測噬菌體病毒蛋白的有效工具。在生物體內,抗氧蛋白在維持氧化/抗氧化的平衡過程中發(fā)揮著重要作用,且對于疾病的治療具有潛在的價值。準確地預測抗氧蛋白為揭示氧化/抗氧化平衡的生理機制和開發(fā)抗氧化藥物提供理論依據(jù)。針對現(xiàn)有方法的局限性,通過多源特征提取和分類器選擇策略,構建了預測抗氧蛋白的集成學習方法。為進一步提高預測性能,該方法利用Relief-增量特征選擇剔除冗余和不相關的特征。在獨立測試集上,該方法取得了較為均衡的敏感性和特異性,遠遠優(yōu)于現(xiàn)有方法。抗血管生成肽對于血管生成具有抑制作用,有助于治療與血管生成相關的疾病。準確地預測抗血管生成肽能夠為理解血管的生成機制和發(fā)展抗腫瘤療法提供重要線索,F(xiàn)有方法通過單分類器建立預測模型,并未利用特征選擇技術獲取具有高度識別能力的特征。通過分別選取具有高敏感性以及高特異性的基分類器模型,構建了預測抗血管生成肽的集成分類器模型。為降低計算復雜度和提高預測能力,利用特征選擇技術獲取與分類目標更相關的特征。與現(xiàn)有方法在相同的基準數(shù)據(jù)集上的預測性能比較結果表明,該集成分類器是預測抗血管生成肽的有效方法。(2)蛋白質類別預測中的多分類問題不同類型J蛋白在疾病發(fā)展中發(fā)揮著不同功能。準確地識別J蛋白的類型將為闡明不同類型J蛋白在相關生物學過程中的功能提供線索,并有助于理解疾病的發(fā)作機制,F(xiàn)有方法采用的特征編碼方式單一,尚未解決類不平衡問題。基于欠采樣方法,借鑒集成學習思想,構建了J蛋白類型預測模型。該預測模型有效地解決了類不平衡問題。與現(xiàn)有方法相比,該集成分類器模型的敏感性和特異性更均衡。在生物體內,不同離子通道的芋螺毒素所發(fā)揮的生理功能和對疾病的治療潛力有較大差異。準確地預測芋螺毒素離子通道類型有助于破譯芋螺毒素的生理機制和藥理學特性,F(xiàn)有方法從蛋白質序列中只提取了氨基酸的組成信息,并未解決類不平衡問題。通過提取蛋白質序列中的氨基酸組成、分布、順序、理化屬性和二級結構信息,利用少數(shù)類過采樣算法增加少數(shù)類樣本的數(shù)目,建立了新的芋螺毒素離子通道類型預測模型。在獨立測試集上,該預測模型對不同類型芋螺毒素的預測精度都高于現(xiàn)有方法,驗證了其強大預測能力。(3)蛋白質-配體相互作用預測蛋白質-適配體相互作用在生物體內發(fā)揮著各種生理功能,并具有潛在的疾病治療價值。快速有效地預測蛋白質-適配體相互作用有助于深刻理解蛋白質-適配體相互作用的作用機制和開發(fā)基于適配體的療法,F(xiàn)有方法采用單分類器構建預測模型,僅從序列中提取了氨基酸組成信息,并未處理類不平衡問題。為此,基于多源特征提取策略,利用集成學習方法構建蛋白質-適配體相互作用預測模型。在訓練集上的10交叉驗證結果表明,該方法的敏感性和特異性較為均衡,有效地解決了數(shù)據(jù)不平衡問題。為客觀地評價該方法的預測能力,與現(xiàn)有方法在獨立測試集上進行了性能比較。實驗結果顯示,該方法的敏感性和Youden指數(shù)均優(yōu)于現(xiàn)有方法。
【學位授予單位】:山東大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:Q51;TP181
,

本文編號:1273636

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1273636.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5bd46***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com