基于智能算法的TA蛋白靶向預(yù)測方法研究
發(fā)布時間:2020-03-19 08:11
【摘要】:隨著人類基因組計劃的實施,以及更多生物基因組測序計劃的完成,生物學(xué)數(shù)據(jù)呈爆炸性增長,傳統(tǒng)的生化試驗方法已經(jīng)遠遠不能滿足需求。智能算法在生物信息領(lǐng)域有其獨特的優(yōu)勢。已有研究表明,智能算法能成功解決生物信息學(xué)的這些問題。但是在蛋白質(zhì)靶向預(yù)測上仍然面臨著諸多問題和挑戰(zhàn)。比如真核生物中末端錨定蛋白質(zhì)(tail-anchored proteins,TA蛋白)靶向預(yù)測尚未有智能算法應(yīng)用的實現(xiàn)。TA蛋白靶向與CpG島的低甲基化存在相關(guān)性,因此,CpG島的低甲基化可以作為TA蛋白靶向的相關(guān)特征因素。針對上述問題,本文做了大量的調(diào)研工作,對CpG島識別及TA蛋白靶向預(yù)測進行深入的研究。大量的研究表明,已有的經(jīng)典算法識別和分類準確率相對偏低,無法滿足CpG島序列識別和TA蛋白靶向預(yù)測等研究所要求的準確率。針對上述問題,本文以CpG島序列識別為作為研究的切入點,TA蛋白靶向預(yù)測作為后續(xù)研究。采用智能算法可以很好的解決以上問題,同時提高了識別和預(yù)測的準確率。在CpG島序列識別和TA蛋白靶向預(yù)測的研究中取得了不錯的成果。本文的主要工作及創(chuàng)新點概括如下:1.本文提出了一種用遺傳算法和隱馬爾可夫模型結(jié)合的CpG島序列識別方法。該方法通過遺傳算法優(yōu)化隱馬爾科夫模型參數(shù),得出的模型可以更好的用于CpG島序列識別。2.本文通過嚴格篩選,我們獲得了428個真核生物TA蛋白的數(shù)據(jù),用于TA蛋白靶向定位預(yù)測;采用7種TA蛋白序列特征提取方法;并且增加了疏水性和電荷量這兩類特征訓(xùn)練模型,可以有效的提高模型的分類準確率。3.本文構(gòu)建了一種樸素貝葉斯的特征提取方法來提取TA蛋白序列特征。采用mRMR算法對蛋白質(zhì)數(shù)據(jù)進行特征選擇;最后,采用支持向量機去訓(xùn)練模型。在訓(xùn)練過程中基于網(wǎng)格方式對參數(shù)~?和懲罰系數(shù)C進行優(yōu)化,并對實驗結(jié)果進行分析。4.本文分別訓(xùn)練并比較了5種機器學(xué)習(xí)模型在TA蛋白靶向預(yù)測的結(jié)果。即:隨機森林(RF)、邏輯回歸(LR)、樸素貝葉斯(NB)、K-最近鄰(KNN)和梯度提升樹(GBDT)。最后,本文利用遺傳算法全局搜索的能力,對HMM參數(shù)進行優(yōu)化。將其改進方案應(yīng)用到CpG島序列識別中,可以提高CpG島序列識別的準確率。對于TA蛋靶向預(yù)測,構(gòu)建了一種樸素貝葉斯特征提取方案,采用SVM可以實現(xiàn)對TA蛋白靶向預(yù)測。后續(xù)研究中,本文采用了七種特征提取方法來提取蛋白質(zhì)序列特征,通過集成五種智能算法的分類結(jié)果,可以更好的預(yù)測TA蛋白在亞細胞器的靶向,預(yù)測精度達到84%。
【圖文】:
以更好的優(yōu)化HMM參數(shù),從而提高對CpG島識別能力。遺傳算法和隱馬爾可夫模型結(jié)合的CpG島識別方法的流程如圖3-1所示。圖3-1. 遺傳算法和隱馬爾可夫模型結(jié)合的CpG島識別方法
適應(yīng)度值高的染色體比適應(yīng)度值低的染色體存程中,未被選中的染色體被刪除。我們選用輪盤賭的方式?jīng)Q。根據(jù)染色體自身的適應(yīng)度值,分別對應(yīng)不同大小的區(qū)域面體是ix ,適應(yīng)度函數(shù)是 ( )if x ,,則 ix被選擇的概率是:1( )( )( )iijNjf xp xf x 染色體 tS的累加概率:1( )i jijq p x 操作 交叉操作[31-32]是重組父代染色體的結(jié)合。被選中體。因此,可以看出該操作可以把最優(yōu)的父代進行交叉從而基于輪盤賭機制選擇出來的。
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4;TP18
本文編號:2589963
【圖文】:
以更好的優(yōu)化HMM參數(shù),從而提高對CpG島識別能力。遺傳算法和隱馬爾可夫模型結(jié)合的CpG島識別方法的流程如圖3-1所示。圖3-1. 遺傳算法和隱馬爾可夫模型結(jié)合的CpG島識別方法
適應(yīng)度值高的染色體比適應(yīng)度值低的染色體存程中,未被選中的染色體被刪除。我們選用輪盤賭的方式?jīng)Q。根據(jù)染色體自身的適應(yīng)度值,分別對應(yīng)不同大小的區(qū)域面體是ix ,適應(yīng)度函數(shù)是 ( )if x ,,則 ix被選擇的概率是:1( )( )( )iijNjf xp xf x 染色體 tS的累加概率:1( )i jijq p x 操作 交叉操作[31-32]是重組父代染色體的結(jié)合。被選中體。因此,可以看出該操作可以把最優(yōu)的父代進行交叉從而基于輪盤賭機制選擇出來的。
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4;TP18
【相似文獻】
相關(guān)碩士學(xué)位論文 前1條
1 裴文琦;城市公交時空軌跡數(shù)據(jù)可視分析研究[D];西南科技大學(xué);2019年
本文編號:2589963
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2589963.html
最近更新
教材專著