基于概率圖模型HMM的蛋白質(zhì)二級結構預測
本文選題:概率統(tǒng)計 + HMM; 參考:《河北科技大學》2017年碩士論文
【摘要】:蛋白質(zhì)結構與蛋白質(zhì)功能密切相關,而蛋白質(zhì)二級結構又是其他更高階空間結構形成的基礎,因此,蛋白質(zhì)二級結構預測成為生物信息學研究的熱點。蛋白質(zhì)二級結構預測是根據(jù)已知二級結構的蛋白質(zhì)數(shù)據(jù)建立氨基酸序列和二級結構間的關系模型,進而通過模型來預測未知氨基酸序列的二級結構。隱馬爾可夫模型(Hidden Markov Model,HMM)是一種概率統(tǒng)計模型,一些國內(nèi)外學者將其應用到蛋白質(zhì)二級結構預測問題上,收到了一定的效果。該文首先利用3-狀態(tài)HMM和7-狀態(tài)HMM對蛋白質(zhì)二級結構進行預測,通過比較得出7-狀態(tài)HMM的預測效果要優(yōu)于3-狀態(tài)HMM。對于7-狀態(tài)HMM預測算法,又從結構狀態(tài)和參數(shù)訓練兩方面提出了改進方案。一方面,考慮到7-狀態(tài)HMM沒有包含非二級結構的狀態(tài),故引入非二級結構的狀態(tài),進而構成8-狀態(tài)HMM;另一方面,對于參數(shù)重估過程的第二種下溢情況,我們打破常規(guī),并沒有通過某種手段阻止其下溢,而是用最優(yōu)重估一次參數(shù)的均值作為預測二級結構的模型參數(shù)。我們通過這兩種改進方案在一定程度上提高了預測準確率。該文的研究表明,選取合適的蛋白質(zhì)結構狀態(tài)以及合適的訓練集對提高蛋白質(zhì)二級結構的預測準確率是比較重要的。
[Abstract]:Protein structure is closely related to protein function, and protein secondary structure is the basis for the formation of other higher-order spatial structures. Therefore, protein secondary structure prediction has become a hot topic in bioinformatics. The prediction of protein secondary structure is based on the protein data of known secondary structure to establish a relationship model between amino acid sequence and secondary structure, and then to predict the secondary structure of unknown amino acid sequence through the model. Hidden Markov Model (hmm) is a kind of probabilistic statistical model, which has been applied to protein secondary structure prediction by some scholars at home and abroad. In this paper, 3-state hmm and 7- state hmm are used to predict the secondary structure of protein. It is concluded that the prediction effect of 7-state hmm is better than that of 3-state hmm. For the 7-state hmm prediction algorithm, an improved scheme is proposed in terms of structural state and parameter training. On the one hand, considering that the 7- state hmm does not contain the state of non-secondary structure, so the non-secondary structure state is introduced to form 8-state HMMs, on the other hand, we break the rule for the second underflow of the parameter revaluation process. Instead of stopping the overflow by some means, the mean value of the optimal reestimation of the primary parameter is used as the model parameter to predict the secondary structure. We improve the prediction accuracy to some extent by these two improved schemes. The results show that it is important to select the appropriate protein structure state and the appropriate training set to improve the prediction accuracy of protein secondary structure.
【學位授予單位】:河北科技大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q51;O211.62
【參考文獻】
相關期刊論文 前7條
1 陳軍霞;劉紫玉;;基于Baum-Welch算法HMM模型的孤詞算法研究[J];河北科技大學學報;2015年01期
2 石鷗燕;楊惠云;楊晶;田心;;應用ANN/HMM混合模型預測蛋白質(zhì)二級結構[J];計算機應用研究;2008年12期
3 石鷗燕;楊惠云;楊晶;田心;;應用優(yōu)化的隱馬爾可夫模型預測蛋白質(zhì)二級結構[J];高技術通訊;2008年07期
4 董啟文,王曉龍,林磊,關毅,趙健;蛋白質(zhì)二級結構預測:基于詞條的最大熵馬爾科夫方法[J];中國科學C輯:生命科學;2005年01期
5 梁剛鋒,謝濤;使用HSMMs模型的蛋白質(zhì)二級結構預測[J];電腦知識與技術;2005年03期
6 石峰,莫忠息,張楚瑜;隱馬爾可夫模型—改進的預測蛋白質(zhì)二級結構方法[J];生物數(shù)學學報;2004年02期
7 王鵬良,江壽平,來魯華,徐小杰,羅宇;蛋白質(zhì)二級結構預測的綜合分析[J];物理化學學報;1990年06期
相關博士學位論文 前2條
1 羅亮;蛋白質(zhì)結構預測模型研究[D];華中科技大學;2010年
2 石鷗燕;蛋白質(zhì)結構預測模型的研究[D];天津醫(yī)科大學;2008年
相關碩士學位論文 前4條
1 劉倩倩;基于詞頻統(tǒng)計編碼和流形學習的蛋白質(zhì)二級結構預測方法研究[D];河北工業(yè)大學;2014年
2 林錦華;基于隱馬爾可夫模型的蛋白質(zhì)二級結構預測[D];福建農(nóng)林大學;2012年
3 孫文恒;基于遺傳算法和BP神經(jīng)網(wǎng)絡的蛋白質(zhì)二級結構預測研究[D];蘭州大學;2008年
4 張海霞;蛋白質(zhì)二級結構預測方法研究[D];大連理工大學;2004年
,本文編號:2106080
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2106080.html