基于決策森林的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法研究
發(fā)布時間:2020-06-03 00:24
【摘要】:蛋白質(zhì)是人類機(jī)體的重要組成并且機(jī)體內(nèi)幾乎所有的活動都需要具有特定功能的蛋白質(zhì)參與。蛋白質(zhì)的空間結(jié)構(gòu)決定其主要功能。因此對于蛋白質(zhì)結(jié)構(gòu)的研究有助于更好的了解它的功能。但并不能直接通過模擬蛋白質(zhì)的折疊過程來了解它的空間結(jié)構(gòu)。然而蛋白質(zhì)是由氨基酸序列組成的,因此,通過氨基酸序列來預(yù)測蛋白質(zhì)的二級結(jié)構(gòu)進(jìn)而了解它的三維構(gòu)象便成為了一種常用的方法。在大數(shù)據(jù)、云計算和人工智能快速發(fā)展的時代背景下,采用機(jī)器學(xué)習(xí)的方法對蛋白質(zhì)的二級結(jié)構(gòu)進(jìn)行預(yù)測已經(jīng)成為生物信息學(xué)中的一個研究熱點(diǎn);跊Q策樹森林模型及機(jī)器學(xué)習(xí)技術(shù),本文深入研究了蛋白質(zhì)的八類二級結(jié)構(gòu)預(yù)測,主要研究內(nèi)容如下:針對蛋白質(zhì)的八類二級結(jié)構(gòu)預(yù)測問題,提出了一種基于梯度提升的決策森林預(yù)測算法。該算法基于氨基酸序列的PSSM譜特征采用交叉熵?fù)p失函數(shù)的二階泰勒近似作為優(yōu)化目標(biāo),以決策樹確定的映射函數(shù)作為優(yōu)化參數(shù),通過貪婪地在特征值上選取最佳分裂點(diǎn)來構(gòu)造決策樹。此外,為了防止過擬合,進(jìn)一步在目標(biāo)函數(shù)中引入了_2L正則化項(xiàng),以便控制模型的復(fù)雜度。在標(biāo)準(zhǔn)的CB513蛋白質(zhì)二級結(jié)構(gòu)評估數(shù)據(jù)集上,本文提出的算法達(dá)到了64.89%的_8Q準(zhǔn)確率。針對梯度提升決策森林算法運(yùn)行速度慢的缺點(diǎn),本文基于直方圖思想提出了一種快速梯度提升的預(yù)測模型。該模型通過直方圖的方法將樣本特征離散化,對于大量的樣本數(shù)據(jù)采用單邊梯度技術(shù)對數(shù)據(jù)進(jìn)行采樣,并采用特征綁定技術(shù)對多維特征進(jìn)行降維,實(shí)現(xiàn)了樣本數(shù)量和特征兩個維度的并行。通過大量的實(shí)驗(yàn)對影響模型性能的指標(biāo)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,基于本文所提出的快速梯度提升算法對蛋白質(zhì)的二級結(jié)構(gòu)進(jìn)行預(yù)測,在測試集上的_8Q準(zhǔn)確率達(dá)到了66.35%。另外,在同樣的數(shù)據(jù)集上,相對于其他算法來比較,本文所提出的算法運(yùn)行速度非?,時間復(fù)雜度很小。
【圖文】:
Valine Val V 13 賴氨酸 Lysine Leucine Leu L 14 組氨酸 Histidine Isoleucine Ile I 15 半胱氨酸 Cysteine Serine Ser S 16 甲硫氨酸 Methionine Threonine Thr T 17 苯丙氨酸 Phenylalanine Arspartic acid Asp D 18 酪氨酸 Tyrosine Asparagine Asn N 19 色氨酸 Thyptophan Glutamic acid Glu E 20 脯氨酸 Proline 不同空間結(jié)構(gòu)首先是將經(jīng)過脫水縮合反應(yīng)的氨基酸連接成肽鏈,肽鏈螺旋、折疊,最后才形成不同的結(jié)構(gòu)。多個不同結(jié)構(gòu)的蛋白構(gòu)穩(wěn)定的蛋白質(zhì)復(fù)合物。蛋白質(zhì)分子的結(jié)構(gòu)有四種,分別為一構(gòu),如圖 2-1 所示。
圖 2-2 常見的 3 種蛋白質(zhì)二級結(jié)構(gòu)一種較為復(fù)雜的蛋白質(zhì)二級結(jié)構(gòu)分類形式。采用 Dtructure)編碼,,用單一的英文字母來表示蛋白質(zhì)的二述方式稱為蛋白質(zhì)二級結(jié)構(gòu)的八態(tài)形式,如表 2-2表 2-2 蛋白質(zhì)二級結(jié)構(gòu)的八態(tài)形式含義 4 轉(zhuǎn)角螺旋(α 螺旋) 最短長獨(dú)立β 橋內(nèi)的殘基(β 橋) 一對 β 折疊,反平行的折疊形態(tài)(延伸鏈) 最短長3 轉(zhuǎn)角螺旋 最短長5 轉(zhuǎn)角螺旋(π 螺旋) 最短長氫鍵轉(zhuǎn)角 3、
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP301.6;Q51
本文編號:2693998
【圖文】:
Valine Val V 13 賴氨酸 Lysine Leucine Leu L 14 組氨酸 Histidine Isoleucine Ile I 15 半胱氨酸 Cysteine Serine Ser S 16 甲硫氨酸 Methionine Threonine Thr T 17 苯丙氨酸 Phenylalanine Arspartic acid Asp D 18 酪氨酸 Tyrosine Asparagine Asn N 19 色氨酸 Thyptophan Glutamic acid Glu E 20 脯氨酸 Proline 不同空間結(jié)構(gòu)首先是將經(jīng)過脫水縮合反應(yīng)的氨基酸連接成肽鏈,肽鏈螺旋、折疊,最后才形成不同的結(jié)構(gòu)。多個不同結(jié)構(gòu)的蛋白構(gòu)穩(wěn)定的蛋白質(zhì)復(fù)合物。蛋白質(zhì)分子的結(jié)構(gòu)有四種,分別為一構(gòu),如圖 2-1 所示。
圖 2-2 常見的 3 種蛋白質(zhì)二級結(jié)構(gòu)一種較為復(fù)雜的蛋白質(zhì)二級結(jié)構(gòu)分類形式。采用 Dtructure)編碼,,用單一的英文字母來表示蛋白質(zhì)的二述方式稱為蛋白質(zhì)二級結(jié)構(gòu)的八態(tài)形式,如表 2-2表 2-2 蛋白質(zhì)二級結(jié)構(gòu)的八態(tài)形式含義 4 轉(zhuǎn)角螺旋(α 螺旋) 最短長獨(dú)立β 橋內(nèi)的殘基(β 橋) 一對 β 折疊,反平行的折疊形態(tài)(延伸鏈) 最短長3 轉(zhuǎn)角螺旋 最短長5 轉(zhuǎn)角螺旋(π 螺旋) 最短長氫鍵轉(zhuǎn)角 3、
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP301.6;Q51
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張安勝;王愛平;;基于深度學(xué)習(xí)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測[J];計算機(jī)仿真;2015年01期
2 張維東;朱宏明;周聞鈞;;決策樹算法在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測問題中的應(yīng)用研究[J];微型電腦應(yīng)用;2009年02期
相關(guān)碩士學(xué)位論文 前2條
1 張蕾;基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法研究[D];河南大學(xué);2016年
2 連云涓;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的多核學(xué)習(xí)方法[D];上海交通大學(xué);2013年
本文編號:2693998
本文鏈接:http://sikaile.net/projectlw/swxlw/2693998.html
最近更新
教材專著