機(jī)器學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用
本文關(guān)鍵詞:機(jī)器學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用
更多相關(guān)文章: 深度學(xué)習(xí) 深度玻爾茲曼機(jī) 卷積神經(jīng)網(wǎng)絡(luò) 蛋白質(zhì)二級結(jié)構(gòu) 蛋白質(zhì)相互作用
【摘要】:隨著人類基因組計(jì)劃的實(shí)施和生物科學(xué)技術(shù)的發(fā)展,生物信息學(xué)的發(fā)展速度相當(dāng)快,它利用計(jì)算機(jī)科學(xué)技術(shù)解決生物學(xué)中的各種問題。計(jì)算機(jī)被用于收集、存儲(chǔ)和分析生物信息以及生物遺傳信息,然后這些信息就可以被用于以基因?yàn)榛A(chǔ)藥物的研究與開發(fā)。繼基因組學(xué)和轉(zhuǎn)錄組學(xué)之后,蛋白質(zhì)組學(xué)是生物信息學(xué)系統(tǒng)的主要研究課題。它是對特定蛋白質(zhì)組的綜合性研究,包括蛋白質(zhì)在細(xì)胞運(yùn)行過程中的改變,以及蛋白質(zhì)間的相互作用。隨著蛋白質(zhì)測序技術(shù)和X-射線晶體衍射技術(shù)等試驗(yàn)技術(shù)的發(fā)展,大量的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)很容易被獲得,且蛋白質(zhì)功能分析方法日益成熟,使得我們可以充分利用機(jī)器學(xué)習(xí)方法,學(xué)習(xí)已知的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)中的規(guī)律,預(yù)測未知的蛋白質(zhì)的結(jié)構(gòu)和功能。本文采用機(jī)器學(xué)習(xí)方法中效率最高的深度學(xué)習(xí)算法(deep learning)來對蛋白質(zhì)組學(xué)中蛋白質(zhì)的相互作用預(yù)測和蛋白質(zhì)的二級結(jié)構(gòu)預(yù)測兩大問題進(jìn)行了深入的研究。本文主要研究內(nèi)容如下:1)提出了一種改進(jìn)的深度玻爾茲曼機(jī)(DBM)模型來預(yù)測蛋白質(zhì)的相互作用,為了避免采用sigmoid或tanh激活函數(shù)在深度網(wǎng)絡(luò)中出現(xiàn)過飽和的問題,采用ReLU激活函數(shù)改進(jìn)的玻爾茲曼機(jī)(RBM),使網(wǎng)絡(luò)具備稀疏性,從而避免模型過擬合,加快收斂速度。網(wǎng)絡(luò)結(jié)構(gòu)采用了兩層RBM組成的DBM模型,同時(shí),采用多尺度特征組提取和自協(xié)方差編碼方法結(jié)合的方法編碼序列特征,經(jīng)過實(shí)驗(yàn)證明該預(yù)測模型比其他的方法能更加精確地預(yù)測蛋白質(zhì)的相互作用。2)針對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中人工提取特征不精確和成本高的問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法。首先,利用蛋白質(zhì)中的20種氨基酸來量化待預(yù)測的蛋白質(zhì)原始序列,得到輸入的二維矩陣。然后,利用一維卷積對量化后的二維矩陣進(jìn)行卷積提取蛋白質(zhì)序列的特征,其中卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型包含五層卷積層和三層全連接層的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)為了減少數(shù)據(jù)的過擬合,在全連接層引入了Dropout的方法。根據(jù)具體的預(yù)測問題,通過理論分析和多次實(shí)驗(yàn)驗(yàn)證該預(yù)測模型在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測時(shí)具有預(yù)測優(yōu)勢。3)針對卷積神經(jīng)網(wǎng)絡(luò)在提取特征時(shí)的非時(shí)序問題,采用了循環(huán)神經(jīng)網(wǎng)絡(luò)中的雙向長短記憶神經(jīng)網(wǎng)絡(luò)(BLSTM)結(jié)構(gòu)作為預(yù)測模型,來預(yù)測蛋白質(zhì)的二級結(jié)構(gòu)。預(yù)測模型包含一層BLSTM,兩層全連接層和一層softmax分類層,首先利用BLSTM中隱藏層的正向遞歸和反向遞歸模塊,來獲取蛋白質(zhì)序列中的上下文的特征信息,且其網(wǎng)絡(luò)結(jié)構(gòu)中特殊的記憶單元能記憶序列中長距離的氨基酸間的相互關(guān)系,從而增強(qiáng)了提取的序列特征的有效性。實(shí)驗(yàn)結(jié)果證明其預(yù)測的效果是比較好的。
【關(guān)鍵詞】:深度學(xué)習(xí) 深度玻爾茲曼機(jī) 卷積神經(jīng)網(wǎng)絡(luò) 蛋白質(zhì)二級結(jié)構(gòu) 蛋白質(zhì)相互作用
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q51;TP181
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-14
- 1.1 課題背景與意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-13
- 1.2.1 蛋白質(zhì)相互作用預(yù)測方法9-11
- 1.2.2 蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法11-13
- 1.3 主要研究內(nèi)容及組織結(jié)構(gòu)13-14
- 第二章 理論基礎(chǔ)14-25
- 2.1 蛋白質(zhì)簡介14-18
- 2.1.1 蛋白質(zhì)組成與結(jié)構(gòu)14-15
- 2.1.2 蛋白質(zhì)的相互作用15-16
- 2.1.3 蛋白質(zhì)的二級結(jié)構(gòu)16-18
- 2.2 深度學(xué)習(xí)理論18-24
- 2.2.1 神經(jīng)網(wǎng)絡(luò)18-19
- 2.2.2 深度玻爾茲曼機(jī)(DBM)19-21
- 2.2.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN)21-23
- 2.2.4 遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)23-24
- 2.3 本章小結(jié)24-25
- 第三章 基于深度玻爾茲曼機(jī)的蛋白質(zhì)相互作用預(yù)測25-33
- 3.1 蛋白質(zhì)序列編碼25-27
- 3.2 采用ReLU改進(jìn)的受限玻爾茲曼機(jī)27-28
- 3.3 預(yù)測模型整體流程圖28
- 3.4 實(shí)驗(yàn)與分析28-32
- 3.4.1 實(shí)驗(yàn)材料28
- 3.4.2 實(shí)驗(yàn)結(jié)果28-32
- 3.5 本章小結(jié)32-33
- 第四章 基于卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測33-42
- 4.1 問題描述33
- 4.2 卷積網(wǎng)絡(luò)模型設(shè)計(jì)33-36
- 4.2.1 主要的模塊33-35
- 4.2.2 特征量化35
- 4.2.3 本文模型的設(shè)計(jì)35-36
- 4.3 實(shí)驗(yàn)數(shù)據(jù)和結(jié)果36-40
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)36
- 4.3.2 評價(jià)指標(biāo)36-37
- 4.3.3 實(shí)驗(yàn)結(jié)果37-40
- 4.4 本章小結(jié)40-42
- 第五章 基于LSTM的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測42-46
- 5.1 長短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)42-44
- 5.1.1 LSTM42-43
- 5.1.2 由LSTM到BLSTM43-44
- 5.2 實(shí)驗(yàn)與分析44-45
- 5.2.1 實(shí)驗(yàn)數(shù)據(jù)44
- 5.2.2 實(shí)驗(yàn)?zāi)P?/span>44-45
- 5.2.3 實(shí)驗(yàn)結(jié)果與分析45
- 5.3 本章小結(jié)45-46
- 第六章 工作總結(jié)與展望46-48
- 6.1 工作總結(jié)46-47
- 6.2 展望47-48
- 致謝48-49
- 參考文獻(xiàn)49-52
- 附錄52
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孟翔燕;孟軍;葛家麒;;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法的評價(jià)[J];生物信息學(xué);2010年03期
2 王菲露;宋楊;;基于廣義回歸神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測[J];計(jì)算機(jī)仿真;2012年02期
3 陳念貽,繆強(qiáng);模式識別方法研究蛋白質(zhì)二級結(jié)構(gòu)的規(guī)律[J];科學(xué)通報(bào);1986年09期
4 李曉琴,羅遼復(fù);蛋白質(zhì)結(jié)構(gòu)類預(yù)測的新方法──基于蛋白質(zhì)二級結(jié)構(gòu)序列的預(yù)測方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);1998年05期
5 王波,吳曉明,宋長新,程敬之;基于網(wǎng)絡(luò)服務(wù)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測軟件[J];西安交通大學(xué)學(xué)報(bào);2002年10期
6 張海霞,唐煥文,張立震,靳利霞,唐一源;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法的評價(jià)[J];計(jì)算機(jī)與應(yīng)用化學(xué);2003年06期
7 李曉琴,羅遼復(fù),劉次全;翻譯速率與蛋白質(zhì)二級結(jié)構(gòu)的關(guān)系[J];生物化學(xué)與生物物理學(xué)報(bào);2003年02期
8 朱偉,史定華,王翼飛;神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中的應(yīng)用[J];自然雜志;2003年03期
9 閆化軍;傅彥;章毅;李毅超;;神經(jīng)網(wǎng)絡(luò)方法預(yù)測蛋白質(zhì)二級結(jié)構(gòu)[J];計(jì)算機(jī)科學(xué);2003年11期
10 孫向東,韋柳靜,黃日波;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的支持向量機(jī)模型研究[J];廣西農(nóng)業(yè)生物科學(xué);2004年01期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 王守源;李曉琴;羅遼復(fù);;氨基酸分類與蛋白質(zhì)二級結(jié)構(gòu)相關(guān)性[A];第九次全國生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年
2 孫海軍;阮曉鋼;;氨基酸序列編碼對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的影響[A];第二十二屆中國控制會(huì)議論文集(下)[C];2003年
3 陳明杰;王煥峰;劉偉;;基于基團(tuán)編碼的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測[A];中國化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)分會(huì)場論文集[C];2008年
4 宋亮;張劍;王先明;溫繼敏;陳海波;姚端正;蔣昌忠;;人工神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)結(jié)構(gòu)的探討[A];湖北省物理學(xué)會(huì)、武漢物理學(xué)會(huì)成立70周年慶典暨2002年學(xué)術(shù)年會(huì)論文集[C];2002年
5 楊惠云;田心;;神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的研究[A];天津市生物醫(yī)學(xué)工程學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年
6 羅三華;黃建華;邱建丁;;小波支持向量機(jī)在蛋白質(zhì)二級結(jié)構(gòu)分類預(yù)測中應(yīng)用[A];中國化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)分會(huì)場論文集[C];2008年
7 叢培盛;王志恒;王思聰;李通化;;基于SPSSM的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測進(jìn)展[A];中國化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
8 孫向東;黃日波;;運(yùn)用SVMs原理預(yù)測蛋白質(zhì)二級結(jié)構(gòu)研究[A];廣西微生物學(xué)會(huì)2003年學(xué)術(shù)年會(huì)論文集[C];2003年
9 王靖;郭晨;梁向峰;鄭麗麗;陳澍;馬俊鶴;劉會(huì)洲;;陽離子表面活性劑CTAB對蛋白質(zhì)二級結(jié)構(gòu)的影響[A];第十四屆全國分子光譜學(xué)術(shù)會(huì)議論文集[C];2006年
10 孫衍華;劉繼鳳;遲學(xué)斌;;GridMol:基于網(wǎng)格的分子可視化建模軟件[A];第九屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 曹晨;蛋白質(zhì)二級結(jié)構(gòu)指定和功能分析[D];吉林大學(xué);2016年
2 王勇獻(xiàn);蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的模型與方法研究[D];國防科學(xué)技術(shù)大學(xué);2004年
3 石鷗燕;蛋白質(zhì)結(jié)構(gòu)預(yù)測模型的研究[D];天津醫(yī)科大學(xué);2008年
4 張勝利;蛋白質(zhì)與RNA中的若干問題研究[D];大連理工大學(xué);2011年
5 劉君;融合計(jì)算智能的蛋白質(zhì)結(jié)構(gòu)預(yù)測研究[D];重慶大學(xué);2011年
6 賈孟文;mRNA序列、結(jié)構(gòu)、能量和蛋白質(zhì)二級結(jié)構(gòu)的相關(guān)性[D];內(nèi)蒙古大學(xué);2004年
7 趙裕眾;生物序列分析算法的研究及其應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2010年
8 李明輝;基于機(jī)器學(xué)習(xí)的蛋白質(zhì)二級結(jié)構(gòu)和相互作用預(yù)測[D];哈爾濱工業(yè)大學(xué);2007年
9 王艷春;基于GEP和ANN的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法研究[D];西北農(nóng)林科技大學(xué);2009年
10 嚴(yán)文穎;氨基酸相互作用網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用[D];蘇州大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 石林凡;拉面面團(tuán)微觀結(jié)構(gòu)研究及品質(zhì)改良[D];河南工業(yè)大學(xué);2015年
2 趙丹丹;拉面面團(tuán)性質(zhì)研究及制面工藝優(yōu)化[D];河南工業(yè)大學(xué);2015年
3 薛燕娜;機(jī)器學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測中的應(yīng)用[D];江南大學(xué);2016年
4 王洪亮;基于遺傳算法的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測研究[D];哈爾濱工程大學(xué);2008年
5 梅啟鵬;蛋白質(zhì)二級結(jié)構(gòu)中的簡化編碼技術(shù)[D];華中科技大學(xué);2004年
6 梁剛鋒;蛋白質(zhì)二級結(jié)構(gòu)的建模與預(yù)測[D];國防科學(xué)技術(shù)大學(xué);2005年
7 于淑惠;基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測建模研究[D];西南大學(xué);2006年
8 孫海軍;基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測問題的研究[D];北京工業(yè)大學(xué);2004年
9 張海霞;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法研究[D];大連理工大學(xué);2004年
10 景楠;基于神經(jīng)網(wǎng)絡(luò)方法蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的研究[D];吉林大學(xué);2004年
,本文編號:833652
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/833652.html