天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

基于蛋白質(zhì)序列的表示學(xué)習(xí)和最適條件分析

發(fā)布時(shí)間:2020-07-16 08:57
【摘要】:蛋白質(zhì)是具有復(fù)雜結(jié)構(gòu)的化合物,是生命體細(xì)胞中重要的組成成分。酶是一類具有催化作用的蛋白質(zhì),其只能在例如:酸性環(huán)境,高溫環(huán)境等特定的環(huán)境條件中發(fā)揮催化作用。能夠使酶發(fā)揮最大催化作用的環(huán)境條件稱為最適條件。自然界中的野生型酶不能在研究人員預(yù)期條件下發(fā)揮良好的催化作用。因此獲得酶的最適條件,并利用蛋白質(zhì)工程使突變體能夠在預(yù)期環(huán)境中發(fā)揮催化作用,一直是生命科學(xué)研究的熱點(diǎn)。生物研究人員通常使用梯度試驗(yàn)獲得野生型酶的最適條件。然后,利用三級(jí)結(jié)構(gòu)分析結(jié)構(gòu)與最適條件的關(guān)系,通過定向突變獲得野生型酶的多種突變體。最后,通過篩選找到能夠在預(yù)期環(huán)境條件種發(fā)揮催化作用的突變體。但梯度試驗(yàn)過程繁瑣,單次實(shí)驗(yàn)只能對(duì)單個(gè)酶進(jìn)行實(shí)驗(yàn),獲得最適條件的效率較低。定向突變雖然能夠獲得滿足需求的酶,但對(duì)野生型酶的突變是不可控的,生物研究人員需要對(duì)一種酶執(zhí)行多種突變方案從中篩選預(yù)期的突變體。因此,使用傳統(tǒng)的生物學(xué)方法獲得滿足預(yù)期的突變體酶是困難且低效的。針對(duì)上述問題,本文從酶的氨基酸序列出發(fā),探討酶的最適條件與氨基酸序列的關(guān)聯(lián)關(guān)系。提出了一種將氨基酸以及序列結(jié)構(gòu)信息轉(zhuǎn)化為隱式空間中多維向量的表示學(xué)習(xí)方法。氨基酸和序列位點(diǎn)的向量中包含了氨基酸與序列位點(diǎn)的相容性關(guān)系以及氨基酸和序列位點(diǎn)與最適條件的關(guān)聯(lián)關(guān)系。利用這些向量,本文設(shè)計(jì)了一個(gè)相容性得分來評(píng)估氨基酸與序列位點(diǎn)的相容性。本文利用相容性得分做了一下幾點(diǎn)嘗試:(1)分析酶的保守區(qū)和非保守區(qū):若某些序列片段或位點(diǎn)與不同種類氨基酸的相容性得分均高于其他片段或位點(diǎn),表明該序列片段或位點(diǎn)能夠影響最適條件,則該序列片段或位點(diǎn)為非保守區(qū);反之,則為保守區(qū)。(2)預(yù)測給定酶的最適條件:將氨基酸序列位點(diǎn)與該位點(diǎn)氨基酸的相容性得分作為該位點(diǎn)的特征值,將氨基酸序列轉(zhuǎn)化為蛋白質(zhì)的特征向量,利用回歸模型預(yù)測酶的最適條件。(3)給定預(yù)期條件,對(duì)野生型酶進(jìn)行突變指導(dǎo):在非保守區(qū)中找到相容性得分最低的位點(diǎn),通過替換氨基酸改善該位點(diǎn)的相容性得分,使替換后的突變體的最適條件更加接近預(yù)期條件。(4)給定預(yù)期條件,設(shè)計(jì)氨基酸序列:參考生物學(xué)知識(shí)與規(guī)范,將相容性得分轉(zhuǎn)化成在某個(gè)位點(diǎn)出現(xiàn)某種氨基酸的概率。根據(jù)氨基酸的概率分布為每個(gè)位點(diǎn)選擇合適的氨基酸,從而生成新的氨基酸序列。為了方便實(shí)際應(yīng)用,本文爬取了CAZY數(shù)據(jù)庫中糖化水解酶GH11家族的氨基酸序列,并從相關(guān)文獻(xiàn)中收集125條氨基酸序列的最適pH。由于從機(jī)器學(xué)習(xí)的角度來看,本實(shí)驗(yàn)樣本量較小,因此本文引入了一種面向小樣本的概率生成方法來實(shí)現(xiàn)對(duì)小樣本的表示學(xué)習(xí)。與生物傳統(tǒng)方法相比,本文的表示學(xué)習(xí)方法速度更快,效果更好;與其他計(jì)算方法相比,本文方法輸入更少且更加有效。為了方便生物研究人員對(duì)本文方法的使用,本文開發(fā)了一款面向蛋白質(zhì)家族表示學(xué)習(xí)的可視化工具。該工具提供了簡易的模型調(diào)試操作以及可視化的模型評(píng)估界面,使得生物研究人員不需要了解計(jì)算知識(shí)即可對(duì)模型進(jìn)行修改和使用。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP181;Q51
【圖文】:

框架圖,學(xué)習(xí)模型,應(yīng)用場,框架


邐" ̄?? ̄邋\逡逑圖2-1序列表示學(xué)習(xí)模型及應(yīng)用框架逡逑氨基酸和序列位點(diǎn)向量的學(xué)習(xí)流程和應(yīng)用場景框架如圖2-1所示?蚣軋D的逡逑左上部分是氨基酸和序列位點(diǎn)向量的學(xué)習(xí)部分。其中,黑色箭頭表示數(shù)據(jù)處理過逡逑程和基于兩個(gè)優(yōu)化目標(biāo)的模型訓(xùn)練過程。右下部分為向量應(yīng)用的四個(gè)示例,由紅逡逑色箭頭表示,即:1)預(yù)測序列的最適條件。2)比較同一家族兩個(gè)序列的最適條逡逑件。3)尋找保守區(qū)和非保守區(qū)。4)對(duì)野生型蛋白給出突變建議。其中,灰色箭逡逑頭表示數(shù)據(jù)流。逡逑2.2面向最適條件的氨基酸和序列位點(diǎn)向量的表示學(xué)習(xí)逡逑氨基酸序列的最適條件受兩個(gè)因素影響,一是氨基酸序列由何種氨基酸組成,逡逑二是氨基酸在序列中是如何排布的。由此,引入兩個(gè)目標(biāo)函數(shù)來了解最適條件與逡逑氨基酸序列之間的關(guān)系:1)單個(gè)位點(diǎn)上氨基酸種類對(duì)最適條件的影響。2)不同逡逑位點(diǎn)的氨基酸相互作用共同對(duì)最適條件產(chǎn)生影響。第一個(gè)目標(biāo)用于確定何種氨基逡逑酸在序列的哪個(gè)位置上會(huì)影響酶的最適條件,而第二個(gè)目標(biāo)用于確定影響酶最適逡逑條件的非保守區(qū)域。本文提出了一種表示學(xué)習(xí)方法將兩個(gè)目標(biāo)結(jié)合在一起。通過逡逑對(duì)聯(lián)合目標(biāo)的學(xué)習(xí)

樣本集,訓(xùn)練集,氨基酸序列,隨機(jī)選擇


2.3.3數(shù)據(jù)預(yù)處理逡逑根據(jù)預(yù)期條件將訓(xùn)練集分成心和&兩個(gè)數(shù)據(jù)集,其中&中氨基酸序列的最適逡逑pH更接近預(yù)期條件。例如:預(yù)期條件是耐堿性,則把最適PH高于7的氨基酸逡逑序列劃入心集合中,將最適pH小于等于7的氨基酸序列劃入集合中。按照以逡逑下三步生成樣木:逡逑(1邋)從心中隨機(jī)選擇一條氨基酸序列a,從&中隨機(jī)選擇一條氨基酸序列L逡逑(2)比較這兩條氨基酸序列每個(gè)位點(diǎn)的元素,隨機(jī)選擇一個(gè)差異位點(diǎn)逡逑(3)將(fc,a)放入正樣本集合中,將(fcj)放入負(fù)樣本集合中。逡逑重復(fù)上述三步N次生成正樣本集和負(fù)樣本集。在訓(xùn)練位點(diǎn)和氨基酸的向量逡逑時(shí),隨機(jī)從正負(fù)樣本集中隨機(jī)抽取一個(gè)或多個(gè)正負(fù)樣本進(jìn)行訓(xùn)練。逡逑2.4表示向置的語義分析逡逑

信息增益,位點(diǎn),家族,氨基酸序列


量化了序列最適pH是否高于或低于期望條件的不確定性,如公式(19)所示。逡逑H(y)邋=邋-Ssi=Si,shpC^)邋?邋l0gp(Si)邐(19)逡逑其中,然后,量化當(dāng)確定一個(gè)位點(diǎn)的氨基酸時(shí)能夠多大程度的減少這逡逑I尸I逡逑種不確定性。對(duì)于給定位點(diǎn)/c,條件熵//(y|cfc)量化了當(dāng)己知該位點(diǎn)的氨基酸為cfc逡逑時(shí)最適邋pH邋的不確定性,即:.邋Z05PCS"i|cfc)。位點(diǎn)fc逡逑的條件熵為=ECfce』^^H(y|Cfc),其中表示第fc個(gè)位點(diǎn)上是氨基酸&逡逑的序列集合。最后,通過公式Gain(/c)邋=邋H(y)邋-邋//(y|/c)計(jì)算氨基酸序列第々個(gè)位逡逑點(diǎn)的信息增益。以散點(diǎn)圖的形式展示GH11家族氨基酸序列集合每個(gè)位點(diǎn)的信息逡逑增益。如圖2-3所示,橫坐標(biāo)表示對(duì)齊序列上的位點(diǎn),縱坐標(biāo)表示位點(diǎn)的信息增逡逑益。逡逑

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周勤;實(shí)驗(yàn)設(shè)計(jì)與分析中確定最適條件的統(tǒng)計(jì)試驗(yàn)實(shí)現(xiàn)方法[J];山東建材學(xué)院學(xué)報(bào);1998年01期

2 王愛華,靳亞平,武浩;豬PBMC產(chǎn)生IL-2最適條件的探討[J];西北農(nóng)業(yè)學(xué)報(bào);2000年03期

3 鄭健;郭守華;宋瑜;鄭勇奇;楊曉燕;苑林;;臭椿種子萌發(fā)最適條件研究[J];西北植物學(xué)報(bào);2007年05期

4 魏杰;候蕭;李輝;劉宏生;;產(chǎn)谷氨酰胺合成酶發(fā)酵條件的研究[J];遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期

5 王珊,金先慶,楊純正,齊靜;探討MDR1基因轉(zhuǎn)染k562細(xì)胞的最適條件[J];中華小兒外科雜志;2002年06期

6 孫蕓;毛彩霞;景崤壁;;探究銅和濃硫酸反應(yīng)的最適條件[J];中學(xué)生數(shù)理化(學(xué)習(xí)研究);2016年10期

7 張霞,張利;液態(tài)高溫糖化——固態(tài)酒化醋化工藝生產(chǎn)優(yōu)質(zhì)香醋[J];中國調(diào)味品;2002年10期

8 艾斯卡爾·依米提,哈木拉提·吾甫爾,伊力哈木江·沙比提;AP-RCR方法進(jìn)行基因多態(tài)性分析時(shí)最佳反應(yīng)條件的構(gòu)建[J];新疆醫(yī)科大學(xué)學(xué)報(bào);2000年03期

9 孫燕;洪青;李順鵬;;一株生物表面活性劑產(chǎn)生菌的分離及其特性研究[J];微生物學(xué)通報(bào);2009年08期

10 鄒糧澤;李樂;吳貴富;張敏;金英海;;乳酸菌發(fā)酵米糠富鍺條件的篩選[J];吉林畜牧獸醫(yī);2017年09期

相關(guān)會(huì)議論文 前1條

1 黃燕華;馮定遠(yuǎn);;不同來源纖維素酶的酶活最適條件研究[A];酶制劑在飼料工業(yè)中的應(yīng)用[C];2005年

相關(guān)博士學(xué)位論文 前1條

1 陳朋;氧化亞鐵硫桿菌生物浸出雄黃系統(tǒng)研究[D];蘭州大學(xué);2011年

相關(guān)碩士學(xué)位論文 前2條

1 李相君;基于蛋白質(zhì)序列的表示學(xué)習(xí)和最適條件分析[D];山東大學(xué);2019年

2 王迪;消化法檢驗(yàn)旋毛蟲最適條件的篩選[D];吉林大學(xué);2014年



本文編號(hào):2757798

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2757798.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7cf7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com