天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 理工論文 > 生物學論文 >

基于蛋白質(zhì)序列的表示學習和最適條件分析

發(fā)布時間:2020-07-16 08:57
【摘要】:蛋白質(zhì)是具有復(fù)雜結(jié)構(gòu)的化合物,是生命體細胞中重要的組成成分。酶是一類具有催化作用的蛋白質(zhì),其只能在例如:酸性環(huán)境,高溫環(huán)境等特定的環(huán)境條件中發(fā)揮催化作用。能夠使酶發(fā)揮最大催化作用的環(huán)境條件稱為最適條件。自然界中的野生型酶不能在研究人員預(yù)期條件下發(fā)揮良好的催化作用。因此獲得酶的最適條件,并利用蛋白質(zhì)工程使突變體能夠在預(yù)期環(huán)境中發(fā)揮催化作用,一直是生命科學研究的熱點。生物研究人員通常使用梯度試驗獲得野生型酶的最適條件。然后,利用三級結(jié)構(gòu)分析結(jié)構(gòu)與最適條件的關(guān)系,通過定向突變獲得野生型酶的多種突變體。最后,通過篩選找到能夠在預(yù)期環(huán)境條件種發(fā)揮催化作用的突變體。但梯度試驗過程繁瑣,單次實驗只能對單個酶進行實驗,獲得最適條件的效率較低。定向突變雖然能夠獲得滿足需求的酶,但對野生型酶的突變是不可控的,生物研究人員需要對一種酶執(zhí)行多種突變方案從中篩選預(yù)期的突變體。因此,使用傳統(tǒng)的生物學方法獲得滿足預(yù)期的突變體酶是困難且低效的。針對上述問題,本文從酶的氨基酸序列出發(fā),探討酶的最適條件與氨基酸序列的關(guān)聯(lián)關(guān)系。提出了一種將氨基酸以及序列結(jié)構(gòu)信息轉(zhuǎn)化為隱式空間中多維向量的表示學習方法。氨基酸和序列位點的向量中包含了氨基酸與序列位點的相容性關(guān)系以及氨基酸和序列位點與最適條件的關(guān)聯(lián)關(guān)系。利用這些向量,本文設(shè)計了一個相容性得分來評估氨基酸與序列位點的相容性。本文利用相容性得分做了一下幾點嘗試:(1)分析酶的保守區(qū)和非保守區(qū):若某些序列片段或位點與不同種類氨基酸的相容性得分均高于其他片段或位點,表明該序列片段或位點能夠影響最適條件,則該序列片段或位點為非保守區(qū);反之,則為保守區(qū)。(2)預(yù)測給定酶的最適條件:將氨基酸序列位點與該位點氨基酸的相容性得分作為該位點的特征值,將氨基酸序列轉(zhuǎn)化為蛋白質(zhì)的特征向量,利用回歸模型預(yù)測酶的最適條件。(3)給定預(yù)期條件,對野生型酶進行突變指導(dǎo):在非保守區(qū)中找到相容性得分最低的位點,通過替換氨基酸改善該位點的相容性得分,使替換后的突變體的最適條件更加接近預(yù)期條件。(4)給定預(yù)期條件,設(shè)計氨基酸序列:參考生物學知識與規(guī)范,將相容性得分轉(zhuǎn)化成在某個位點出現(xiàn)某種氨基酸的概率。根據(jù)氨基酸的概率分布為每個位點選擇合適的氨基酸,從而生成新的氨基酸序列。為了方便實際應(yīng)用,本文爬取了CAZY數(shù)據(jù)庫中糖化水解酶GH11家族的氨基酸序列,并從相關(guān)文獻中收集125條氨基酸序列的最適pH。由于從機器學習的角度來看,本實驗樣本量較小,因此本文引入了一種面向小樣本的概率生成方法來實現(xiàn)對小樣本的表示學習。與生物傳統(tǒng)方法相比,本文的表示學習方法速度更快,效果更好;與其他計算方法相比,本文方法輸入更少且更加有效。為了方便生物研究人員對本文方法的使用,本文開發(fā)了一款面向蛋白質(zhì)家族表示學習的可視化工具。該工具提供了簡易的模型調(diào)試操作以及可視化的模型評估界面,使得生物研究人員不需要了解計算知識即可對模型進行修改和使用。
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP181;Q51
【圖文】:

框架圖,學習模型,應(yīng)用場,框架


邐" ̄?? ̄邋\逡逑圖2-1序列表示學習模型及應(yīng)用框架逡逑氨基酸和序列位點向量的學習流程和應(yīng)用場景框架如圖2-1所示。框架圖的逡逑左上部分是氨基酸和序列位點向量的學習部分。其中,黑色箭頭表示數(shù)據(jù)處理過逡逑程和基于兩個優(yōu)化目標的模型訓練過程。右下部分為向量應(yīng)用的四個示例,由紅逡逑色箭頭表示,即:1)預(yù)測序列的最適條件。2)比較同一家族兩個序列的最適條逡逑件。3)尋找保守區(qū)和非保守區(qū)。4)對野生型蛋白給出突變建議。其中,灰色箭逡逑頭表示數(shù)據(jù)流。逡逑2.2面向最適條件的氨基酸和序列位點向量的表示學習逡逑氨基酸序列的最適條件受兩個因素影響,一是氨基酸序列由何種氨基酸組成,逡逑二是氨基酸在序列中是如何排布的。由此,引入兩個目標函數(shù)來了解最適條件與逡逑氨基酸序列之間的關(guān)系:1)單個位點上氨基酸種類對最適條件的影響。2)不同逡逑位點的氨基酸相互作用共同對最適條件產(chǎn)生影響。第一個目標用于確定何種氨基逡逑酸在序列的哪個位置上會影響酶的最適條件,而第二個目標用于確定影響酶最適逡逑條件的非保守區(qū)域。本文提出了一種表示學習方法將兩個目標結(jié)合在一起。通過逡逑對聯(lián)合目標的學習

樣本集,訓練集,氨基酸序列,隨機選擇


2.3.3數(shù)據(jù)預(yù)處理逡逑根據(jù)預(yù)期條件將訓練集分成心和&兩個數(shù)據(jù)集,其中&中氨基酸序列的最適逡逑pH更接近預(yù)期條件。例如:預(yù)期條件是耐堿性,則把最適PH高于7的氨基酸逡逑序列劃入心集合中,將最適pH小于等于7的氨基酸序列劃入集合中。按照以逡逑下三步生成樣木:逡逑(1邋)從心中隨機選擇一條氨基酸序列a,從&中隨機選擇一條氨基酸序列L逡逑(2)比較這兩條氨基酸序列每個位點的元素,隨機選擇一個差異位點逡逑(3)將(fc,a)放入正樣本集合中,將(fcj)放入負樣本集合中。逡逑重復(fù)上述三步N次生成正樣本集和負樣本集。在訓練位點和氨基酸的向量逡逑時,隨機從正負樣本集中隨機抽取一個或多個正負樣本進行訓練。逡逑2.4表示向置的語義分析逡逑

信息增益,位點,家族,氨基酸序列


量化了序列最適pH是否高于或低于期望條件的不確定性,如公式(19)所示。逡逑H(y)邋=邋-Ssi=Si,shpC^)邋?邋l0gp(Si)邐(19)逡逑其中,然后,量化當確定一個位點的氨基酸時能夠多大程度的減少這逡逑I尸I逡逑種不確定性。對于給定位點/c,條件熵//(y|cfc)量化了當己知該位點的氨基酸為cfc逡逑時最適邋pH邋的不確定性,即:.邋Z05PCS"i|cfc)。位點fc逡逑的條件熵為=ECfce』^^H(y|Cfc),其中表示第fc個位點上是氨基酸&逡逑的序列集合。最后,通過公式Gain(/c)邋=邋H(y)邋-邋//(y|/c)計算氨基酸序列第々個位逡逑點的信息增益。以散點圖的形式展示GH11家族氨基酸序列集合每個位點的信息逡逑增益。如圖2-3所示,橫坐標表示對齊序列上的位點,縱坐標表示位點的信息增逡逑益。逡逑

【相似文獻】

相關(guān)期刊論文 前10條

1 周勤;實驗設(shè)計與分析中確定最適條件的統(tǒng)計試驗實現(xiàn)方法[J];山東建材學院學報;1998年01期

2 王愛華,靳亞平,武浩;豬PBMC產(chǎn)生IL-2最適條件的探討[J];西北農(nóng)業(yè)學報;2000年03期

3 鄭健;郭守華;宋瑜;鄭勇奇;楊曉燕;苑林;;臭椿種子萌發(fā)最適條件研究[J];西北植物學報;2007年05期

4 魏杰;候蕭;李輝;劉宏生;;產(chǎn)谷氨酰胺合成酶發(fā)酵條件的研究[J];遼寧大學學報(自然科學版);2006年03期

5 王珊,金先慶,楊純正,齊靜;探討MDR1基因轉(zhuǎn)染k562細胞的最適條件[J];中華小兒外科雜志;2002年06期

6 孫蕓;毛彩霞;景崤壁;;探究銅和濃硫酸反應(yīng)的最適條件[J];中學生數(shù)理化(學習研究);2016年10期

7 張霞,張利;液態(tài)高溫糖化——固態(tài)酒化醋化工藝生產(chǎn)優(yōu)質(zhì)香醋[J];中國調(diào)味品;2002年10期

8 艾斯卡爾·依米提,哈木拉提·吾甫爾,伊力哈木江·沙比提;AP-RCR方法進行基因多態(tài)性分析時最佳反應(yīng)條件的構(gòu)建[J];新疆醫(yī)科大學學報;2000年03期

9 孫燕;洪青;李順鵬;;一株生物表面活性劑產(chǎn)生菌的分離及其特性研究[J];微生物學通報;2009年08期

10 鄒糧澤;李樂;吳貴富;張敏;金英海;;乳酸菌發(fā)酵米糠富鍺條件的篩選[J];吉林畜牧獸醫(yī);2017年09期

相關(guān)會議論文 前1條

1 黃燕華;馮定遠;;不同來源纖維素酶的酶活最適條件研究[A];酶制劑在飼料工業(yè)中的應(yīng)用[C];2005年

相關(guān)博士學位論文 前1條

1 陳朋;氧化亞鐵硫桿菌生物浸出雄黃系統(tǒng)研究[D];蘭州大學;2011年

相關(guān)碩士學位論文 前2條

1 李相君;基于蛋白質(zhì)序列的表示學習和最適條件分析[D];山東大學;2019年

2 王迪;消化法檢驗旋毛蟲最適條件的篩選[D];吉林大學;2014年



本文編號:2757798

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2757798.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7cf7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
有坂深雪中文字幕亚洲中文| 亚洲一区二区三区国产| 欧美自拍偷自拍亚洲精品| 日本加勒比中文在线观看| 色综合久久超碰色婷婷| 国产肥妇一区二区熟女精品| 99在线视频精品免费播放| 国产一二三区不卡视频| 一区二区三区四区亚洲另类| 91欧美一区二区三区成人| 国产人妻精品区一区二区三区| 中文字幕精品一区二区三| 偷拍美女洗澡免费视频| 国产内射一级二级三级| 色婷婷人妻av毛片一区二区三区| 久久这里只有精品中文字幕| 欧美一区二区日韩一区二区| 精品熟女少妇一区二区三区| 老司机精品视频在线免费| 日本道播放一区二区三区| 日韩一区二区三区有码| 国产av精品一区二区| 久久国产精品熟女一区二区三区| 亚洲做性视频在线播放| 国产精品午夜性色视频| 国产一区国产二区在线视频| 日本三区不卡高清更新二区| 日韩精品一级片免费看| 丰满人妻熟妇乱又伦精另类视频| 麻豆国产精品一区二区三区| 丰满人妻一二区二区三区av| 成人午夜激情免费在线| 国产一区二区精品高清免费| 日韩亚洲精品国产第二页| 国产丝袜美女诱惑一区二区| 久久精品一区二区少妇| 久一视频这里只有精品| 日韩欧美中文字幕av| 成年人免费看国产视频| 国自产拍偷拍福利精品图片| 中国一区二区三区不卡|