基于蛋白質(zhì)序列的表示學習和最適條件分析
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP181;Q51
【圖文】:
邐" ̄?? ̄邋\逡逑圖2-1序列表示學習模型及應(yīng)用框架逡逑氨基酸和序列位點向量的學習流程和應(yīng)用場景框架如圖2-1所示。框架圖的逡逑左上部分是氨基酸和序列位點向量的學習部分。其中,黑色箭頭表示數(shù)據(jù)處理過逡逑程和基于兩個優(yōu)化目標的模型訓練過程。右下部分為向量應(yīng)用的四個示例,由紅逡逑色箭頭表示,即:1)預(yù)測序列的最適條件。2)比較同一家族兩個序列的最適條逡逑件。3)尋找保守區(qū)和非保守區(qū)。4)對野生型蛋白給出突變建議。其中,灰色箭逡逑頭表示數(shù)據(jù)流。逡逑2.2面向最適條件的氨基酸和序列位點向量的表示學習逡逑氨基酸序列的最適條件受兩個因素影響,一是氨基酸序列由何種氨基酸組成,逡逑二是氨基酸在序列中是如何排布的。由此,引入兩個目標函數(shù)來了解最適條件與逡逑氨基酸序列之間的關(guān)系:1)單個位點上氨基酸種類對最適條件的影響。2)不同逡逑位點的氨基酸相互作用共同對最適條件產(chǎn)生影響。第一個目標用于確定何種氨基逡逑酸在序列的哪個位置上會影響酶的最適條件,而第二個目標用于確定影響酶最適逡逑條件的非保守區(qū)域。本文提出了一種表示學習方法將兩個目標結(jié)合在一起。通過逡逑對聯(lián)合目標的學習
2.3.3數(shù)據(jù)預(yù)處理逡逑根據(jù)預(yù)期條件將訓練集分成心和&兩個數(shù)據(jù)集,其中&中氨基酸序列的最適逡逑pH更接近預(yù)期條件。例如:預(yù)期條件是耐堿性,則把最適PH高于7的氨基酸逡逑序列劃入心集合中,將最適pH小于等于7的氨基酸序列劃入集合中。按照以逡逑下三步生成樣木:逡逑(1邋)從心中隨機選擇一條氨基酸序列a,從&中隨機選擇一條氨基酸序列L逡逑(2)比較這兩條氨基酸序列每個位點的元素,隨機選擇一個差異位點逡逑(3)將(fc,a)放入正樣本集合中,將(fcj)放入負樣本集合中。逡逑重復(fù)上述三步N次生成正樣本集和負樣本集。在訓練位點和氨基酸的向量逡逑時,隨機從正負樣本集中隨機抽取一個或多個正負樣本進行訓練。逡逑2.4表示向置的語義分析逡逑
量化了序列最適pH是否高于或低于期望條件的不確定性,如公式(19)所示。逡逑H(y)邋=邋-Ssi=Si,shpC^)邋?邋l0gp(Si)邐(19)逡逑其中,然后,量化當確定一個位點的氨基酸時能夠多大程度的減少這逡逑I尸I逡逑種不確定性。對于給定位點/c,條件熵//(y|cfc)量化了當己知該位點的氨基酸為cfc逡逑時最適邋pH邋的不確定性,即:.邋Z05PCS"i|cfc)。位點fc逡逑的條件熵為=ECfce』^^H(y|Cfc),其中表示第fc個位點上是氨基酸&逡逑的序列集合。最后,通過公式Gain(/c)邋=邋H(y)邋-邋//(y|/c)計算氨基酸序列第々個位逡逑點的信息增益。以散點圖的形式展示GH11家族氨基酸序列集合每個位點的信息逡逑增益。如圖2-3所示,橫坐標表示對齊序列上的位點,縱坐標表示位點的信息增逡逑益。逡逑
【相似文獻】
相關(guān)期刊論文 前10條
1 周勤;實驗設(shè)計與分析中確定最適條件的統(tǒng)計試驗實現(xiàn)方法[J];山東建材學院學報;1998年01期
2 王愛華,靳亞平,武浩;豬PBMC產(chǎn)生IL-2最適條件的探討[J];西北農(nóng)業(yè)學報;2000年03期
3 鄭健;郭守華;宋瑜;鄭勇奇;楊曉燕;苑林;;臭椿種子萌發(fā)最適條件研究[J];西北植物學報;2007年05期
4 魏杰;候蕭;李輝;劉宏生;;產(chǎn)谷氨酰胺合成酶發(fā)酵條件的研究[J];遼寧大學學報(自然科學版);2006年03期
5 王珊,金先慶,楊純正,齊靜;探討MDR1基因轉(zhuǎn)染k562細胞的最適條件[J];中華小兒外科雜志;2002年06期
6 孫蕓;毛彩霞;景崤壁;;探究銅和濃硫酸反應(yīng)的最適條件[J];中學生數(shù)理化(學習研究);2016年10期
7 張霞,張利;液態(tài)高溫糖化——固態(tài)酒化醋化工藝生產(chǎn)優(yōu)質(zhì)香醋[J];中國調(diào)味品;2002年10期
8 艾斯卡爾·依米提,哈木拉提·吾甫爾,伊力哈木江·沙比提;AP-RCR方法進行基因多態(tài)性分析時最佳反應(yīng)條件的構(gòu)建[J];新疆醫(yī)科大學學報;2000年03期
9 孫燕;洪青;李順鵬;;一株生物表面活性劑產(chǎn)生菌的分離及其特性研究[J];微生物學通報;2009年08期
10 鄒糧澤;李樂;吳貴富;張敏;金英海;;乳酸菌發(fā)酵米糠富鍺條件的篩選[J];吉林畜牧獸醫(yī);2017年09期
相關(guān)會議論文 前1條
1 黃燕華;馮定遠;;不同來源纖維素酶的酶活最適條件研究[A];酶制劑在飼料工業(yè)中的應(yīng)用[C];2005年
相關(guān)博士學位論文 前1條
1 陳朋;氧化亞鐵硫桿菌生物浸出雄黃系統(tǒng)研究[D];蘭州大學;2011年
相關(guān)碩士學位論文 前2條
1 李相君;基于蛋白質(zhì)序列的表示學習和最適條件分析[D];山東大學;2019年
2 王迪;消化法檢驗旋毛蟲最適條件的篩選[D];吉林大學;2014年
本文編號:2757798
本文鏈接:http://sikaile.net/projectlw/swxlw/2757798.html