新型生物酶的挖掘算法研究
發(fā)布時(shí)間:2020-12-30 02:38
鹵醇脫鹵酶是一類重要的蛋白質(zhì),它不僅能通過(guò)開(kāi)環(huán)反應(yīng)催化有毒污染物的降解,還能作為親核試劑促進(jìn)高價(jià)值藥物中間體的生成。鹵醇脫鹵酶在自然界中的分布極為稀少,目前僅在少數(shù)菌株中發(fā)現(xiàn)過(guò)鹵醇脫鹵酶酶活性的表達(dá)。已有的生成鹵醇脫鹵酶的生物實(shí)驗(yàn)雖然可行,但存在成本高昂且效率過(guò)低的問(wèn)題。因此,根據(jù)已測(cè)定的鹵醇脫鹵酶序列高效挖掘更多的新鹵醇脫鹵酶序列,豐富已有的鹵醇脫鹵酶數(shù)據(jù)集的需求顯得尤為迫切。另一方面,深度生成模型在圖像處理、語(yǔ)音識(shí)別和文本生成領(lǐng)域都取得了令人驚喜的成果,但在生物序列方面的應(yīng)用仍然存在較大的空白。綜合考慮以上兩個(gè)因素,本文提出了一種新的研究思路——將深度生成模型應(yīng)用于新型鹵醇脫鹵酶序列挖掘研究之中。為實(shí)現(xiàn)新鹵醇脫鹵酶序列的挖掘,本文首先根據(jù)已有相關(guān)的序列知識(shí)構(gòu)建鹵醇脫鹵酶數(shù)據(jù)集,然后識(shí)別鹵醇脫鹵酶序列中的模體,再使用深度生成模型生成新鹵醇脫鹵酶序列,最后建立分類模型對(duì)生成的序列進(jìn)行挖掘預(yù)測(cè)。本文主要內(nèi)容及創(chuàng)新點(diǎn)如下:1)提出了將模體的判別能力考慮在內(nèi)的模體識(shí)別算法。使用已有的MEME算法識(shí)別鹵醇脫鹵酶正樣本包含的模體后,計(jì)算模體的判別式評(píng)分特征(MSC、MOR和MRE),并據(jù)此篩選過(guò)...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
遺傳信息在生物大分子之間的傳遞
表 2-1 組成蛋白質(zhì)序列的 20 種氨基酸及其縮寫(xiě)Alanine A CysteiAspartic GlutamPhenylalanine GlyciHistidine IsoleucLysineD F H K LeuciMethionine AsparagProline G uP taMl稱 英文名稱 縮寫(xiě)氨基酸名稱 半胱氨酸 谷氨酰胺 甘氨酸 異亮氨酸 天冬英文名酰胺 谷氨酸亮氨酸mArginine SerinThreonineR T ValinTryptophan WTyrosi 絲氨酸 纈氨酸 酪氨酸
第二章 相關(guān)理論概述2.3.1.3 可視化 logo 表示法序列 logo 是序列保守區(qū)域的可視化表示,通過(guò)對(duì)每一個(gè)殘基位置的可能出現(xiàn)的字母的頻率進(jìn)行繪制,可以直觀的展示模體中的保守位置以及對(duì)應(yīng)的字符。在logo 圖中,橫坐標(biāo)是共有序列的位置,縱坐標(biāo)代表出現(xiàn)在對(duì)應(yīng)序列位置上的字符出現(xiàn)的頻率。通過(guò)觀察字符的高低來(lái)判斷字符在當(dāng)前位置所包含的信息量。字符在某個(gè)位置上的高度越高,說(shuō)明該字符在這個(gè)位置上越保守。借助于 WebLogo[29],對(duì)圖 2-5 中包含的模體的可視化表示,詳見(jiàn)圖 2-6。
【參考文獻(xiàn)】:
期刊論文
[1]合成生物學(xué)發(fā)展現(xiàn)狀與前景[J]. 熊燕,陳大明,楊琛,趙國(guó)屏. 生命科學(xué). 2011(09)
碩士論文
[1]用于蛋白質(zhì)二級(jí)結(jié)構(gòu)設(shè)計(jì)的深度生成模型的研究與應(yīng)用[D]. 常菁.北京交通大學(xué) 2018
本文編號(hào):2946816
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
遺傳信息在生物大分子之間的傳遞
表 2-1 組成蛋白質(zhì)序列的 20 種氨基酸及其縮寫(xiě)Alanine A CysteiAspartic GlutamPhenylalanine GlyciHistidine IsoleucLysineD F H K LeuciMethionine AsparagProline G uP taMl稱 英文名稱 縮寫(xiě)氨基酸名稱 半胱氨酸 谷氨酰胺 甘氨酸 異亮氨酸 天冬英文名酰胺 谷氨酸亮氨酸mArginine SerinThreonineR T ValinTryptophan WTyrosi 絲氨酸 纈氨酸 酪氨酸
第二章 相關(guān)理論概述2.3.1.3 可視化 logo 表示法序列 logo 是序列保守區(qū)域的可視化表示,通過(guò)對(duì)每一個(gè)殘基位置的可能出現(xiàn)的字母的頻率進(jìn)行繪制,可以直觀的展示模體中的保守位置以及對(duì)應(yīng)的字符。在logo 圖中,橫坐標(biāo)是共有序列的位置,縱坐標(biāo)代表出現(xiàn)在對(duì)應(yīng)序列位置上的字符出現(xiàn)的頻率。通過(guò)觀察字符的高低來(lái)判斷字符在當(dāng)前位置所包含的信息量。字符在某個(gè)位置上的高度越高,說(shuō)明該字符在這個(gè)位置上越保守。借助于 WebLogo[29],對(duì)圖 2-5 中包含的模體的可視化表示,詳見(jiàn)圖 2-6。
【參考文獻(xiàn)】:
期刊論文
[1]合成生物學(xué)發(fā)展現(xiàn)狀與前景[J]. 熊燕,陳大明,楊琛,趙國(guó)屏. 生命科學(xué). 2011(09)
碩士論文
[1]用于蛋白質(zhì)二級(jí)結(jié)構(gòu)設(shè)計(jì)的深度生成模型的研究與應(yīng)用[D]. 常菁.北京交通大學(xué) 2018
本文編號(hào):2946816
本文鏈接:http://sikaile.net/projectlw/swxlw/2946816.html
最近更新
教材專著