基于Transformer模型的蛋白質(zhì)序列分析
發(fā)布時(shí)間:2021-10-10 17:23
蛋白質(zhì)是組成人體一切細(xì)胞、組織的重要成分,機(jī)體所有重要的生命活動(dòng)都需要蛋白質(zhì)的參與。氨基酸是蛋白質(zhì)的基本組成元素,不同氨基酸的排列組合構(gòu)成了蛋白質(zhì)的基本序列骨架,稱(chēng)為蛋白質(zhì)序列。通過(guò)分析蛋白質(zhì)序列對(duì)進(jìn)一步分析蛋白質(zhì)的高級(jí)結(jié)構(gòu)信息有著極大幫助,這也是對(duì)蛋白質(zhì)結(jié)構(gòu)乃至功能進(jìn)行分析的前提和基礎(chǔ),并對(duì)下游的藥物設(shè)計(jì)等應(yīng)用領(lǐng)域也有一定的指導(dǎo)作用。蛋白質(zhì)序列分析的首要步驟是先對(duì)蛋白質(zhì)序列進(jìn)行編碼提取特征。目前較為常用的編碼方式包括將氨基酸殘基轉(zhuǎn)變?yōu)檎幌蛄康膐ne-hot編碼形式、利用多序列比對(duì)打分構(gòu)建PSSM譜編碼的方法和將氨基酸序列通過(guò)word2vec等工具生成氨基酸向量編碼等。本文分別結(jié)合了以上這幾種特征分析了蛋白質(zhì)序列的信息。現(xiàn)有的蛋白質(zhì)序列分析模型中基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的方法效果比較突出,這主要是因?yàn)榈鞍踪|(zhì)的序列信息可以和文本的信息有很好的類(lèi)比相似性。但是RNN,LSTM等模型在有效獲得長(zhǎng)距離輸入信息之間的相互依賴關(guān)系方面還有一定缺陷。另一方面,蛋白質(zhì)序列在局部的范圍內(nèi)相鄰氨基酸殘基會(huì)通過(guò)化學(xué)鍵相互連接,而局部氨基酸基團(tuán)和相鄰的氨基酸基團(tuán)間又通過(guò)各種分子作用力相互影響,這也為蛋白質(zhì)序列分...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
蛋白質(zhì)的四級(jí)結(jié)構(gòu)的空間轉(zhuǎn)化過(guò)程
第1章引言9PSSM也是目前被使用最為廣泛的特征。1.2.2位置特異性得分矩陣PSSM通過(guò)生物學(xué)研究已經(jīng)發(fā)現(xiàn)具有相似的組成結(jié)構(gòu)和性質(zhì)功能的不同蛋白質(zhì)之間往往他們的氨基酸組成和排列順序也是非常相似的,經(jīng)實(shí)驗(yàn)證明進(jìn)行蛋白質(zhì)的多序列比對(duì)測(cè)算可以幫助比較、分析出一個(gè)沒(méi)有見(jiàn)過(guò)的新蛋白質(zhì)的二級(jí)或三級(jí)結(jié)構(gòu)等,也可以通過(guò)類(lèi)比分析相似的同源蛋白質(zhì)出新推測(cè)種蛋白質(zhì)的性質(zhì)和功能,所以不同的蛋白質(zhì)之間進(jìn)行序列對(duì)比是十分有價(jià)值的。所以往往對(duì)一條蛋白質(zhì)分析的時(shí)候不僅簡(jiǎn)單分析其組成,還會(huì)進(jìn)行多序列比對(duì)建模,根據(jù)相似序列的性質(zhì)來(lái)對(duì)被分析的蛋白質(zhì)序列的性質(zhì)進(jìn)行驗(yàn)證。圖1.2蛋白質(zhì)譜文件產(chǎn)生過(guò)程N(yùn)iermann等人(1987)率先根據(jù)蛋白質(zhì)多序列比對(duì)信息思想[11],觀察了色氨酸合成酶α-亞基的序列異變模式,通過(guò)對(duì)氨基酸相似序列的插入和刪除的位置信息進(jìn)行分析,首次成功通過(guò)多序列比對(duì)的方法預(yù)測(cè)了色氨酸合成酶α-亞基的二級(jí)結(jié)構(gòu)[12],之后由Zvelebil等人(1987)通過(guò)對(duì)大量實(shí)驗(yàn)的數(shù)據(jù)分析提出了蛋白質(zhì)多序列對(duì)比分析的通用方法[13]。根據(jù)多序列比對(duì)分析的這種方法的總結(jié),于1999年由Jones等人提出了位置特異性計(jì)分矩陣(PositionSpecificScoringMatrices,PSSM)——譜編碼,之后PSSM碼就成為了一個(gè)通用的標(biāo)準(zhǔn)被大家廣泛使用。PSSM碼的計(jì)算方法是基于局部對(duì)比算法:PSI-BLAST算法。為了得到PSSM碼,
選出我們目標(biāo)蛋白質(zhì)的相似程度最高的序列,然后PSI-BLAST方法根據(jù)得到的相似蛋白質(zhì)序列,計(jì)算得到最后的序列譜文件,即PSSM譜文件。經(jīng)過(guò)多年的優(yōu)化,目前整個(gè)相似序列搜索過(guò)程都是在服務(wù)器端直接操作,只需要3分鐘就可以得到我們的要分析的蛋白質(zhì)的譜文件。這些PSSM文件產(chǎn)生過(guò)成如上圖1.2展示。通過(guò)BLAST方法我們可以輕松獲得新的蛋白質(zhì)的相似序列,我們得到的結(jié)果如下,從圖中我們可以看到目標(biāo)蛋白質(zhì)的每個(gè)氨基酸位置都對(duì)應(yīng)了相似氨基酸的一系列氨基酸種類(lèi),PSSM碼是記錄了每個(gè)位點(diǎn)各個(gè)氨基酸出現(xiàn)的概率的一組矢量,以下圖1.3為例我們可以分析倒數(shù)第二列的比對(duì)結(jié)果得到的苯丙氨酸(F代表苯丙氨酸)在整個(gè)相似序列比對(duì)中占比為0.83333,而酪氨酸(Y代表酪氨酸)占比為0.16666,為了比較不同氨基酸占比,采用每個(gè)氨基酸位點(diǎn)都有20個(gè)位置,每個(gè)位置分別代表各個(gè)氨基酸在這個(gè)位置的出現(xiàn)概率,即PSSM碼的維度一般為[Nx20](其中N為蛋白質(zhì)的氨基酸序列長(zhǎng)度)。按照上述計(jì)算即此時(shí)我們可以得到在這個(gè)位置的PSSM碼為[0,0,0,0,0.16666,0......0.83333,0,0]。圖1.3對(duì)序列比對(duì)結(jié)果1.2.3常用特征選擇方法介紹關(guān)于蛋白質(zhì)的生物特性和化學(xué)特性有著很多的度量標(biāo)準(zhǔn),各種度量數(shù)值在各個(gè)方面影響著蛋白質(zhì)的性質(zhì),在機(jī)器學(xué)習(xí)過(guò)程中,我們無(wú)法將蛋白質(zhì)所有信息特征都收集到,也沒(méi)有必要將所有信息都作為網(wǎng)絡(luò)的輸入特征,否則這樣設(shè)計(jì)的分類(lèi)器的開(kāi)銷(xiāo)很大,并且分類(lèi)性能也會(huì)非常差,所以從各種各樣的屬性值中找出我們所需要的特征非常有必要。在已知的各種標(biāo)準(zhǔn)屬性中挑選出不同實(shí)驗(yàn)所需要的特征子集的這個(gè)過(guò)程需要找到合適的特征選擇的方法,下面本文對(duì)幾種常見(jiàn)方法進(jìn)行了介紹。
【參考文獻(xiàn)】:
碩士論文
[1]氨基酸的分布式表示方法及其在蛋白質(zhì)序列分析中應(yīng)用[D]. 何柳.吉林大學(xué) 2019
[2]利用序列信息預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的深度學(xué)習(xí)模型研究[D]. 吳輝.天津大學(xué) 2017
本文編號(hào):3428822
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
蛋白質(zhì)的四級(jí)結(jié)構(gòu)的空間轉(zhuǎn)化過(guò)程
第1章引言9PSSM也是目前被使用最為廣泛的特征。1.2.2位置特異性得分矩陣PSSM通過(guò)生物學(xué)研究已經(jīng)發(fā)現(xiàn)具有相似的組成結(jié)構(gòu)和性質(zhì)功能的不同蛋白質(zhì)之間往往他們的氨基酸組成和排列順序也是非常相似的,經(jīng)實(shí)驗(yàn)證明進(jìn)行蛋白質(zhì)的多序列比對(duì)測(cè)算可以幫助比較、分析出一個(gè)沒(méi)有見(jiàn)過(guò)的新蛋白質(zhì)的二級(jí)或三級(jí)結(jié)構(gòu)等,也可以通過(guò)類(lèi)比分析相似的同源蛋白質(zhì)出新推測(cè)種蛋白質(zhì)的性質(zhì)和功能,所以不同的蛋白質(zhì)之間進(jìn)行序列對(duì)比是十分有價(jià)值的。所以往往對(duì)一條蛋白質(zhì)分析的時(shí)候不僅簡(jiǎn)單分析其組成,還會(huì)進(jìn)行多序列比對(duì)建模,根據(jù)相似序列的性質(zhì)來(lái)對(duì)被分析的蛋白質(zhì)序列的性質(zhì)進(jìn)行驗(yàn)證。圖1.2蛋白質(zhì)譜文件產(chǎn)生過(guò)程N(yùn)iermann等人(1987)率先根據(jù)蛋白質(zhì)多序列比對(duì)信息思想[11],觀察了色氨酸合成酶α-亞基的序列異變模式,通過(guò)對(duì)氨基酸相似序列的插入和刪除的位置信息進(jìn)行分析,首次成功通過(guò)多序列比對(duì)的方法預(yù)測(cè)了色氨酸合成酶α-亞基的二級(jí)結(jié)構(gòu)[12],之后由Zvelebil等人(1987)通過(guò)對(duì)大量實(shí)驗(yàn)的數(shù)據(jù)分析提出了蛋白質(zhì)多序列對(duì)比分析的通用方法[13]。根據(jù)多序列比對(duì)分析的這種方法的總結(jié),于1999年由Jones等人提出了位置特異性計(jì)分矩陣(PositionSpecificScoringMatrices,PSSM)——譜編碼,之后PSSM碼就成為了一個(gè)通用的標(biāo)準(zhǔn)被大家廣泛使用。PSSM碼的計(jì)算方法是基于局部對(duì)比算法:PSI-BLAST算法。為了得到PSSM碼,
選出我們目標(biāo)蛋白質(zhì)的相似程度最高的序列,然后PSI-BLAST方法根據(jù)得到的相似蛋白質(zhì)序列,計(jì)算得到最后的序列譜文件,即PSSM譜文件。經(jīng)過(guò)多年的優(yōu)化,目前整個(gè)相似序列搜索過(guò)程都是在服務(wù)器端直接操作,只需要3分鐘就可以得到我們的要分析的蛋白質(zhì)的譜文件。這些PSSM文件產(chǎn)生過(guò)成如上圖1.2展示。通過(guò)BLAST方法我們可以輕松獲得新的蛋白質(zhì)的相似序列,我們得到的結(jié)果如下,從圖中我們可以看到目標(biāo)蛋白質(zhì)的每個(gè)氨基酸位置都對(duì)應(yīng)了相似氨基酸的一系列氨基酸種類(lèi),PSSM碼是記錄了每個(gè)位點(diǎn)各個(gè)氨基酸出現(xiàn)的概率的一組矢量,以下圖1.3為例我們可以分析倒數(shù)第二列的比對(duì)結(jié)果得到的苯丙氨酸(F代表苯丙氨酸)在整個(gè)相似序列比對(duì)中占比為0.83333,而酪氨酸(Y代表酪氨酸)占比為0.16666,為了比較不同氨基酸占比,采用每個(gè)氨基酸位點(diǎn)都有20個(gè)位置,每個(gè)位置分別代表各個(gè)氨基酸在這個(gè)位置的出現(xiàn)概率,即PSSM碼的維度一般為[Nx20](其中N為蛋白質(zhì)的氨基酸序列長(zhǎng)度)。按照上述計(jì)算即此時(shí)我們可以得到在這個(gè)位置的PSSM碼為[0,0,0,0,0.16666,0......0.83333,0,0]。圖1.3對(duì)序列比對(duì)結(jié)果1.2.3常用特征選擇方法介紹關(guān)于蛋白質(zhì)的生物特性和化學(xué)特性有著很多的度量標(biāo)準(zhǔn),各種度量數(shù)值在各個(gè)方面影響著蛋白質(zhì)的性質(zhì),在機(jī)器學(xué)習(xí)過(guò)程中,我們無(wú)法將蛋白質(zhì)所有信息特征都收集到,也沒(méi)有必要將所有信息都作為網(wǎng)絡(luò)的輸入特征,否則這樣設(shè)計(jì)的分類(lèi)器的開(kāi)銷(xiāo)很大,并且分類(lèi)性能也會(huì)非常差,所以從各種各樣的屬性值中找出我們所需要的特征非常有必要。在已知的各種標(biāo)準(zhǔn)屬性中挑選出不同實(shí)驗(yàn)所需要的特征子集的這個(gè)過(guò)程需要找到合適的特征選擇的方法,下面本文對(duì)幾種常見(jiàn)方法進(jìn)行了介紹。
【參考文獻(xiàn)】:
碩士論文
[1]氨基酸的分布式表示方法及其在蛋白質(zhì)序列分析中應(yīng)用[D]. 何柳.吉林大學(xué) 2019
[2]利用序列信息預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的深度學(xué)習(xí)模型研究[D]. 吳輝.天津大學(xué) 2017
本文編號(hào):3428822
本文鏈接:http://sikaile.net/projectlw/swxlw/3428822.html
最近更新
教材專(zhuān)著