基于深度學(xué)習(xí)與領(lǐng)域規(guī)則建模的蛋白質(zhì)信號(hào)肽及其切割位點(diǎn)預(yù)測(cè)
發(fā)布時(shí)間:2021-03-30 01:27
為了提升蛋白質(zhì)信號(hào)肽及其切割位點(diǎn)預(yù)測(cè)精度,有效區(qū)分3種不同類(lèi)型的信號(hào)肽,提出基于位置特異性打分矩陣(PSSM)和同源檢測(cè)迭代的隱馬爾科夫(HMM)文件的深度學(xué)習(xí)預(yù)測(cè)方法。設(shè)計(jì)基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型用于信號(hào)肽預(yù)測(cè),并使用基于知識(shí)遷移的模型集成方法提升預(yù)測(cè)效果。設(shè)計(jì)基于門(mén)控循環(huán)單元(GRU)網(wǎng)絡(luò)的條件隨機(jī)場(chǎng)(CRF)來(lái)預(yù)測(cè)信號(hào)肽切割位點(diǎn),并集成領(lǐng)域規(guī)則方法提升預(yù)測(cè)能力。實(shí)驗(yàn)結(jié)果表明,該文方法對(duì)革蘭氏陰性菌和革蘭氏陽(yáng)性菌的Sec/SPI、Sec/SPII與Tat/SPI信號(hào)肽預(yù)測(cè)任務(wù)的平均馬修斯相關(guān)系數(shù)(MCC)為0.962。該文方法對(duì)革蘭氏陰性菌和革蘭氏陽(yáng)性菌的Sec/SPI、Sec/SPII與Tat/SPI信號(hào)肽切割位點(diǎn)預(yù)測(cè)任務(wù)的平均召回率和準(zhǔn)確率分別為0.698和0.662。在部分信號(hào)肽樣本上,該文方法能正確預(yù)測(cè)SignalP 5.0方法預(yù)測(cè)錯(cuò)誤的樣本,2種方法在切割位點(diǎn)的預(yù)測(cè)上存在著一定的互補(bǔ)性。
【文章來(lái)源】:南京理工大學(xué)學(xué)報(bào). 2020,44(03)北大核心CSCD
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
基于深度模型的信號(hào)肽預(yù)測(cè)器結(jié)構(gòu)圖
本文基于深度模型的信號(hào)肽切割位點(diǎn)預(yù)測(cè)器Signal-3Lnew的結(jié)構(gòu)如圖2所示,它是1個(gè)殘基級(jí)別(Residue-level)的分類(lèi)器,它的特征提取部分與圖1的序列級(jí)別(Sequence-level)分類(lèi)器相同。網(wǎng)絡(luò)部分首先采用3層的門(mén)控循環(huán)單元網(wǎng)絡(luò)來(lái)抽取氨基酸殘基間的相關(guān)性,該層的輸出被送入2層的全連接層,將輸出的特征變換為L(zhǎng)×3的矩陣。進(jìn)一步使用條件隨機(jī)場(chǎng)(Conditional random field,CRF)算法[9,29,30]來(lái)標(biāo)注氨基酸殘基序列,進(jìn)而識(shí)別唯一的切割位點(diǎn)。給定1個(gè)具有L個(gè)殘基的蛋白質(zhì),預(yù)測(cè)網(wǎng)絡(luò)輸出L×3矩陣,使用CRF從該矩陣預(yù)測(cè)蛋白質(zhì)序列類(lèi)標(biāo):給定輸入h1,h2,…,hL,其中L表示輸入序列的長(zhǎng)度,那么標(biāo)簽序列y=y1,y2,…,yL的分布為
圖3統(tǒng)計(jì)了在Sec/SPI、Sec/SPII、Tat/SPI 3種不同信號(hào)肽作為正樣本時(shí),不同模型的效果對(duì)比,比對(duì)的指標(biāo)為MCC。采用特定類(lèi)別樣本訓(xùn)練得到的模型GruAttenspe與加入其他生物類(lèi)別樣本共同訓(xùn)練的模型GruAttenall對(duì)比。從圖3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),考慮Sec/SPI信號(hào)肽的MCC1指標(biāo),對(duì)于革蘭氏陰性菌,GruAttenspe效果優(yōu)于GruAttenall,高出了0.036。對(duì)于革蘭氏陽(yáng)性菌,兩者的效果一致,都是0.949。
本文編號(hào):3108580
【文章來(lái)源】:南京理工大學(xué)學(xué)報(bào). 2020,44(03)北大核心CSCD
【文章頁(yè)數(shù)】:10 頁(yè)
【部分圖文】:
基于深度模型的信號(hào)肽預(yù)測(cè)器結(jié)構(gòu)圖
本文基于深度模型的信號(hào)肽切割位點(diǎn)預(yù)測(cè)器Signal-3Lnew的結(jié)構(gòu)如圖2所示,它是1個(gè)殘基級(jí)別(Residue-level)的分類(lèi)器,它的特征提取部分與圖1的序列級(jí)別(Sequence-level)分類(lèi)器相同。網(wǎng)絡(luò)部分首先采用3層的門(mén)控循環(huán)單元網(wǎng)絡(luò)來(lái)抽取氨基酸殘基間的相關(guān)性,該層的輸出被送入2層的全連接層,將輸出的特征變換為L(zhǎng)×3的矩陣。進(jìn)一步使用條件隨機(jī)場(chǎng)(Conditional random field,CRF)算法[9,29,30]來(lái)標(biāo)注氨基酸殘基序列,進(jìn)而識(shí)別唯一的切割位點(diǎn)。給定1個(gè)具有L個(gè)殘基的蛋白質(zhì),預(yù)測(cè)網(wǎng)絡(luò)輸出L×3矩陣,使用CRF從該矩陣預(yù)測(cè)蛋白質(zhì)序列類(lèi)標(biāo):給定輸入h1,h2,…,hL,其中L表示輸入序列的長(zhǎng)度,那么標(biāo)簽序列y=y1,y2,…,yL的分布為
圖3統(tǒng)計(jì)了在Sec/SPI、Sec/SPII、Tat/SPI 3種不同信號(hào)肽作為正樣本時(shí),不同模型的效果對(duì)比,比對(duì)的指標(biāo)為MCC。采用特定類(lèi)別樣本訓(xùn)練得到的模型GruAttenspe與加入其他生物類(lèi)別樣本共同訓(xùn)練的模型GruAttenall對(duì)比。從圖3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),考慮Sec/SPI信號(hào)肽的MCC1指標(biāo),對(duì)于革蘭氏陰性菌,GruAttenspe效果優(yōu)于GruAttenall,高出了0.036。對(duì)于革蘭氏陽(yáng)性菌,兩者的效果一致,都是0.949。
本文編號(hào):3108580
本文鏈接:http://sikaile.net/projectlw/swxlw/3108580.html
最近更新
教材專(zhuān)著