基于卷積神經(jīng)網(wǎng)絡的蛋白質(zhì)折疊類型最小特征提取
發(fā)布時間:2021-07-23 07:37
通過蛋白質(zhì)的序列、結(jié)構等信息構建完整的蛋白質(zhì)宇宙是生物信息學中的重要課題,相關研究對蛋白質(zhì)結(jié)構預測、蛋白質(zhì)進化路徑分析以及蛋白質(zhì)結(jié)構設計等方面的研究都有重要的意義.從蛋白質(zhì)結(jié)構的一種簡化表示——蛋白質(zhì)接觸圖出發(fā),通過訓練卷積神經(jīng)網(wǎng)絡進行特征提取,篩選出可識別結(jié)構域折疊類型的最小特征向量,構建蛋白質(zhì)折疊類型空間,并使用譜聚類等方法對不同蛋白質(zhì)折疊類型的高維分布情況進行分析.得到的最小特征向量兼顧了信息的完整性與冗余度,可以很好地表示全部七種常見蛋白質(zhì)類的空間關聯(lián).該研究結(jié)果填補了之前蛋白質(zhì)宇宙研究中對不常見類的空間位置和相互關系描述的空白,加深了對于蛋白質(zhì)結(jié)構相似性的理解.
【文章來源】:南京大學學報(自然科學). 2020,56(05)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
輸出不同特征向量長度的DCNN在驗證集中進行折疊類型識別的正確率;(B)對應不同折疊類型特征向量長度條件下調(diào)整蘭德系數(shù)與聚類簇數(shù)目的關系
本文所使用的DCNN修改自Zhu et al[20]提出的模型,并使用Tensorflow[21]構建如圖2所示的網(wǎng)絡結(jié)構.圖2中,h與w表示卷積層的高度與寬度,c表示卷積層中的通道數(shù)量,s表示卷積核或池化窗口的滑動步長,l表示全連接層中的神經(jīng)元數(shù)量.
本模型對原模型的修改主要體現(xiàn)在:(1)設計了一個神經(jīng)元數(shù)目可控的全連接層,即特征層(feature layer),通過嚴格控制特征向量層中的神經(jīng)元數(shù)目,將注意力集中在那些對識別蛋白質(zhì)結(jié)構分類更關鍵的特征中.(2)本DCNN模型中不僅僅輸出所需識別蛋白質(zhì)接觸圖的折疊類型信息,還輸出它在SCOPe層次分類中的類標簽信息,總體的損失函數(shù)定義為這兩種識別結(jié)果與真實標簽間交叉熵損失函數(shù)之和.通過這種方法可以提升不同類標簽的折疊類型在特征向量表示中的分離度,使提取出的特征向量在空間中的分布和SCOPe層級分類更接近.網(wǎng)絡的損失函數(shù)具體如式(2)所示:
本文編號:3298873
【文章來源】:南京大學學報(自然科學). 2020,56(05)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
輸出不同特征向量長度的DCNN在驗證集中進行折疊類型識別的正確率;(B)對應不同折疊類型特征向量長度條件下調(diào)整蘭德系數(shù)與聚類簇數(shù)目的關系
本文所使用的DCNN修改自Zhu et al[20]提出的模型,并使用Tensorflow[21]構建如圖2所示的網(wǎng)絡結(jié)構.圖2中,h與w表示卷積層的高度與寬度,c表示卷積層中的通道數(shù)量,s表示卷積核或池化窗口的滑動步長,l表示全連接層中的神經(jīng)元數(shù)量.
本模型對原模型的修改主要體現(xiàn)在:(1)設計了一個神經(jīng)元數(shù)目可控的全連接層,即特征層(feature layer),通過嚴格控制特征向量層中的神經(jīng)元數(shù)目,將注意力集中在那些對識別蛋白質(zhì)結(jié)構分類更關鍵的特征中.(2)本DCNN模型中不僅僅輸出所需識別蛋白質(zhì)接觸圖的折疊類型信息,還輸出它在SCOPe層次分類中的類標簽信息,總體的損失函數(shù)定義為這兩種識別結(jié)果與真實標簽間交叉熵損失函數(shù)之和.通過這種方法可以提升不同類標簽的折疊類型在特征向量表示中的分離度,使提取出的特征向量在空間中的分布和SCOPe層級分類更接近.網(wǎng)絡的損失函數(shù)具體如式(2)所示:
本文編號:3298873
本文鏈接:http://sikaile.net/projectlw/swxlw/3298873.html
最近更新
教材專著