基于集成深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測研究
發(fā)布時間:2021-02-28 14:13
蛋白質(zhì)棕櫚;堑鞍踪|(zhì)翻譯后脂質(zhì)共價修飾的一種重要形式,是調(diào)控蛋白質(zhì)的轉(zhuǎn)運(yùn)、穩(wěn)定、定位和功能的重要機(jī)制。同時,棕櫚;稽c(diǎn)修飾還參與多種細(xì)胞生物學(xué)進(jìn)程,與許多疾病的發(fā)生發(fā)展密切相關(guān)。蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測的目標(biāo)是從蛋白質(zhì)的氨基酸序列組成信息及其理化性質(zhì)出發(fā),利用計算的方法來預(yù)測某蛋白質(zhì)是否會發(fā)生棕櫚;,進(jìn)而預(yù)測發(fā)生棕櫚;陌被釟埢稽c(diǎn)。棕櫚;稽c(diǎn)預(yù)測能幫助生物學(xué)家從海量的蛋白數(shù)據(jù)中快速準(zhǔn)確地識別出會發(fā)生棕櫚;牡鞍,發(fā)現(xiàn)在這些位點(diǎn)背后所隱藏的生物機(jī)制和規(guī)律,揭示棕櫚;稽c(diǎn)修飾如何影響棕櫚;鞍椎恼郫B、活性以及最終的功能等,并最終為眾多疾病機(jī)理的闡明及攻克某些疾病提供理論依據(jù)和解決途徑。因此,棕櫚;稽c(diǎn)預(yù)測已經(jīng)成為近年來生物信息學(xué)領(lǐng)域中的一個研究熱點(diǎn)。在以往研究中,利用生物實驗鑒別得到的棕櫚;稽c(diǎn)較為可靠。因此,目前公開的棕櫚;鞍讛(shù)據(jù)普遍是由生物實驗標(biāo)注得到。但是這些方法存在耗時耗力,成本昂貴,實驗過程復(fù)雜等問題。近些年來,隨著蛋白質(zhì)數(shù)據(jù)庫的日益龐大,單純的生物實驗已經(jīng)無法完成海量蛋白數(shù)據(jù)的檢測,機(jī)器學(xué)習(xí)算法逐漸應(yīng)用在該領(lǐng)域,使得檢測效率大大提高,但仍存在特征偏好和...
【文章來源】:東北師范大學(xué)吉林省 211工程院校 教育部直屬院校
【文章頁數(shù)】:41 頁
【學(xué)位級別】:碩士
【部分圖文】:
Uniprot/Swiss-prot數(shù)據(jù)庫棕櫚;鞍讛(shù)據(jù)信息
10第三章基于集成深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測3.1模型預(yù)測流程本實驗的整體算法流程圖如圖3.1所示,展示了本文預(yù)測蛋白質(zhì)S-棕櫚;恼w流程,給予讀者更清晰直觀的了解。圖3.1整體算法流程圖本實驗算法流程大致分為如下步驟:(1)從公開發(fā)表的蛋白質(zhì)數(shù)據(jù)庫中搜集本實驗中所需棕櫚;蛄,并對搜集的原始數(shù)據(jù)進(jìn)行預(yù)處理。按照策略將處理好的數(shù)據(jù)進(jìn)行訓(xùn)練集測試集的劃分,同時,本實驗采用十折交叉驗證的方法,訓(xùn)練集中的數(shù)據(jù)隨機(jī)劃分成十份,輪次抽取一份作為驗證集,其余九份作為訓(xùn)練集,以減少模型訓(xùn)練過程中的偏置誤差,增強(qiáng)模型的魯棒性。(2)將劃分之后的訓(xùn)練集,驗證集和測試集進(jìn)行特征向量化轉(zhuǎn)換,原始序列特征矩陣,疏水性特征矩陣,理化屬性特征矩陣以及β信息特征矩陣作為模型的數(shù)據(jù)輸入。(3)使用訓(xùn)練集對本文整架構(gòu)模型進(jìn)行訓(xùn)練,同時由對應(yīng)驗證集進(jìn)行訓(xùn)練過程驗證,調(diào)整模型超參數(shù),優(yōu)化訓(xùn)練過程,最終得到當(dāng)前數(shù)據(jù)集上表現(xiàn)最優(yōu)模型作為
11最終預(yù)測模型。最后將測試集放入已經(jīng)訓(xùn)練好的模型中,對測試集數(shù)據(jù)進(jìn)行預(yù)測,得到最終預(yù)測結(jié)果,并使用統(tǒng)一評價指標(biāo)對預(yù)測結(jié)果進(jìn)行評估。3.2蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測的形式化描述蛋白質(zhì)的S-棕櫚;╬roteinS-palmitoylation)是一種可逆的蛋白質(zhì)翻譯后修飾。如圖3.2所示,棕櫚;揎椀倪^程是將棕櫚;鶊F(tuán)通過硫酯鍵的形式共價連接到蛋白質(zhì)側(cè)鏈的Cys殘基上,該過程需要棕櫚;D(zhuǎn)移酶的催化,而棕櫚;D(zhuǎn)移酶是一個酶家族,這個酶家族中的各種酶的共同特點(diǎn)是,其活性中心均含有Asp-His-His-Cys(DHHC)基序,因此也統(tǒng)一稱為DHHC家族。發(fā)生棕櫚;奈稽c(diǎn),即為棕櫚;鶊F(tuán)共價連接的殘基。圖3.2棕櫚;稽c(diǎn)修飾形式化表示[44]3.3蛋白質(zhì)棕櫚;稽c(diǎn)數(shù)據(jù)集的構(gòu)建本實驗的數(shù)據(jù)從Uniprot/Swiss-prot蛋白質(zhì)數(shù)據(jù)庫中獲取,選擇經(jīng)過人工標(biāo)注的可靠數(shù)據(jù)信息,如同第二章中所說,初步篩選共得到2512條蛋白質(zhì)序列,構(gòu)成全部原始數(shù)據(jù)。生物信息學(xué)中,同一性代表的意義是,兩序列之間進(jìn)行比較,在同一位點(diǎn)的
【參考文獻(xiàn)】:
期刊論文
[1]UniProt蛋白質(zhì)數(shù)據(jù)庫簡介[J]. 羅靜初. 生物信息學(xué). 2019(03)
[2]棕櫚;鞍准暗鞍踪|(zhì)的棕櫚;芯窟M(jìn)展[J]. 丁玉嬌,韓穎穎,周婧雯. 亞熱帶植物科學(xué). 2018(04)
[3]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
本文編號:3055970
【文章來源】:東北師范大學(xué)吉林省 211工程院校 教育部直屬院校
【文章頁數(shù)】:41 頁
【學(xué)位級別】:碩士
【部分圖文】:
Uniprot/Swiss-prot數(shù)據(jù)庫棕櫚;鞍讛(shù)據(jù)信息
10第三章基于集成深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測3.1模型預(yù)測流程本實驗的整體算法流程圖如圖3.1所示,展示了本文預(yù)測蛋白質(zhì)S-棕櫚;恼w流程,給予讀者更清晰直觀的了解。圖3.1整體算法流程圖本實驗算法流程大致分為如下步驟:(1)從公開發(fā)表的蛋白質(zhì)數(shù)據(jù)庫中搜集本實驗中所需棕櫚;蛄,并對搜集的原始數(shù)據(jù)進(jìn)行預(yù)處理。按照策略將處理好的數(shù)據(jù)進(jìn)行訓(xùn)練集測試集的劃分,同時,本實驗采用十折交叉驗證的方法,訓(xùn)練集中的數(shù)據(jù)隨機(jī)劃分成十份,輪次抽取一份作為驗證集,其余九份作為訓(xùn)練集,以減少模型訓(xùn)練過程中的偏置誤差,增強(qiáng)模型的魯棒性。(2)將劃分之后的訓(xùn)練集,驗證集和測試集進(jìn)行特征向量化轉(zhuǎn)換,原始序列特征矩陣,疏水性特征矩陣,理化屬性特征矩陣以及β信息特征矩陣作為模型的數(shù)據(jù)輸入。(3)使用訓(xùn)練集對本文整架構(gòu)模型進(jìn)行訓(xùn)練,同時由對應(yīng)驗證集進(jìn)行訓(xùn)練過程驗證,調(diào)整模型超參數(shù),優(yōu)化訓(xùn)練過程,最終得到當(dāng)前數(shù)據(jù)集上表現(xiàn)最優(yōu)模型作為
11最終預(yù)測模型。最后將測試集放入已經(jīng)訓(xùn)練好的模型中,對測試集數(shù)據(jù)進(jìn)行預(yù)測,得到最終預(yù)測結(jié)果,并使用統(tǒng)一評價指標(biāo)對預(yù)測結(jié)果進(jìn)行評估。3.2蛋白質(zhì)棕櫚;稽c(diǎn)預(yù)測的形式化描述蛋白質(zhì)的S-棕櫚;╬roteinS-palmitoylation)是一種可逆的蛋白質(zhì)翻譯后修飾。如圖3.2所示,棕櫚;揎椀倪^程是將棕櫚;鶊F(tuán)通過硫酯鍵的形式共價連接到蛋白質(zhì)側(cè)鏈的Cys殘基上,該過程需要棕櫚;D(zhuǎn)移酶的催化,而棕櫚;D(zhuǎn)移酶是一個酶家族,這個酶家族中的各種酶的共同特點(diǎn)是,其活性中心均含有Asp-His-His-Cys(DHHC)基序,因此也統(tǒng)一稱為DHHC家族。發(fā)生棕櫚;奈稽c(diǎn),即為棕櫚;鶊F(tuán)共價連接的殘基。圖3.2棕櫚;稽c(diǎn)修飾形式化表示[44]3.3蛋白質(zhì)棕櫚;稽c(diǎn)數(shù)據(jù)集的構(gòu)建本實驗的數(shù)據(jù)從Uniprot/Swiss-prot蛋白質(zhì)數(shù)據(jù)庫中獲取,選擇經(jīng)過人工標(biāo)注的可靠數(shù)據(jù)信息,如同第二章中所說,初步篩選共得到2512條蛋白質(zhì)序列,構(gòu)成全部原始數(shù)據(jù)。生物信息學(xué)中,同一性代表的意義是,兩序列之間進(jìn)行比較,在同一位點(diǎn)的
【參考文獻(xiàn)】:
期刊論文
[1]UniProt蛋白質(zhì)數(shù)據(jù)庫簡介[J]. 羅靜初. 生物信息學(xué). 2019(03)
[2]棕櫚;鞍准暗鞍踪|(zhì)的棕櫚;芯窟M(jìn)展[J]. 丁玉嬌,韓穎穎,周婧雯. 亞熱帶植物科學(xué). 2018(04)
[3]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
本文編號:3055970
本文鏈接:http://sikaile.net/projectlw/swxlw/3055970.html
最近更新
教材專著