基于集成學(xué)習(xí)和遷移學(xué)習(xí)的蛋白質(zhì)泛素化和類泛素化位點(diǎn)預(yù)測(cè)研究
發(fā)布時(shí)間:2023-08-26 04:41
蛋白質(zhì)泛素化是一類典型的翻譯后修飾(PTM),它承擔(dān)著調(diào)節(jié)生命活動(dòng)的重要作用,研究發(fā)現(xiàn)泛素化影響著細(xì)胞凋亡、細(xì)胞增殖和信號(hào)轉(zhuǎn)導(dǎo);蛋白質(zhì)SUMO化是一類與泛素化非常相似的翻譯后修飾,研究發(fā)現(xiàn)SUMO化與基因定位、基因表達(dá)和基因組復(fù)制有關(guān)。在過(guò)去的二十年里,機(jī)器學(xué)習(xí)相關(guān)算法已被廣泛地認(rèn)為是預(yù)測(cè)蛋白質(zhì)泛素化與SUMO化位點(diǎn)的有效計(jì)算方法。依據(jù)機(jī)器學(xué)習(xí)算法開發(fā)計(jì)算工具需要特征工程,現(xiàn)存工具一般依靠先驗(yàn)知識(shí)人工選擇符合特定問(wèn)題的特征,這些特征不具備一般性,導(dǎo)致其模型可解釋性弱。并且現(xiàn)存工具不能適應(yīng)時(shí)下日益增長(zhǎng)的數(shù)據(jù)規(guī)模。上述因素促使本文提出了一個(gè)基于深度學(xué)習(xí)算法、有能力處理大規(guī)模數(shù)據(jù)量的蛋白質(zhì)泛素化位點(diǎn)預(yù)測(cè)工具,其模型集成了七個(gè)包含卷積層與全連接層的有監(jiān)督學(xué)習(xí)子模型,這些子模型可以從蛋白質(zhì)序列特征和理化屬性特征中提取深度表示。在本文中,402個(gè)理化屬性特征被分為6個(gè)聚類簇,每一個(gè)簇中的高相關(guān)性特征都被相應(yīng)地定制了子模型的深層網(wǎng)絡(luò)架構(gòu)來(lái)處理。然后,使用一個(gè)Stacking集成學(xué)習(xí)策略來(lái)綜合每一個(gè)子網(wǎng)的深度表示以完成預(yù)測(cè)蛋白質(zhì)泛素化位點(diǎn)的工作。此外,遷移學(xué)習(xí)技術(shù)的引入使本文提出的深度學(xué)習(xí)模型在微調(diào)后...
【文章頁(yè)數(shù)】:41 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.1.1 翻譯后修飾
1.1.2 泛素化與SUMO化
1.2 研究現(xiàn)狀
1.3 主要研究工作及行文結(jié)構(gòu)
1.3.1 主要工作
1.3.2 本文結(jié)構(gòu)
第二章 數(shù)據(jù)集構(gòu)建與特征編碼
2.1 數(shù)據(jù)收集
2.1.1 Uniprot/Swiss-Prot數(shù)據(jù)庫(kù)
2.1.2 檢索數(shù)據(jù)
2.2 數(shù)據(jù)處理
2.3 編碼蛋白質(zhì)序列片段
2.3.1 One-hot編碼
2.3.2 理化屬性編碼
第三章 模型與方法
3.1 深度學(xué)習(xí)
3.1.1 深度學(xué)習(xí)概述
3.1.2 模型架構(gòu)
3.2 集成學(xué)習(xí)
3.2.1 集成學(xué)習(xí)概述
3.2.2 模型訓(xùn)練與集成
3.3 Bootstrapping策略
3.4 遷移學(xué)習(xí)
3.4.1 遷移學(xué)習(xí)概述
3.4.2 遷移策略
3.5 實(shí)驗(yàn)整體流程
第四章 實(shí)驗(yàn)結(jié)果分析與討論
4.1 評(píng)價(jià)指標(biāo)
4.2 模型整體性能
4.3 理化屬性網(wǎng)絡(luò)的效果
4.3.1 理化屬性在不同網(wǎng)絡(luò)架構(gòu)中的效果
4.3.2 使用PCA降維理化屬性的結(jié)果
4.4 遷移學(xué)習(xí)帶來(lái)的性能提升
4.4.1 引入遷移學(xué)習(xí)技術(shù)的性能提升
4.4.2 兩種遷移策略的提升對(duì)比
4.5 與其它預(yù)測(cè)工具對(duì)比結(jié)果
第五章 總結(jié)與展望
參考文獻(xiàn)
致謝
在學(xué)期間公開發(fā)表論文及著作情況
本文編號(hào):3843974
【文章頁(yè)數(shù)】:41 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.1.1 翻譯后修飾
1.1.2 泛素化與SUMO化
1.2 研究現(xiàn)狀
1.3 主要研究工作及行文結(jié)構(gòu)
1.3.1 主要工作
1.3.2 本文結(jié)構(gòu)
第二章 數(shù)據(jù)集構(gòu)建與特征編碼
2.1 數(shù)據(jù)收集
2.1.1 Uniprot/Swiss-Prot數(shù)據(jù)庫(kù)
2.1.2 檢索數(shù)據(jù)
2.2 數(shù)據(jù)處理
2.3 編碼蛋白質(zhì)序列片段
2.3.1 One-hot編碼
2.3.2 理化屬性編碼
第三章 模型與方法
3.1 深度學(xué)習(xí)
3.1.1 深度學(xué)習(xí)概述
3.1.2 模型架構(gòu)
3.2 集成學(xué)習(xí)
3.2.1 集成學(xué)習(xí)概述
3.2.2 模型訓(xùn)練與集成
3.3 Bootstrapping策略
3.4 遷移學(xué)習(xí)
3.4.1 遷移學(xué)習(xí)概述
3.4.2 遷移策略
3.5 實(shí)驗(yàn)整體流程
第四章 實(shí)驗(yàn)結(jié)果分析與討論
4.1 評(píng)價(jià)指標(biāo)
4.2 模型整體性能
4.3 理化屬性網(wǎng)絡(luò)的效果
4.3.1 理化屬性在不同網(wǎng)絡(luò)架構(gòu)中的效果
4.3.2 使用PCA降維理化屬性的結(jié)果
4.4 遷移學(xué)習(xí)帶來(lái)的性能提升
4.4.1 引入遷移學(xué)習(xí)技術(shù)的性能提升
4.4.2 兩種遷移策略的提升對(duì)比
4.5 與其它預(yù)測(cè)工具對(duì)比結(jié)果
第五章 總結(jié)與展望
參考文獻(xiàn)
致謝
在學(xué)期間公開發(fā)表論文及著作情況
本文編號(hào):3843974
本文鏈接:http://sikaile.net/projectlw/swxlw/3843974.html
最近更新
教材專著