基于集成學習模型下的蛋白質交互作用預測方法研究
發(fā)布時間:2021-12-24 02:37
隨著后基因組發(fā)展,蛋白質組的研究正在如火如荼地進行.蛋白質相互作用的研究不僅有助于揭示生命活動的本質,而且還有助于理解疾病活動的機制和有效藥物的開發(fā).機器學習的快速發(fā)展為理解蛋白質相互作用的機制提供了新的機遇和挑戰(zhàn).它在蛋白質組學研究領域發(fā)揮著重要作用.近年來,已經(jīng)開發(fā)了越來越多的用于預測蛋白質相互作用的計算方法.本文的模型是基于集成學習的思想,結合隨機森林和支持向量機算法來預測蛋白質間相互作用.本文的主要工作包含以下幾點:(1)蛋白質-蛋白質相互作用在各種生物過程中起關鍵作用.已經(jīng)開發(fā)了許多方法來預測蛋白質-蛋白質相互作用.然而,許多現(xiàn)有的應用是有局限的,因為它們依賴于大量的同源蛋白和相互作用標記.在本文中,我們提出了一種新的集成學習方法(RF-Ada-DF),和基于氨基酸序列的特征提取方法,用于識別蛋白質-蛋白質相互作用.我們的方法首先通過多元互信息和歸一化Moreau-Broto自相關描述符技術構建基于蛋白質序列的特征向量來表示每對蛋白質.然后,我們將提取的638維特征輸入到用于判斷交互對和非交互對的集成學習模型中.此外,該集成模型在AdaBoost框架中嵌入隨機森林,并將弱分類...
【文章來源】:安徽師范大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 蛋白質-蛋白質相互作用預測方法研究現(xiàn)狀
1.2.1 基于進化信息的方法
1.2.2 基于自然語言處理的預測方法
1.2.3 基于氨基酸序列的預測方法
1.3 機器學習算法在蛋白質交互中的研究現(xiàn)狀
1.4 內容安排
第二章 RF-Ada-DF:識別蛋白質-蛋白質相互作用的綜合預測因子
2.1 引言
2.2 蛋白質-蛋白質相互作用預測方法介紹
2.2.1 計算多元互信息
2.2.2 規(guī)范化Moreau-Broto自相關
2.3 集成學習模型
2.3.1 隨機森林
2.3.2 AdaBoost框架
2.3.3 雙誤度量故障檢測
2.3.4 RF-Ada-DF
2.4 數(shù)據(jù)集和評價方法
2.4.1 PPIs數(shù)據(jù)集.
2.4.2 實驗設置
2.4.3 評價指標
2.5 實驗結果
2.5.1 分析MMI和 NMBAC的特征表現(xiàn).
2.5.2 將RF-Ada-DF與現(xiàn)有分類器進行比較
2.5.3 在Heli.pylori數(shù)據(jù)集上的性能
2.5.4 在S.cerevisiae數(shù)據(jù)集的性能
2.5.5 在Human數(shù)據(jù)集上的性能
2.5.6 跨物種數(shù)據(jù)集的PPIs識別
2.5.7 兩個特殊的PPIs數(shù)據(jù)集
2.6 討論
2.7 本章小節(jié)
第三章 通過綜合計算方法識別配體-受體相互作用
3.1 引言
3.2 配體-受體相互作用預測方法
3.2.1 定向梯度直方圖
3.2.2 氨基酸接觸矩陣
3.2.3 分解矩陣和計算直方圖
3.2.4 離散余弦變換
3.2.5 模糊C均值聚類
3.2.6 支持向量機
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 數(shù)據(jù)集與評價指標
3.4.1 數(shù)據(jù)集
3.4.2 評價指標
3.5 實驗結果
3.5.1 實驗設置
3.5.2 不平衡數(shù)據(jù)集
3.5.3 平衡數(shù)據(jù)集
3.5.4 PPIs預測的性能
3.6 討論
3.7 結論
第四章 總結與展望
4.1 總結
4.2 展望
參考文獻
致謝
在讀期間發(fā)表的學術論文與取得的其他研究成果
本文編號:3549661
【文章來源】:安徽師范大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 蛋白質-蛋白質相互作用預測方法研究現(xiàn)狀
1.2.1 基于進化信息的方法
1.2.2 基于自然語言處理的預測方法
1.2.3 基于氨基酸序列的預測方法
1.3 機器學習算法在蛋白質交互中的研究現(xiàn)狀
1.4 內容安排
第二章 RF-Ada-DF:識別蛋白質-蛋白質相互作用的綜合預測因子
2.1 引言
2.2 蛋白質-蛋白質相互作用預測方法介紹
2.2.1 計算多元互信息
2.2.2 規(guī)范化Moreau-Broto自相關
2.3 集成學習模型
2.3.1 隨機森林
2.3.2 AdaBoost框架
2.3.3 雙誤度量故障檢測
2.3.4 RF-Ada-DF
2.4 數(shù)據(jù)集和評價方法
2.4.1 PPIs數(shù)據(jù)集.
2.4.2 實驗設置
2.4.3 評價指標
2.5 實驗結果
2.5.1 分析MMI和 NMBAC的特征表現(xiàn).
2.5.2 將RF-Ada-DF與現(xiàn)有分類器進行比較
2.5.3 在Heli.pylori數(shù)據(jù)集上的性能
2.5.4 在S.cerevisiae數(shù)據(jù)集的性能
2.5.5 在Human數(shù)據(jù)集上的性能
2.5.6 跨物種數(shù)據(jù)集的PPIs識別
2.5.7 兩個特殊的PPIs數(shù)據(jù)集
2.6 討論
2.7 本章小節(jié)
第三章 通過綜合計算方法識別配體-受體相互作用
3.1 引言
3.2 配體-受體相互作用預測方法
3.2.1 定向梯度直方圖
3.2.2 氨基酸接觸矩陣
3.2.3 分解矩陣和計算直方圖
3.2.4 離散余弦變換
3.2.5 模糊C均值聚類
3.2.6 支持向量機
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 數(shù)據(jù)集與評價指標
3.4.1 數(shù)據(jù)集
3.4.2 評價指標
3.5 實驗結果
3.5.1 實驗設置
3.5.2 不平衡數(shù)據(jù)集
3.5.3 平衡數(shù)據(jù)集
3.5.4 PPIs預測的性能
3.6 討論
3.7 結論
第四章 總結與展望
4.1 總結
4.2 展望
參考文獻
致謝
在讀期間發(fā)表的學術論文與取得的其他研究成果
本文編號:3549661
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3549661.html
最近更新
教材專著