基于支持向量機的蛋白質(zhì)序列信息提取及亞細胞定位研究
發(fā)布時間:2024-02-04 07:02
隨著大數(shù)據(jù)時代與后基因時代的到來,海量功能未知、結(jié)構(gòu)復雜的蛋白質(zhì)序列信息涌入生物數(shù)據(jù)庫。探索這些蛋白質(zhì)序列的相關信息己成為信息學與生物學的熱門研究方向。蛋白質(zhì)在生物體中發(fā)揮的功能與其所處的亞細胞位置具有非常密切的關聯(lián)性,所以,對蛋白質(zhì)亞細胞的定位預測進行研究已成為生物信息學的重點內(nèi)容。在這樣的背景下,隨著“互聯(lián)網(wǎng)+”的推進,傳統(tǒng)的生物實驗方法早己無法滿足現(xiàn)代研究的需求,以機器學習算法為代表的信息提取與處理方法及智能定位預測發(fā)揮了不可替代的作用。本論文利用機器學習算法研究蛋白質(zhì)亞細胞的定位,結(jié)合所學專業(yè)中信息處理部分的相關知識,論文主要針對信息特征的提取算法和分類預測模型兩個方面的內(nèi)容進行了研究:(1)在現(xiàn)有方法的基礎上,本文提出了一種改進型的偽氨基酸組成方法:新增加了9種特征來表達蛋白質(zhì)序列,重新構(gòu)造了特征表達模型。在對序列信息進行特征提取時,基于多特征融合的思想,結(jié)合自相關系數(shù)、熵密度法和所提新方法構(gòu)成一種新的蛋白質(zhì)特征向量表達模型,更進一步豐富了序列信息的表達。選擇機器學習中泛化能力較強的支持向量機作為分類器,最終采用留一法在Gram-positive和Gram-negative兩...
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容與結(jié)構(gòu)安排
第二章 蛋白質(zhì)亞細胞定位研究的理論基礎
2.1 引言
2.2 常用蛋白質(zhì)數(shù)據(jù)庫介紹
2.3 序列特征信息提取的基本方法
2.3.1 氨基酸組分
2.3.2 偽氨基酸組分
2.4 分類預測算法
2.4.1 K近鄰算法
2.4.2 支持向量機與LIBSVM
2.5 預測性能評估和評價指標
第三章 基于改進型PseAAC與特征融合的序列信息提取及亞細胞定位
3.1 引言
3.2 數(shù)據(jù)集的選取
3.3 構(gòu)建蛋白質(zhì)序列信息特征表達模型
3.3.1 信息數(shù)據(jù)處理
3.3.2 自相關系數(shù)
3.3.3 熵密度
3.3.4 改進型偽氨基酸組成模型
3.3.5 多信息融合特征表達模型
3.4 降維算法
3.5 實驗結(jié)果與分析
3.6 小結(jié)
第四章 基于PsePSSM與三肽組成的多位點亞細胞定位研究
4.1 引言
4.2 數(shù)據(jù)集的選取
4.3 多位點蛋白特征提取模型
4.3.1 偽位置特異性得分矩陣PsePSSM
4.3.2 三肽組成
4.3.3 多特征融合
4.4 多標簽集成分類器
4.5 基于集成分類器的序列信息特征模型構(gòu)建
4.6 實驗結(jié)果與分析
4.6.1 評價指標
4.6.2 特征提取方法實驗結(jié)果對比分析
4.6.3 分類器性能實驗結(jié)果對比分析
4.7 小結(jié)
第五章 全文總結(jié)與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻
攻讀碩士學位期間完成的科研成果
致謝
本文編號:3895413
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容與結(jié)構(gòu)安排
第二章 蛋白質(zhì)亞細胞定位研究的理論基礎
2.1 引言
2.2 常用蛋白質(zhì)數(shù)據(jù)庫介紹
2.3 序列特征信息提取的基本方法
2.3.1 氨基酸組分
2.3.2 偽氨基酸組分
2.4 分類預測算法
2.4.1 K近鄰算法
2.4.2 支持向量機與LIBSVM
2.5 預測性能評估和評價指標
第三章 基于改進型PseAAC與特征融合的序列信息提取及亞細胞定位
3.1 引言
3.2 數(shù)據(jù)集的選取
3.3 構(gòu)建蛋白質(zhì)序列信息特征表達模型
3.3.1 信息數(shù)據(jù)處理
3.3.2 自相關系數(shù)
3.3.3 熵密度
3.3.4 改進型偽氨基酸組成模型
3.3.5 多信息融合特征表達模型
3.4 降維算法
3.5 實驗結(jié)果與分析
3.6 小結(jié)
第四章 基于PsePSSM與三肽組成的多位點亞細胞定位研究
4.1 引言
4.2 數(shù)據(jù)集的選取
4.3 多位點蛋白特征提取模型
4.3.1 偽位置特異性得分矩陣PsePSSM
4.3.2 三肽組成
4.3.3 多特征融合
4.4 多標簽集成分類器
4.5 基于集成分類器的序列信息特征模型構(gòu)建
4.6 實驗結(jié)果與分析
4.6.1 評價指標
4.6.2 特征提取方法實驗結(jié)果對比分析
4.6.3 分類器性能實驗結(jié)果對比分析
4.7 小結(jié)
第五章 全文總結(jié)與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻
攻讀碩士學位期間完成的科研成果
致謝
本文編號:3895413
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3895413.html
最近更新
教材專著