基于特征工程的蛋白質(zhì)分類算法研究
發(fā)布時(shí)間:2021-01-12 22:49
人類基因組計(jì)劃的實(shí)施,對(duì)生命科學(xué)的研究進(jìn)入后基因組時(shí)代,蛋白質(zhì)組學(xué)作為生命科學(xué)研究進(jìn)入后基因組時(shí)代的里程碑,是生命科學(xué)研究的核心內(nèi)容之一。蛋白質(zhì)作為蛋白質(zhì)組學(xué)主要研究對(duì)象,對(duì)它結(jié)構(gòu)和功能破譯是蛋白質(zhì)組學(xué)的最終目標(biāo)。而蛋白質(zhì)分類作為蛋白質(zhì)組學(xué)研究領(lǐng)域的一個(gè)重要分支和基礎(chǔ)問(wèn)題,是生物信息學(xué)的研究熱點(diǎn),本文基于特征工程技術(shù)對(duì)蛋白質(zhì)分類這一課題進(jìn)行研究,展開(kāi)了兩個(gè)蛋白質(zhì)分類的專題,具體研究?jī)?nèi)容如下:1.提出基于SVM和多特征組合的高爾基體蛋白質(zhì)類別預(yù)測(cè)方法,它組合了Pse KNC,Pse PSSM,6)-separated-bigrams-PSSM三種特征抽取方法,并使用Adaboost Classifier算法從Pse KNC中選擇出最優(yōu)的特征,得到329個(gè)特征,隨后與Pse PSSM,6)-separated-bigrams-PSSM組合得到769維向量,然后,使用Random-SMOTE來(lái)平衡訓(xùn)練集,最后使用支持向量機(jī)(SVM)算法來(lái)區(qū)分cisGolgi蛋白質(zhì)和trans-Golgi蛋白質(zhì),我們方法最終在jackknife驗(yàn)證、獨(dú)立測(cè)試集驗(yàn)證和10折交叉驗(yàn)證中獲得的準(zhǔn)確率分別為96.5%...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來(lái)源
1.2 課題背景及研究意義
1.2.1 研究背景
1.2.2 研究意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文主要內(nèi)容
1.5 本文結(jié)構(gòu)安排
第2章 蛋白質(zhì)分類預(yù)測(cè)基本方法
2.1 引言
2.2 數(shù)據(jù)集的構(gòu)建
2.3 蛋白質(zhì)序列特征抽取方法
2.3.1 基于氨基酸組成的特征抽取方法
2.3.2 基于氨基酸理化性質(zhì)的特征抽取方法
2.3.3 基于數(shù)據(jù)庫(kù)挖掘的特征抽取方法
2.3.4 基于進(jìn)化信息的特征抽取方法
2.3.5 基于深度學(xué)習(xí)的特征抽取方法
2.4 特征選擇方法
2.4.1 最小冗余最大相關(guān)特征選擇算法
2.4.2 主成分分析
2.4.3 方差分析法
2.5 數(shù)據(jù)集平衡方法
2.6 分類算法
2.7 預(yù)測(cè)模型性能評(píng)價(jià)方法
2.7.1 k折交叉驗(yàn)證
2.7.2 留一法(Jackknife)
2.7.3 獨(dú)立測(cè)試集
2.7.4 評(píng)價(jià)指標(biāo)
2.8 本章小節(jié)
第3章 基于SVM和多特征組合的高爾基體蛋白質(zhì)類別預(yù)測(cè)
3.1 引言
3.2 材料和方法
3.2.1 數(shù)據(jù)集
3.2.2 蛋白質(zhì)特征抽取
3.2.3 特征選擇
3.2.4 Random-SMOTE
3.2.5 分類算法
3.3 結(jié)果與討論
3.3.1 與其它方法的比較
3.3.2 Random-SMOTE對(duì)模型性能的影響
3.3.3 在PseKNC上特征選擇對(duì)模型性能的影響
3.3.4 不同特征組合對(duì)模型性能的影響
3.4 本章總結(jié)
第4章 基于集成學(xué)習(xí)和PSSM的T6SES類別預(yù)測(cè)
4.1 引言
4.2 材料和方法
4.2.1 數(shù)據(jù)集
4.2.2 蛋白質(zhì)特征抽取
4.2.3 SMOTE
4.2.4 模型構(gòu)建
4.3 結(jié)果和討論
4.3.1 不同基學(xué)習(xí)器和集成學(xué)習(xí)器的結(jié)果對(duì)比
4.3.2 不同特征抽取方法結(jié)果對(duì)比
4.3.3 SMOTE對(duì)模型的性能的影響
4.3.4 在10折交叉驗(yàn)證和獨(dú)立測(cè)試集上的模型效果
4.3.5 與其他方法的比較
4.5 本章總結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):2973693
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來(lái)源
1.2 課題背景及研究意義
1.2.1 研究背景
1.2.2 研究意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文主要內(nèi)容
1.5 本文結(jié)構(gòu)安排
第2章 蛋白質(zhì)分類預(yù)測(cè)基本方法
2.1 引言
2.2 數(shù)據(jù)集的構(gòu)建
2.3 蛋白質(zhì)序列特征抽取方法
2.3.1 基于氨基酸組成的特征抽取方法
2.3.2 基于氨基酸理化性質(zhì)的特征抽取方法
2.3.3 基于數(shù)據(jù)庫(kù)挖掘的特征抽取方法
2.3.4 基于進(jìn)化信息的特征抽取方法
2.3.5 基于深度學(xué)習(xí)的特征抽取方法
2.4 特征選擇方法
2.4.1 最小冗余最大相關(guān)特征選擇算法
2.4.2 主成分分析
2.4.3 方差分析法
2.5 數(shù)據(jù)集平衡方法
2.6 分類算法
2.7 預(yù)測(cè)模型性能評(píng)價(jià)方法
2.7.1 k折交叉驗(yàn)證
2.7.2 留一法(Jackknife)
2.7.3 獨(dú)立測(cè)試集
2.7.4 評(píng)價(jià)指標(biāo)
2.8 本章小節(jié)
第3章 基于SVM和多特征組合的高爾基體蛋白質(zhì)類別預(yù)測(cè)
3.1 引言
3.2 材料和方法
3.2.1 數(shù)據(jù)集
3.2.2 蛋白質(zhì)特征抽取
3.2.3 特征選擇
3.2.4 Random-SMOTE
3.2.5 分類算法
3.3 結(jié)果與討論
3.3.1 與其它方法的比較
3.3.2 Random-SMOTE對(duì)模型性能的影響
3.3.3 在PseKNC上特征選擇對(duì)模型性能的影響
3.3.4 不同特征組合對(duì)模型性能的影響
3.4 本章總結(jié)
第4章 基于集成學(xué)習(xí)和PSSM的T6SES類別預(yù)測(cè)
4.1 引言
4.2 材料和方法
4.2.1 數(shù)據(jù)集
4.2.2 蛋白質(zhì)特征抽取
4.2.3 SMOTE
4.2.4 模型構(gòu)建
4.3 結(jié)果和討論
4.3.1 不同基學(xué)習(xí)器和集成學(xué)習(xí)器的結(jié)果對(duì)比
4.3.2 不同特征抽取方法結(jié)果對(duì)比
4.3.3 SMOTE對(duì)模型的性能的影響
4.3.4 在10折交叉驗(yàn)證和獨(dú)立測(cè)試集上的模型效果
4.3.5 與其他方法的比較
4.5 本章總結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):2973693
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2973693.html
最近更新
教材專著