基于機(jī)器學(xué)習(xí)的植物抗逆基因識別
發(fā)布時間:2021-05-06 19:25
病蟲害危害植物生長是現(xiàn)代經(jīng)濟(jì)作物生產(chǎn)、植物栽培面臨的重要不利因素。具有抗逆基因的植物對于惡劣環(huán)境有著良好的適應(yīng)性,因此對于植物抗逆基因的研究有著很重要的意義。迄今為止,已有153條經(jīng)過生物實驗驗證的植物抗逆基因應(yīng)用于轉(zhuǎn)基因、分子育種等方面的研究。由于植物抗逆基因相關(guān)的生物實驗驗證需要花費大量的時間物力乃至人力,因此基于機(jī)器學(xué)習(xí)的植物抗逆基因識別有著重要的意義。本文以植物抗逆基因表達(dá)對應(yīng)的蛋白質(zhì)序列為正例數(shù)據(jù)來源,根據(jù)其對應(yīng)的蛋白質(zhì)家族ID從pfam數(shù)據(jù)庫獲取負(fù)例樣本。經(jīng)過初步的數(shù)據(jù)清洗獲得不平衡的正負(fù)例樣本。通過分層抽樣的方法來解決正負(fù)例樣本嚴(yán)重不平衡的問題。提取了氨基酸組成、分布、轉(zhuǎn)化的統(tǒng)計量(188D),Kmer,auto-cross covariance,parallel correlation pseudo amino acid composition(Pse-AAC)等一系列特征。對特征進(jìn)行組合,使用Max-Relevant-Max-Distance(MRMD)方法對特征進(jìn)行降維。對提取降維后的特征使用樸素貝葉斯,隨機(jī)森林、支持向量機(jī)分類器對數(shù)據(jù)集進(jìn)行訓(xùn)練,使用十折交叉驗證獲...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 植物抗逆基因的類別
1.2.2 植物抗逆基因的運作機(jī)理
1.2.3 植物抗逆基因識別方法
1.3 主要研究內(nèi)容和工作
1.4 本文結(jié)構(gòu)
第2章 植物抗逆基因數(shù)據(jù)獲取以及預(yù)處理
2.1 常用蛋白質(zhì)數(shù)據(jù)庫介紹
2.2 正例數(shù)據(jù)的獲取
2.3 負(fù)例數(shù)據(jù)的構(gòu)建
2.4 不平衡樣本的處理
2.5 本章小結(jié)
第3章 植物抗逆基因的特征提取與降維
3.1 氨基酸序列的特征提取方法
3.1.1 188D特征提取方法
3.1.2 Kmer(amino acid composition)
3.1.3 ACC(auto-cross covariance)
3.1.4 PseAAC(Pseudo amino acid Composition)
3.2 特征提取工具PSE-IN-ONE
3.3 特征組合與降維
3.3.1 數(shù)據(jù)降維的常用方法
3.3.2 MRMD(Max Relevant Max Distance)
3.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 機(jī)器學(xué)習(xí)分類模型的選取與構(gòu)建
4.1 隨機(jī)森林模型
4.1.1 隨機(jī)森林的算法和原理
4.1.2 隨機(jī)森林的優(yōu)缺點以及應(yīng)用場景
4.2 樸素貝葉斯模型
4.2.1 樸素貝葉斯的理論基礎(chǔ)
4.2.2 樸素貝葉斯的優(yōu)缺點以及應(yīng)用場景
4.3 支持向量機(jī)模型
4.3.1 支持向量機(jī)的算法和基本原理
4.3.2 支持向量機(jī)的優(yōu)缺點以及應(yīng)用場景
4.4 實驗性能評價標(biāo)準(zhǔn)
4.5 實驗結(jié)果和分析
4.6 WEB預(yù)測系統(tǒng)構(gòu)建
4.7 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]植物抗病分子機(jī)制研究進(jìn)展[J]. 王忠華,賈育林,夏英武. 植物學(xué)通報. 2004(05)
碩士論文
[1]植物抗性基因的數(shù)據(jù)組織與信息挖掘[D]. 車凱.哈爾濱工業(yè)大學(xué) 2012
[2]基于隨機(jī)森林的植物抗性基因識別方法研究[D]. 郭穎婕.哈爾濱工業(yè)大學(xué) 2011
本文編號:3172487
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 植物抗逆基因的類別
1.2.2 植物抗逆基因的運作機(jī)理
1.2.3 植物抗逆基因識別方法
1.3 主要研究內(nèi)容和工作
1.4 本文結(jié)構(gòu)
第2章 植物抗逆基因數(shù)據(jù)獲取以及預(yù)處理
2.1 常用蛋白質(zhì)數(shù)據(jù)庫介紹
2.2 正例數(shù)據(jù)的獲取
2.3 負(fù)例數(shù)據(jù)的構(gòu)建
2.4 不平衡樣本的處理
2.5 本章小結(jié)
第3章 植物抗逆基因的特征提取與降維
3.1 氨基酸序列的特征提取方法
3.1.1 188D特征提取方法
3.1.2 Kmer(amino acid composition)
3.1.3 ACC(auto-cross covariance)
3.1.4 PseAAC(Pseudo amino acid Composition)
3.2 特征提取工具PSE-IN-ONE
3.3 特征組合與降維
3.3.1 數(shù)據(jù)降維的常用方法
3.3.2 MRMD(Max Relevant Max Distance)
3.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 機(jī)器學(xué)習(xí)分類模型的選取與構(gòu)建
4.1 隨機(jī)森林模型
4.1.1 隨機(jī)森林的算法和原理
4.1.2 隨機(jī)森林的優(yōu)缺點以及應(yīng)用場景
4.2 樸素貝葉斯模型
4.2.1 樸素貝葉斯的理論基礎(chǔ)
4.2.2 樸素貝葉斯的優(yōu)缺點以及應(yīng)用場景
4.3 支持向量機(jī)模型
4.3.1 支持向量機(jī)的算法和基本原理
4.3.2 支持向量機(jī)的優(yōu)缺點以及應(yīng)用場景
4.4 實驗性能評價標(biāo)準(zhǔn)
4.5 實驗結(jié)果和分析
4.6 WEB預(yù)測系統(tǒng)構(gòu)建
4.7 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]植物抗病分子機(jī)制研究進(jìn)展[J]. 王忠華,賈育林,夏英武. 植物學(xué)通報. 2004(05)
碩士論文
[1]植物抗性基因的數(shù)據(jù)組織與信息挖掘[D]. 車凱.哈爾濱工業(yè)大學(xué) 2012
[2]基于隨機(jī)森林的植物抗性基因識別方法研究[D]. 郭穎婕.哈爾濱工業(yè)大學(xué) 2011
本文編號:3172487
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3172487.html
最近更新
教材專著