基于機器學習的長鏈非編碼RNA識別研究
發(fā)布時間:2023-04-08 19:50
隨著高通量測序技術(shù)的快速發(fā)展,海量的基因測序數(shù)據(jù)被相關(guān)基因數(shù)據(jù)庫收錄,如何對這些海量的基因序列數(shù)據(jù)進行挖掘和分析是當前生物信息領(lǐng)域面臨的重要問題。長鏈非編碼RNA(Lnc RNA)作為一類重要的RNA分子,在人類各項生命活動中起著重要作用,如何準確識別Lnc RNA是當前生物信息學研究的熱門問題。癌癥是一類嚴重威脅當代人類健康的疾病,而Lnc RNA廣泛參與癌癥的發(fā)生和發(fā)展,識別癌癥相關(guān)Lnc RNA,對于研究基因與癌癥的關(guān)聯(lián)關(guān)系以及診斷治療癌癥的有效生物標志物和靶標具有重要意義。本文基于人工智能領(lǐng)域先進的機器學習和深度學習算法,針對一般Lnc RNA識別以及癌癥相關(guān)Lnc RNA識別展開相關(guān)研究。本文的研究工作和創(chuàng)新內(nèi)容包括以下三個部分:(1)提出了AdaBoost-DT集成分類模型識別Lnc RNA。該方法基于AdaBoost集成學習結(jié)合決策樹算法,通過整合轉(zhuǎn)錄本序列長度、GC含量及k-mer子序列頻率這三類特征,構(gòu)建的AdaBoost-DT集成分類模型識別Lnc RNA,在測試集上達到87.28%的識別準確率,高于其他采用傳統(tǒng)機器學習算法的識別方法,具有較好的識別準確率。(2)基...
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
專用術(shù)語注釋表
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)介紹
2.1 LncRNA相關(guān)數(shù)據(jù)庫
2.2 LncRNA識別方法
2.3 癌癥相關(guān)LncRNA識別方法
2.4 本章小結(jié)
第三章 構(gòu)建LncRNA識別集成模型
3.1 基于集成學習的LncRNA識別方法設(shè)計
3.2 數(shù)據(jù)選取及預(yù)處理
3.2.1 數(shù)據(jù)來源
3.2.2 特征提取
3.2.3 特征選擇
3.3 AdaBoost-DT集成分類模型
3.3.1 決策樹
3.3.2 AdaBoost-DT模型訓練
3.4 實驗結(jié)果及分析
3.4.1 模型性能評價指標
3.4.2 k-mer特征選擇結(jié)果
3.4.3 不同特征組合下性能對比
3.4.4 與其他LncRNA識別方法對比
3.5 本章小結(jié)
第四章 構(gòu)建LncRNA識別深度模型
4.1 基于深度學習的LncRNA識別方法設(shè)計
4.2 數(shù)據(jù)集預(yù)處理操作
4.3 CNN模型搭建
4.4 實驗結(jié)果及分析
4.5 本章小結(jié)
第五章 識別癌癥相關(guān)LncRNA
5.1 癌癥相關(guān)LncRNA識別方法設(shè)計
5.2 數(shù)據(jù)介紹及處理
5.2.1 數(shù)據(jù)來源
5.2.2 特征介紹
5.3 數(shù)據(jù)平衡處理
5.4 實驗結(jié)果及分析
5.4.1 特征選擇結(jié)果
5.4.2 交叉驗證結(jié)果
5.4.3 測試集實驗結(jié)果:
5.5 本章小結(jié)
第六章 總結(jié)與展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
本文編號:3786369
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
專用術(shù)語注釋表
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 相關(guān)理論與技術(shù)介紹
2.1 LncRNA相關(guān)數(shù)據(jù)庫
2.2 LncRNA識別方法
2.3 癌癥相關(guān)LncRNA識別方法
2.4 本章小結(jié)
第三章 構(gòu)建LncRNA識別集成模型
3.1 基于集成學習的LncRNA識別方法設(shè)計
3.2 數(shù)據(jù)選取及預(yù)處理
3.2.1 數(shù)據(jù)來源
3.2.2 特征提取
3.2.3 特征選擇
3.3 AdaBoost-DT集成分類模型
3.3.1 決策樹
3.3.2 AdaBoost-DT模型訓練
3.4 實驗結(jié)果及分析
3.4.1 模型性能評價指標
3.4.2 k-mer特征選擇結(jié)果
3.4.3 不同特征組合下性能對比
3.4.4 與其他LncRNA識別方法對比
3.5 本章小結(jié)
第四章 構(gòu)建LncRNA識別深度模型
4.1 基于深度學習的LncRNA識別方法設(shè)計
4.2 數(shù)據(jù)集預(yù)處理操作
4.3 CNN模型搭建
4.4 實驗結(jié)果及分析
4.5 本章小結(jié)
第五章 識別癌癥相關(guān)LncRNA
5.1 癌癥相關(guān)LncRNA識別方法設(shè)計
5.2 數(shù)據(jù)介紹及處理
5.2.1 數(shù)據(jù)來源
5.2.2 特征介紹
5.3 數(shù)據(jù)平衡處理
5.4 實驗結(jié)果及分析
5.4.1 特征選擇結(jié)果
5.4.2 交叉驗證結(jié)果
5.4.3 測試集實驗結(jié)果:
5.5 本章小結(jié)
第六章 總結(jié)與展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
本文編號:3786369
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3786369.html
教材專著