基于堆棧融合模型的非編碼RNA識別方法研究
發(fā)布時間:2025-02-07 18:52
隨著新一代高通量測序技術(shù)的不斷完善和大規(guī)模比較測序的進(jìn)行,產(chǎn)生了大量可用的轉(zhuǎn)錄組數(shù)據(jù),區(qū)分編碼與非編碼核糖核酸(Ribonucleic Acid,RNA)成為轉(zhuǎn)錄數(shù)據(jù)分析中的核心任務(wù)。非編碼RNA識別領(lǐng)域有兩種趨勢,其一是滿足大量非模式生物RNA的識別需求,這就需要物種中性的識別工具;其二是設(shè)計特定的識別工具滿足特定物種的識別需求。針對這些問題,本文設(shè)計了一種非編碼RNA識別框架。本文設(shè)計的非編碼RNA識別框架由兩個模塊組成,特征提取模塊從脫氧核糖核酸(Deoxyribonucleic acid,DNA)、RNA、肽三個層次上對轉(zhuǎn)錄本序列進(jìn)行特征提取,DNA和RNA層次上總結(jié)了之前研究中的17個有效特征,肽層次上創(chuàng)造性地選取了蛋白質(zhì)的理化特征和二級結(jié)構(gòu)特征共8種。分類器模塊設(shè)計了基于堆棧集成策略的兩層分類器,將機(jī)器學(xué)習(xí)模型隨機(jī)森林、極限梯度提升模型、輕量梯度提升機(jī)組合并應(yīng)用于非編碼RNA識別領(lǐng)域。本文使用Python語言實現(xiàn)了非編碼RNA識別框架,根據(jù)兩種不同的需求實現(xiàn)了跨物種非編碼RNA識別模型和植物非編碼RNA識別模型。其中跨物種非編碼RNA識別模型是一種物種中性的工具,在由人類、小...
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:4031144
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1非編碼RNA序列的綜合視圖
-15-圖2-1非編碼RNA序列的綜合視圖模式生物數(shù)據(jù)庫dictyBase是盤基網(wǎng)柄菌(Dictyosteliumdiscoideum)的模式生物數(shù)據(jù)庫[61]。FlyBase是果蠅基因和基因組的數(shù)據(jù)庫[62]。MGI是實驗室老鼠的國際數(shù)據(jù)庫[63]。Pom....
圖3-2閱讀框示例
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文=()()+1∈{1,2,3}=....
圖3-3開放閱讀框示例
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文特征提取特征也可以稱為開放閱讀框(ORF)的特征開放閱讀框是指給定的閱讀框中,不包含終中可能作為蛋白質(zhì)編碼序列的部分。與閱方式,因此可能存在多個開放閱讀框。如UAA為終止密碼子,據(jù)此認(rèn)為第3個閱序列UCUAAAGGUCCA中只有兩個開放
圖3-5組合學(xué)習(xí)的三個基本原因
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文3.4分類器設(shè)計在分類器的設(shè)計上,本文采用了基于Stacking策略的兩層分類器。第一層使用了機(jī)器學(xué)習(xí)模型RF、XGBoost、LightGBM,第二層使用LR作為元分類器組合第一層的基學(xué)習(xí)器。Stacking策略是一種集成方法,通過組....
本文編號:4031144
本文鏈接:http://sikaile.net/projectlw/swxlw/4031144.html
最近更新
教材專著