基于SVM集成學(xué)習(xí)的miRNA靶基因預(yù)測研究
發(fā)布時間:2020-09-24 14:46
人們近年來發(fā)現(xiàn)一類對生命體具有重要調(diào)節(jié)功能的非編碼內(nèi)源性RNA分子-Micor RNAs(mi RNA)。mi RNA是一類大小長約20~25個核苷酸,其5'端帶有磷酸基因、3'端帶有羥基的非編碼單鏈小RNA生物分子。它通過與靶基因m RNA 3’UTR(untranslated regions)區(qū)域堿基互補匹配和相互作用,在后轉(zhuǎn)錄時期發(fā)揮重要的基因調(diào)控功能。mi RNA廣泛存在于真核生物細胞內(nèi),通過對mi RNA靶基因的表達調(diào)控,在細胞生長、發(fā)育、分化、代謝等生命活動中發(fā)揮著重要作用。mi RNA靶基因預(yù)測是研究和分析mi RNA分子生物學(xué)功能的重要組成部分,也是深入研究mi RNA作用機制的關(guān)鍵;谥С窒蛄繖C(Support Vector Machines,SVM)理論,針對mi RNA靶基因樣本數(shù)據(jù)不平衡,導(dǎo)致陽性樣本預(yù)測準(zhǔn)確率低和整體分類效果不佳的問題,提出基于欠采樣技術(shù)的集成學(xué)習(xí)算法,以提高mi RNA靶基因預(yù)測模型的分類識別準(zhǔn)確率和泛化能力。論文主要研究三個方面的問題:數(shù)據(jù)集特征選擇方法;與欠采樣相結(jié)合的集成學(xué)習(xí)模型建立;mi RNA靶基因預(yù)測模型懲罰參數(shù)和核函數(shù)參數(shù)優(yōu)化。針對mi RNA靶基因綁定結(jié)構(gòu)的特征,在識別范圍量化標(biāo)準(zhǔn)基礎(chǔ)上,提出了基于分類間隔的特征選擇算法SVM-FSCI。構(gòu)建了mi RNA靶基因預(yù)測模型的性能,按照每個特征對支持向量機分類間隔的貢獻,定義了特征有效率,對原始提取的特征向量集以特征有效率為標(biāo)準(zhǔn)進行排序,刪除冗余和低效特征,最終得到優(yōu)化后的特征向量子集。針對mi RNA靶基因樣本數(shù)據(jù)集不平衡,導(dǎo)致陽性樣本預(yù)測準(zhǔn)確率低和整體分類效果不佳的問題,提出了基于欠采樣技術(shù)的集成學(xué)習(xí)算法SVM-IUSW。算法采用SVM作為基本學(xué)習(xí)算法,以Ada Boost為集成框架,迭代過程中嵌入基于聚類的欠采樣,以降低陰、陽樣本數(shù)據(jù)分布不平衡程度,同時在自適應(yīng)樣本權(quán)重調(diào)整過程中,以樣本權(quán)重平滑機制剔除陰性樣本中的異常點,最終以帶權(quán)重的投票機制,組合多個弱分類器預(yù)測結(jié)果,構(gòu)成mi RNA靶基因預(yù)測的集成分類器。(3)針對不同懲罰參數(shù)的支持向量機,在分類不平衡靶基因數(shù)據(jù)集時效果不同的問題,提出了基于數(shù)據(jù)集分布平均密度求取懲罰參數(shù)的SVM-DODN算法;在此基礎(chǔ)上采用自適應(yīng)混合遺傳算法,對mi RNA靶基因SVM模型核函數(shù)和懲罰參數(shù)進行優(yōu)化,共同彌補不平衡樣本空間造成的樣本偏斜問題。提出了基于分類間隔的特征選擇算法、基于欠采樣技術(shù)的集成學(xué)習(xí)算法和自適應(yīng)混合遺傳算法,解決了mi RNA靶基因預(yù)測過程中出現(xiàn)的數(shù)據(jù)集特征提取及其特征選擇、靶基因預(yù)測模型的構(gòu)建和靶基因預(yù)測模型參數(shù)優(yōu)化三個方面出現(xiàn)的問題。仿真實驗表明,與其他算法相比,論文所提出的基于SVM的集成學(xué)習(xí)預(yù)測mi RNA靶基因算法,在解決mi RNA靶基因樣本不平衡問題時具有很好的學(xué)習(xí)和泛化能力。
【學(xué)位單位】:燕山大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2015
【中圖分類】:Q522;Q811.4
本文編號:2825862
【學(xué)位單位】:燕山大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2015
【中圖分類】:Q522;Q811.4
【參考文獻】
相關(guān)期刊論文 前3條
1 ;Progress in miRNA target prediction and identification[J];Science in China(Series C:Life Sciences);2009年12期
2 張小云,劉允才;高斯核支撐向量機的性能分析[J];計算機工程;2003年08期
3 鄭恩輝;李平;宋執(zhí)環(huán);;不平衡數(shù)據(jù)知識挖掘:類分布對支持向量機分類的影響[J];信息與控制;2005年06期
相關(guān)博士學(xué)位論文 前1條
1 王朝勇;支持向量機若干算法研究及應(yīng)用[D];吉林大學(xué);2008年
相關(guān)碩士學(xué)位論文 前2條
1 羅迪;基于支持向量機的miRNA預(yù)測及其靶基因預(yù)測[D];吉林大學(xué);2009年
2 胡俊;支持向量機參數(shù)優(yōu)化問題的研究[D];哈爾濱工業(yè)大學(xué);2009年
本文編號:2825862
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2825862.html
最近更新
教材專著