天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多組學(xué)數(shù)據(jù)利用機(jī)器學(xué)習(xí)預(yù)測玉米開花期基因

發(fā)布時(shí)間:2021-10-14 16:24
  開花期是植物從營養(yǎng)生長到生殖生長轉(zhuǎn)變的關(guān)鍵時(shí)期,與作物產(chǎn)量息息相關(guān)。目前對于開花期的研究,在模式植物擬南芥(Arabidopsis thaliana)中已經(jīng)鑒定出了眾多的基因,多條調(diào)控途徑也被清楚解析。然而,作為主要糧食作物的玉米,其開花期研究相對滯后,鑒定到的基因較少,影響了玉米產(chǎn)量潛力的進(jìn)一步開發(fā)。由于經(jīng)典的群體定位的方式費(fèi)力耗時(shí),因此,本研究擬基于多組學(xué)數(shù)據(jù)利用機(jī)器學(xué)習(xí)的方法批量挖掘玉米開花期候選基因,并利用EMS突變體進(jìn)行功能驗(yàn)證,其結(jié)果如下:1、收集整理了用于機(jī)器學(xué)習(xí)建模的訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,前者包含39個(gè)功能已知的開花期相關(guān)基因和39個(gè)非開花期相關(guān)基因,預(yù)測數(shù)據(jù)集是功能信息未知的16564個(gè)基因樣本。兩者的特征數(shù)據(jù)為轉(zhuǎn)錄組、翻譯組和蛋白互作組的多維組學(xué)生物大數(shù)據(jù)。2、基于訓(xùn)練數(shù)據(jù)集構(gòu)建了6個(gè)算法模型,經(jīng)評估后選取了預(yù)測效率較高的Adaboost、Logistic Regression和SVM三個(gè)算法模型用于預(yù)測開花期基因,3者在整合的多組學(xué)數(shù)據(jù)集上的AUC評分分別為0.86±0.10、0.90±0.03、0.86±0.09;評估算法在不同數(shù)據(jù)基礎(chǔ)上的表現(xiàn)發(fā)現(xiàn)整合的多組學(xué)... 

【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:83 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于多組學(xué)數(shù)據(jù)利用機(jī)器學(xué)習(xí)預(yù)測玉米開花期基因


留一法劃分?jǐn)?shù)據(jù)

算法,數(shù)據(jù),組數(shù)據(jù),蛋白


基于多組學(xué)數(shù)據(jù)利用機(jī)器學(xué)習(xí)預(yù)測玉米開花期基因19由表1可以看出不同算法模型表現(xiàn)不一致,同一算法模型在不同組學(xué)數(shù)據(jù)上訓(xùn)練的效果也不一樣。就不同算法的比較可以看出,最簡單的邏輯回歸模型LogisticRegressionCV在各個(gè)組學(xué)數(shù)據(jù)上都表現(xiàn)很好,而強(qiáng)有力且復(fù)雜的支持向量機(jī)模型SVM和集成模型XGBClassifier分別在轉(zhuǎn)錄組學(xué)數(shù)據(jù)和蛋白互作數(shù)據(jù)PPI(ProteinProteinInteractome)上表現(xiàn)較差,但可以看到的是SVM在蛋白互作數(shù)據(jù)上表現(xiàn)最好。如圖2.1所示,就算法在不同組學(xué)數(shù)據(jù)基礎(chǔ)上的表現(xiàn)來看,在PPI數(shù)據(jù)基礎(chǔ)上的較差,翻譯組數(shù)據(jù)又優(yōu)于轉(zhuǎn)錄組數(shù)據(jù),但三者整合的數(shù)據(jù)表現(xiàn)最好。PPI數(shù)據(jù)表現(xiàn)較差可能是與PPI數(shù)據(jù)不飽和、檢測到的基因較少相關(guān),我們比較了轉(zhuǎn)錄組、翻譯組和蛋白互作組原始數(shù)據(jù)中檢測到的基因數(shù),發(fā)現(xiàn)蛋白互作組數(shù)據(jù)中檢測到的最少,這很可能導(dǎo)致了蛋白互作的不飽和,如圖2.2所示。圖2.1不同數(shù)據(jù)基礎(chǔ)上的算法表現(xiàn)通過比較各個(gè)算法在不同數(shù)據(jù)基礎(chǔ)上的綜合表現(xiàn)可以發(fā)現(xiàn),算法在蛋白互作組數(shù)據(jù)PPI上表現(xiàn)最差,在整合的多組學(xué)數(shù)據(jù)上表現(xiàn)最好。Fig.2.1Algorithmperformancebasedondifferentdata.Bycomparingthecomprehensiveperformanceofeachalgorithmondifferentdata,itcanbefoundthateachalgorithmperformstheworstonthePPI,andperformsbestontheintegratedmulti-omicsdata.

重要性,組數(shù)據(jù)


基于多組學(xué)數(shù)據(jù)利用機(jī)器學(xué)習(xí)預(yù)測玉米開花期基因23機(jī)器學(xué)習(xí)模型求解特征的權(quán)重值有關(guān),一般權(quán)重值越偏離0,該特征對機(jī)器學(xué)習(xí)模型的影響也越大,從而體現(xiàn)出重要性。我們首先評估轉(zhuǎn)錄組各個(gè)特征對邏輯回歸算法的貢獻(xiàn)性,由圖4A所示,來源于玉米B73V5時(shí)期的葉基、花序、V3時(shí)期的葉尖、胚、播種后6天的初生根等組織的RNA-seq數(shù)據(jù)對機(jī)器學(xué)習(xí)算法模型影響較大。然后,我們又評估了翻譯組各個(gè)特征的重要性,由圖4B可知,來源于玉米B73的1毫米雌穗、V3時(shí)期葉尖、播種后6天的初生根等組織對算法模型影響較大。令人意外的是,無論轉(zhuǎn)錄組數(shù)據(jù)還是翻譯組數(shù)據(jù),莖尖分生組織SAM對算法模型的影響都較校特征重要性的結(jié)果不僅可以評估各個(gè)特征對算法模型的貢獻(xiàn)性,也可以指導(dǎo)后續(xù)的實(shí)驗(yàn)分析。而轉(zhuǎn)錄組和翻譯組數(shù)據(jù)中各個(gè)不同組織對算法模型的重要性的生物學(xué)意義,還需要進(jìn)一步探索。圖4轉(zhuǎn)錄組和翻譯組數(shù)據(jù)的特征重要性評估A:轉(zhuǎn)錄組數(shù)據(jù)特征重要性分析;B:翻譯組數(shù)據(jù)特征重要性分析。橫軸表示特征權(quán)重,縱軸表示不同的組織。Fig.4Theevaluationresultsofthefeatureimportanceofthetranscriptomeandtranslationdata.A:Featuresimportanceanalysisoftranscriptomedata,B:Featuresimportanceanalysisoftranscriptomedata.Thehorizontalaxisrepresentsfeatureweights,andtheverticalaxisrepresentsdifferentbiologicaltissues.

【參考文獻(xiàn)】:
期刊論文
[1]利用重測序的水稻染色體片段代換系定位控制稻米淀粉黏滯性譜QTL[J]. 張昌泉,胡冰,朱孔志,張華,冷亞麟,湯述翥,顧銘洪,劉巧泉.  中國水稻科學(xué). 2013(01)
[2]作物QTL定位常用作圖群體[J]. 蔣洪蔚,劉春燕,高運(yùn)來,李燦東,張聞博,胡國華,陳慶山.  生物技術(shù)通報(bào). 2008(S1)
[3]利用單片段代換系定位水稻抽穗期QTL[J]. 何風(fēng)華,席章營,曾瑞珍,Akshay Talukdar,張桂權(quán).  中國農(nóng)業(yè)科學(xué). 2005(08)
[4]玉米SSR遺傳圖譜的構(gòu)建及產(chǎn)量性狀基因定位[J]. 向道權(quán),曹海河,曹永國,楊俊品,黃烈健,王守才,戴景瑞.  遺傳學(xué)報(bào). 2001(08)
[5]玉米R(shí)FLP遺傳圖譜的構(gòu)建及矮生基因定位[J]. 曹永國,王國英,王守才,魏艷玲,盧江,謝友菊,戴景瑞.  科學(xué)通報(bào). 1999(20)



本文編號:3436469

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/nykjlw/nzwlw/3436469.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶02ca1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com