一種利用機器學(xué)習策略提高復(fù)雜性狀全基因組預(yù)測準確性及計算效率的方法開發(fā)
發(fā)布時間:2022-01-06 05:21
全基因組預(yù)測是一種利用覆蓋全基因組標記預(yù)測未知表型的新興技術(shù),隨著測序技術(shù)的不斷更新和日趨成熟,基因分型成本越來越低,全基因組預(yù)測逐漸被推廣應(yīng)用于動植物選育以及人類疾病風險評分。統(tǒng)計方法在全基因組預(yù)測中起到至關(guān)重要的作用,直接影響表型的預(yù)測效果。基于親緣關(guān)系的BLUP系列方法計算過程簡單,具有較高的計算效率,但由于其模型假設(shè)粗糙,預(yù)測準確性往往不理想;基于標記效應(yīng)的Bayes系列方法模型假設(shè)靈活,具有較高的預(yù)測準確性,但由于其復(fù)雜的參數(shù)求解過程,計算效率低下。如何兼顧高準確性及高計算效率的雙重優(yōu)勢,開發(fā)出快、準、穩(wěn)的全基因組預(yù)測方法,是當前的研究熱點和難點。本研究提出了一種利用機器學(xué)習過程提高復(fù)雜性狀預(yù)測準確性及計算效率的方法,名為“Kinship Adjusted Multiple Loci Best Linear Unbaised Prediction”,簡稱KAML。其機器學(xué)習過程整合了交叉驗證、多元回歸、網(wǎng)格搜索和二分法迭代等算法,能夠準確地將大效應(yīng)標記納入線性混合模型作為協(xié)變量,并同時將標記貢獻進行權(quán)重,構(gòu)建性狀特異的基因組親緣關(guān)系矩陣作為隨機效應(yīng)項。通過模型選擇過程自動切換...
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:博士
【部分圖文】:
全基因組選擇在實際應(yīng)用的一般流程
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文20圖2KAML算法設(shè)計圖Fig.2TheroadmapofdesignedalgorithminKAMLKAML預(yù)測過程主要分為兩部分:一部分為參數(shù)優(yōu)化過程,此過程中將群體中具有表型的個體劃分為訓(xùn)練群和驗證群,利用訓(xùn)練群體表型記錄訓(xùn)練模型,采用不同參數(shù)組合預(yù)測驗證群,并計算預(yù)測值與真實表型的相關(guān)程度作為模型選擇指標,查找和確定驗證群預(yù)測準確性最高的參數(shù)組合;另一部分為預(yù)測未知表型個體,直接采用第一部分確定的相關(guān)參數(shù),利用所有有表型個體預(yù)測未知表型個體。2.5.1協(xié)變量QTNs的選擇全基因組關(guān)聯(lián)分析(GWAS)作為一種目標性狀候選基因篩選的有力工具,其關(guān)聯(lián)分析結(jié)果能夠?qū)δ繕诵誀畹倪z傳構(gòu)建提供一定的先驗信息,因此KAML在性狀的GWAS結(jié)果基礎(chǔ)上進行參數(shù)優(yōu)化。首先,將群體中具有表型的個體分為N個組,隨機組合其中N-1個組進行全基因組關(guān)聯(lián)分析,重復(fù)N次,即得到N組關(guān)聯(lián)分析結(jié)果。對每組關(guān)聯(lián)分析結(jié)果進行LD篩選(LDclumping),在設(shè)定LD閾值下(默認設(shè)置為0.3),從最顯著的標記依次篩選,挑取前n個標記(默認設(shè)置為20),N組關(guān)聯(lián)分析結(jié)果篩選之后得到N組長度為n的候選QTNs向量。對所有組的候選QTNs進行計數(shù),在計數(shù)過程中需要注意的是,當不同交叉驗證組的QTNs相關(guān)系數(shù)大于設(shè)定閾值時,以p值小的QTN計數(shù),采用Bootstrap思想,挑取計數(shù)大于等于N*0.9的QTNs作為priorQTNs。其次,將priorQTNs在每個交叉驗證組
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文22圖3KAML算法中網(wǎng)格搜索及二分法迭代優(yōu)化權(quán)重關(guān)系矩陣圖示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML網(wǎng)格搜索全部計算完成后,比較所有交點的值大小,確定最大值(圖中實線相交的空心紅圈),然后啟動二分法迭代過程,為了避免最大值附近存在多個峰的情況,我們在最大值組合, 兩邊各取一個值|,A,取值規(guī)則如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 這樣構(gòu)成了4個新的組合,如圖3中虛線所示,虛線交點為二分法選取的新組合,計算4個交點預(yù)測準確性之后,同樣取最大值點(圖中虛線相交的空心紅圈),以同樣的方式進入下一次二分法迭代,如此實現(xiàn)二分法迭代過程,當?shù)螖?shù)達到設(shè)置的最大迭代次數(shù)(默認設(shè)置為10)或者當前后兩次迭代預(yù)測值的差值小于設(shè)定精度(默認設(shè)置為0.0001),二分法自動迭代結(jié)束。最后,比較最終確定的組合下預(yù)測準確性與GBLUP準確性:當最佳組合下的預(yù)測準確性小于GBLUP時,直接放棄最佳組合,采用標準的Kinship,此時最終模型可為Ks或pQ+Ks;當最佳組合下的預(yù)測準確性大于GBLUP時,采用最佳組合,此時最終模型可為Kw或pQ+Kw。需要注意的是,在交叉驗證過程中,訓(xùn)練群預(yù)測驗證群的預(yù)測準確性在KAML中存在兩種情況:當性狀定義為2水平0、1的表型時,KMAL自動轉(zhuǎn)換利用AUROC指標計算預(yù)測準確性;當性狀非2水平0、1的表型時,KAML采用Pearson相關(guān)系數(shù)計算預(yù)測準確性。
【參考文獻】:
期刊論文
[1]基因組選擇在豬雜交育種中的應(yīng)用[J]. 楊岸奇,陳斌,冉茂良,楊廣民,曾誠. 遺傳. 2020(02)
本文編號:3571814
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:博士
【部分圖文】:
全基因組選擇在實際應(yīng)用的一般流程
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文20圖2KAML算法設(shè)計圖Fig.2TheroadmapofdesignedalgorithminKAMLKAML預(yù)測過程主要分為兩部分:一部分為參數(shù)優(yōu)化過程,此過程中將群體中具有表型的個體劃分為訓(xùn)練群和驗證群,利用訓(xùn)練群體表型記錄訓(xùn)練模型,采用不同參數(shù)組合預(yù)測驗證群,并計算預(yù)測值與真實表型的相關(guān)程度作為模型選擇指標,查找和確定驗證群預(yù)測準確性最高的參數(shù)組合;另一部分為預(yù)測未知表型個體,直接采用第一部分確定的相關(guān)參數(shù),利用所有有表型個體預(yù)測未知表型個體。2.5.1協(xié)變量QTNs的選擇全基因組關(guān)聯(lián)分析(GWAS)作為一種目標性狀候選基因篩選的有力工具,其關(guān)聯(lián)分析結(jié)果能夠?qū)δ繕诵誀畹倪z傳構(gòu)建提供一定的先驗信息,因此KAML在性狀的GWAS結(jié)果基礎(chǔ)上進行參數(shù)優(yōu)化。首先,將群體中具有表型的個體分為N個組,隨機組合其中N-1個組進行全基因組關(guān)聯(lián)分析,重復(fù)N次,即得到N組關(guān)聯(lián)分析結(jié)果。對每組關(guān)聯(lián)分析結(jié)果進行LD篩選(LDclumping),在設(shè)定LD閾值下(默認設(shè)置為0.3),從最顯著的標記依次篩選,挑取前n個標記(默認設(shè)置為20),N組關(guān)聯(lián)分析結(jié)果篩選之后得到N組長度為n的候選QTNs向量。對所有組的候選QTNs進行計數(shù),在計數(shù)過程中需要注意的是,當不同交叉驗證組的QTNs相關(guān)系數(shù)大于設(shè)定閾值時,以p值小的QTN計數(shù),采用Bootstrap思想,挑取計數(shù)大于等于N*0.9的QTNs作為priorQTNs。其次,將priorQTNs在每個交叉驗證組
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文22圖3KAML算法中網(wǎng)格搜索及二分法迭代優(yōu)化權(quán)重關(guān)系矩陣圖示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML網(wǎng)格搜索全部計算完成后,比較所有交點的值大小,確定最大值(圖中實線相交的空心紅圈),然后啟動二分法迭代過程,為了避免最大值附近存在多個峰的情況,我們在最大值組合, 兩邊各取一個值|,A,取值規(guī)則如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 這樣構(gòu)成了4個新的組合,如圖3中虛線所示,虛線交點為二分法選取的新組合,計算4個交點預(yù)測準確性之后,同樣取最大值點(圖中虛線相交的空心紅圈),以同樣的方式進入下一次二分法迭代,如此實現(xiàn)二分法迭代過程,當?shù)螖?shù)達到設(shè)置的最大迭代次數(shù)(默認設(shè)置為10)或者當前后兩次迭代預(yù)測值的差值小于設(shè)定精度(默認設(shè)置為0.0001),二分法自動迭代結(jié)束。最后,比較最終確定的組合下預(yù)測準確性與GBLUP準確性:當最佳組合下的預(yù)測準確性小于GBLUP時,直接放棄最佳組合,采用標準的Kinship,此時最終模型可為Ks或pQ+Ks;當最佳組合下的預(yù)測準確性大于GBLUP時,采用最佳組合,此時最終模型可為Kw或pQ+Kw。需要注意的是,在交叉驗證過程中,訓(xùn)練群預(yù)測驗證群的預(yù)測準確性在KAML中存在兩種情況:當性狀定義為2水平0、1的表型時,KMAL自動轉(zhuǎn)換利用AUROC指標計算預(yù)測準確性;當性狀非2水平0、1的表型時,KAML采用Pearson相關(guān)系數(shù)計算預(yù)測準確性。
【參考文獻】:
期刊論文
[1]基因組選擇在豬雜交育種中的應(yīng)用[J]. 楊岸奇,陳斌,冉茂良,楊廣民,曾誠. 遺傳. 2020(02)
本文編號:3571814
本文鏈接:http://sikaile.net/projectlw/swxlw/3571814.html
最近更新
教材專著