天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

GM12878細胞系CTCF活性結(jié)合位點的預(yù)測

發(fā)布時間:2021-06-11 17:51
  轉(zhuǎn)錄因子的結(jié)合能夠影響下游目標(biāo)基因在特定時間、空間的轉(zhuǎn)錄和表達.轉(zhuǎn)錄因子結(jié)合具有細胞特異性,受到染色質(zhì)開放特征、多種組蛋白修飾以及其他轉(zhuǎn)錄因子結(jié)合等多種因素影響.以GM12878細胞系為研究對象,構(gòu)建了CTCF活性結(jié)合位點數(shù)據(jù)集(正集,876個位點)與非活性結(jié)合位點數(shù)據(jù)集(對照組,負集,231130個位點)。根據(jù)DNase-seq、H3k4me2、H4k20me1、H3K4me3、H3K27me3、H3K9me3、H3K9ac、RAD21、SMC3這九種特征,分別利用支持向量機(SVM,Jackknife檢驗)和隨機森林(RF,5-fold交叉驗證)這兩種方法,對CTCF的活性結(jié)合位點進行預(yù)測,九種特征融合的預(yù)測準(zhǔn)確度分別達到93.87%和94.46%,平均預(yù)測的準(zhǔn)確度分別是94.78%和95.40%。結(jié)果顯示,這九種特征對GM12878細胞系轉(zhuǎn)錄因子CTCF的結(jié)合具有重要的調(diào)控作用,而SMC3的結(jié)合對CTCF結(jié)合的調(diào)控尤為重要。 

【文章來源】:內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2020,51(02)北大核心

【文章頁數(shù)】:7 頁

【部分圖文】:

GM12878細胞系CTCF活性結(jié)合位點的預(yù)測


GM12878細胞系CTCF結(jié)合的活性位點數(shù)據(jù)集與非活性數(shù)據(jù)集的構(gòu)建流程

準(zhǔn)確度,特征組,方法,特征融合


表2中兩種預(yù)測方法得到的結(jié)果均顯示,第13組九種特征融合在一起時,預(yù)測準(zhǔn)確度最高;單獨采用H3K27me3(第5組)特征時,AccRF是61.67%,AccSVM是53.41%,兩種方法的預(yù)測準(zhǔn)確度都是最低的,這也可以從圖2(a)中最低點看出,此組特征值差異小,SVM不能很好地區(qū)分同時此組得到的敏感性也是最低且兩種預(yù)測方法得到的敏感性差異最大,SVM與RF得到的敏感性分別為5.71%和59.29%,后者高出前者53.38%,而其他組敏感性差異都遠遠小于此組。不采用特征融合,利用單一特征對活性位點進行預(yù)測時,九種特征中單獨采用SMC3時預(yù)測準(zhǔn)確度最高,AccSVM是91.9%,AccRF是90.67%,單獨采用RAD21的預(yù)測準(zhǔn)確度僅次于單獨采用SMC3,AccSVM是88.59%,AccRF是88.06%。表中還顯示第8、11、12、13、15組的預(yù)測準(zhǔn)確度都在90%以上,只有第15組是采用單個特征SMC3預(yù)測,第8組與11組都采用了SMC3與RAD21進行預(yù)測,因此對此次預(yù)測最至關(guān)重要的特征是轉(zhuǎn)錄因子SMC3,其次是RAD21,這一結(jié)果也印證了轉(zhuǎn)錄因子組合Rad21+SMC3+CTCF具有極強的相關(guān)性。應(yīng)用九種特征融合,將負集樣本分成100組,進行100次預(yù)測,并求取平均值SVM方法的Sn、Sp、Acc、MCC分別為87.35%、97.61%、94.78%、86.74%;RF方法的Sn、Sp、Acc、MCC依次為90.26%、97.34%、95.40%、88.37%,RF四種評價指標(biāo)的結(jié)果除特異性均高于SVM,RF的平均預(yù)測準(zhǔn)確度僅比SVM高出0.62%。

折線圖,線圖,準(zhǔn)確度,折線圖


應(yīng)用九種特征融合,將負集樣本分成100組,進行100次預(yù)測,并求取平均值SVM方法的Sn、Sp、Acc、MCC分別為87.35%、97.61%、94.78%、86.74%;RF方法的Sn、Sp、Acc、MCC依次為90.26%、97.34%、95.40%、88.37%,RF四種評價指標(biāo)的結(jié)果除特異性均高于SVM,RF的平均預(yù)測準(zhǔn)確度僅比SVM高出0.62%。圖3(a)的箱線圖,顯示了SVM與RF方法100次預(yù)測結(jié)果四種評價指標(biāo)的分布情況,對于SVM的分布情況而言:四個評價指標(biāo)(敏感性、特異性、Acc、MCC)的大部分數(shù)據(jù)都在箱線圖內(nèi),少部分異常值均為100次預(yù)測結(jié)果的較大值與較小值。圖3(a)中還顯示了RF的Sn、Acc、MCC的箱線圖中值分布均明顯高于SVM,而Sp中值略低于SVM,與平均值的結(jié)果一致。

【參考文獻】:
期刊論文
[1]Systematic identification and annotation of multiple-variant compound effects at transcription factor binding sites in human genome[J]. Si-Jin Cheng,Shuai Jiang,Fang-Yuan Shi,Yang Ding,Ge Gao.  Journal of Genetics and Genomics. 2018(07)
[2]轉(zhuǎn)錄因子和組蛋白修飾的分布特征[J]. 薛高高,張利絨,閆甜甜,劉俊杰.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2016(04)



本文編號:3225004

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/3225004.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶20634***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com