基因組序列k-mer頻次分析及核小體結合模體的理論預測和驗證
發(fā)布時間:2018-08-30 17:57
【摘要】:基因組序列k-mer出現(xiàn)的頻次存在進化分離現(xiàn)象;谶@一現(xiàn)象,我們分析了酵母基因組核小體核心序列與核小體連接序列中k-mer (k≤8)使用頻次的差異。分析了人類1號染色體基因間序列8-mer使用頻次的三峰分布及在XY二核苷分類下的分布特征,給出了理論預測的核小體結合模體集合,并與核小體占據(jù)率實驗結果進行了比較。具體內容如下;贐rogaard等人在實驗上給出的酵母基因組序列上單堿基精度的核小體定位標注,獲得全部的核小體中心序列和核小體連接序列。分析了k-mer(k取4、5、6和8)在兩類序列中相對使用頻率(RF)的差異,發(fā)現(xiàn)當k≥6時,少數(shù)高頻k-mer使用差異明顯。引入兩類序列k-mer相對使用頻率比的對數(shù)(LRF)參數(shù)值,并按照該值增序的方式排列模體,結果顯示模體長度越長兩類序列的使用差異越明顯,當k7以后差異分布逐漸穩(wěn)定。按照核心序列8-mer相對使用頻率增序的方式排列模體,發(fā)現(xiàn)在相對使用頻率小于0.5的區(qū)域,兩類序列的8-mer使用差異更加顯著。分別計算了7個抽樣點附近核心序列偏好的8-mer和連接序列偏好8-mer的G+C含量和二核苷含量。結果顯示當8-mer相對頻率逐步減小時,對應模體的G+C含量逐步增大,連接序列偏好GG和CC二核苷的使用,核心序列明顯偏好CG和GC二核苷的使用?傊,除了少數(shù)極偏好的模體外,兩類序列k-mer使用的差異多數(shù)出現(xiàn)在k-mer相對頻率很低的模體上,這些模體具有較高的G+C含量。核小體結合模體集合的理論預測對于全面了解核小體的定位和染色質重塑以及DNA序列的結構和進化具有重要的意義。為了解釋人類基因組序列8-mer相對模體數(shù)隨頻次的分布的三峰現(xiàn)象。將8-mer集合按照8-mer中包含CG二核苷的含量分類,發(fā)現(xiàn)三個8-mer子集(OCG,1CG和2CG)各自形成獨立的單峰分布,而依照其它15類二核苷分類則沒有此現(xiàn)象,總體8-mer的三個峰正是這三個CG 8-mer子集分布的疊加。分析了DNA序列中8-mer使用的這一獨特的性質,結合對核小體結合序列的實驗研究結論,我們提出了1CG模體集合就是核小體結合模體的理論猜想。為了驗證我們的猜想,計算了1CG 8-mer集合中偏好和稀有的三核苷相對頻率,分別構建了核小體特征參數(shù)Ktri(O)和Ktri(R),得到它們在1177個基因轉錄起始序列(TSS)上的分布,然后與實驗給出的核小體占據(jù)率分布比較。線性擬合的統(tǒng)計結果表明,置信度大于95%的序列占到總數(shù)的89.2%,置信度大于99%的序列占到總數(shù)的81.6%。比較的結果印證了1CG模體集合就是核小體結合模體的理論猜想。
[Abstract]:The frequency of k-mer in genome sequence is separated by evolution. Based on this phenomenon, we analyzed the differences in the frequency of use of k-mer (k 鈮,
本文編號:2213843
[Abstract]:The frequency of k-mer in genome sequence is separated by evolution. Based on this phenomenon, we analyzed the differences in the frequency of use of k-mer (k 鈮,
本文編號:2213843
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2213843.html
最近更新
教材專著