轉錄因子CTCF活性結合位點的預測
發(fā)布時間:2020-11-17 10:52
CCCTC結合因子(CTCF)是廣泛存在于真核生物中的多鋅脂蛋白,參與了轉錄、印跡和染色質長程相互作用等多種生物學過程,在不同基因組背景下發(fā)揮不同的功能。眾所周知,CTCF可以同時充當轉錄抑制因子和激活因子。另一方面,各種研究發(fā)現(xiàn)CTCF是主要的腫瘤抑制基因,破壞特定基因位點的CTCF結合可能會導致癌癥相關基因的異常表達,從而增加患乳腺癌等癌癥的風險。全基因組的ChIP-seq分析揭示了成千上萬個CTCF的結合位點,表明其在基因組中的廣泛調節(jié)功能。實際上,CTCF的結合受到多種因素的影響,包括DNA序列、其他轉錄因子的結合、染色質可及性,DNA甲基化和組蛋白修飾等等。ENCODE項目提供了大量的全基因組表觀修飾數(shù)據(jù),已被證明是用于基因調控研究的寶貴數(shù)據(jù)資源,我們后續(xù)用于分析和預測的數(shù)據(jù)都來源于ENCODE。首先,利用ENCODE數(shù)據(jù)庫中82個細胞系轉錄因子CTCF的峰值數(shù)據(jù),構建了CTCF活性結合位點(正集:876個位點,稱為CABS)和CTCF非活性結合位點(負集:231130個位點,CIBS)數(shù)據(jù)集。然后,從ENCODE中提取了各種表觀遺傳信號,包括DNase-seq、RAD21、SMC3、H3K9ac、H3K27me3、H3K9me3、H3K4me3、H3k4me2和H4k20me1。最后,基于轉錄起始位點鄰近表觀信號特征,利用支持向量機(SVM,Jackknife驗證)和隨機森林(RF,5倍交叉驗證)預測了GM12878中轉錄因子CTCF的活性結合位點。結果表明,九個特征的預測準確度分別為93.87%和94.46%,100次平均預測準確度為94.78%和95.40%。與此同時,僅使用DNase-seq、RAD21和SMC3的特征就可以實現(xiàn)與九種特征可比擬的預測準確度,說明染色質可及性DNase-seq數(shù)據(jù)、RAD21和SMC3的結合信息,對活性CTCF結合位點的預測具有較強的預測能力,組蛋白修飾可提供適度的預測能力。進一步,基于ENCODE構建了乳腺癌MCF-7細胞系特異的CTCF活性結合位點(30859個位點,M-S group)數(shù)據(jù)集與乳腺正常HMEC細胞系特異的CTCF活性結合位點(13171個位點,H-S group)數(shù)據(jù)集。根據(jù)第一部分的研究結果,利用三種轉錄因子(CTCF、RAD21、SMC3)的結合模體,DNase-seq以及DNA甲基化信號在CTCF峰400bp區(qū)域內的分布信息,對乳腺癌MCF-7細胞系特異的CTCF活性結合位點進行預測,SVM與RF的預測準確度分別是83.09%,84.19%。結果表明,MCF-7細胞系中活性CTCF結合位點的預測水平超過80%,表明結合染色質可及性數(shù)據(jù)、DNA甲基化對CTCF的結合具有較強的調控作用,同時具有強關聯(lián)的轉錄因子RAD21和SMC3對CTCF的結合發(fā)揮了一定的影響,這些研究有助于進一步分析和預測DNA與其他轉錄因子之間的相互作用。
【學位單位】:內蒙古大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:Q75
【部分圖文】:
內蒙古大學碩士學位論文9根據(jù)ENCODE提供的數(shù)據(jù),表2.2統(tǒng)計了轉錄因子RAD21、SMC3所在的細胞系;趶腅NCODE下載的RAD21、SMC3的narrowpeak數(shù)據(jù),利用MEME-ChIP用于模體搜索,同時從JASPAR(htp:/jaspar.genereg.net/matrix/MA0139.1/)下載了轉錄因子CTCF19bp的結合模體(logo圖見圖2.1,位置權重矩陣見表2.3)。圖2.1轉錄因子CTCF模體的logo圖Fig2.1MotiflogomapoftranscriptionfactorCTCF表2.2構建RAD21與SMC3模體的細胞系Table2.2ThecelllinesusedtobuildRAD21andSMC3motifs編號細胞系名稱描述RAD21SMC31GM12878B-淋巴細胞,淋巴母細胞++2H1-hESC胚胎干細胞+-3K562白血病++4A549肺癌組織的上皮細胞系+-5HeLa-S3宮頸癌++6HepG2心臟病++7IMR90胎兒肺成纖維細胞+-8SK-N-SH神經母細胞瘤,SK-N-SH細胞系是由4歲個體的神經母細胞瘤建立。++9SK-N-SH_RA神經母細胞瘤細胞系+-備注:“+”表示存在,“-”號表示不存在該轉錄因子的的narrowpeak數(shù)據(jù)。Note:"+"Indicatesthepresence,and"-"indicatestheabsenceofnarrowpeakdataforthetranscriptionfactor.
內蒙古大學碩士學位論文12(B)圖3.1CTCF活性結合與CTCF非活性結合的數(shù)據(jù)集的構建方法(A)與流程(B)Fig3.1Theconstructionmethods(A)andprocess(B)ofdatasetsofactivebindingsites(CABS)andinactivebindingsites(CIBS)oftranscriptionfactorCTCF其次,基于上面得到的無重復位點的兩類數(shù)據(jù),將二者所有同染色體的位點再次進行比較(參照圖3.1A),若比較后的兩個位點不相交(參照圖3.1A的2c),則分別記作二者特有的位點(specificsite);反之(參照圖3.1A的2a或者2b),隨機保留一個位點記作二者共有的位點(commonsite)。篩選出43699個相交的narrowpeak作為二者共有的結合位點、GM12878細胞系CTCF結合的特有位點904個、其它81個細胞系CTCF結合的特有位點273321個。最后,剔除染色體X與Y的narrowpeak位點,得到了GM12878細胞系的CTCF活性結合的位點(CABS,876個位點,正集)數(shù)據(jù)集和CTCF非活性結合的位點(CIBS,231130個位點,負集)數(shù)據(jù)集。圖3.1B為CABS數(shù)據(jù)集與CIBS數(shù)據(jù)集的構建流程圖。
內蒙古大學碩士學位論文133.2基于信號特征提取與數(shù)據(jù)歸一化對CTCF的第i個結合位點,統(tǒng)計任一種表觀修飾讀段的個數(shù)(read數(shù)),記為N,利用公式3.1,根據(jù)第i個CTCF結合位點的片段長度len和peak位點的平均長度L(CABS數(shù)據(jù)集與CIBS數(shù)據(jù)集的L分別是309bp、166bp)進行歸一化處理,得到第i個結合位點的特征值N′并用于預測。L*lenNNiii′=3.3預測方法3.3.1隨機森林方法隨機森林[28](RF,RandomForest)是一種由多棵決策樹組合、基于Bagging集成學習方法的聯(lián)合預測模型,特點是能夠避免單一模型的缺陷,消除某一組特征參數(shù)自身所帶來的影響。圖3.2隨機森林工作流程[29]Fig3.2WorkflowofRandomforest[29](3.1)
【參考文獻】
本文編號:2887419
【學位單位】:內蒙古大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:Q75
【部分圖文】:
內蒙古大學碩士學位論文9根據(jù)ENCODE提供的數(shù)據(jù),表2.2統(tǒng)計了轉錄因子RAD21、SMC3所在的細胞系;趶腅NCODE下載的RAD21、SMC3的narrowpeak數(shù)據(jù),利用MEME-ChIP用于模體搜索,同時從JASPAR(htp:/jaspar.genereg.net/matrix/MA0139.1/)下載了轉錄因子CTCF19bp的結合模體(logo圖見圖2.1,位置權重矩陣見表2.3)。圖2.1轉錄因子CTCF模體的logo圖Fig2.1MotiflogomapoftranscriptionfactorCTCF表2.2構建RAD21與SMC3模體的細胞系Table2.2ThecelllinesusedtobuildRAD21andSMC3motifs編號細胞系名稱描述RAD21SMC31GM12878B-淋巴細胞,淋巴母細胞++2H1-hESC胚胎干細胞+-3K562白血病++4A549肺癌組織的上皮細胞系+-5HeLa-S3宮頸癌++6HepG2心臟病++7IMR90胎兒肺成纖維細胞+-8SK-N-SH神經母細胞瘤,SK-N-SH細胞系是由4歲個體的神經母細胞瘤建立。++9SK-N-SH_RA神經母細胞瘤細胞系+-備注:“+”表示存在,“-”號表示不存在該轉錄因子的的narrowpeak數(shù)據(jù)。Note:"+"Indicatesthepresence,and"-"indicatestheabsenceofnarrowpeakdataforthetranscriptionfactor.
內蒙古大學碩士學位論文12(B)圖3.1CTCF活性結合與CTCF非活性結合的數(shù)據(jù)集的構建方法(A)與流程(B)Fig3.1Theconstructionmethods(A)andprocess(B)ofdatasetsofactivebindingsites(CABS)andinactivebindingsites(CIBS)oftranscriptionfactorCTCF其次,基于上面得到的無重復位點的兩類數(shù)據(jù),將二者所有同染色體的位點再次進行比較(參照圖3.1A),若比較后的兩個位點不相交(參照圖3.1A的2c),則分別記作二者特有的位點(specificsite);反之(參照圖3.1A的2a或者2b),隨機保留一個位點記作二者共有的位點(commonsite)。篩選出43699個相交的narrowpeak作為二者共有的結合位點、GM12878細胞系CTCF結合的特有位點904個、其它81個細胞系CTCF結合的特有位點273321個。最后,剔除染色體X與Y的narrowpeak位點,得到了GM12878細胞系的CTCF活性結合的位點(CABS,876個位點,正集)數(shù)據(jù)集和CTCF非活性結合的位點(CIBS,231130個位點,負集)數(shù)據(jù)集。圖3.1B為CABS數(shù)據(jù)集與CIBS數(shù)據(jù)集的構建流程圖。
內蒙古大學碩士學位論文133.2基于信號特征提取與數(shù)據(jù)歸一化對CTCF的第i個結合位點,統(tǒng)計任一種表觀修飾讀段的個數(shù)(read數(shù)),記為N,利用公式3.1,根據(jù)第i個CTCF結合位點的片段長度len和peak位點的平均長度L(CABS數(shù)據(jù)集與CIBS數(shù)據(jù)集的L分別是309bp、166bp)進行歸一化處理,得到第i個結合位點的特征值N′并用于預測。L*lenNNiii′=3.3預測方法3.3.1隨機森林方法隨機森林[28](RF,RandomForest)是一種由多棵決策樹組合、基于Bagging集成學習方法的聯(lián)合預測模型,特點是能夠避免單一模型的缺陷,消除某一組特征參數(shù)自身所帶來的影響。圖3.2隨機森林工作流程[29]Fig3.2WorkflowofRandomforest[29](3.1)
【參考文獻】
相關期刊論文 前3條
1 王海;張倩;方向東;;絕緣子調控基因的表達[J];中國生物化學與分子生物學報;2011年06期
2 高智紅;張利絨;羅遼復;;應用離散增量方法識別人類MicroRNAs前體序列[J];內蒙古大學學報(自然科學版);2010年06期
3 李鳳敏;李前忠;林昊;;基于離散增量和協(xié)變判別函數(shù)識別蛋白質亞核定位[J];內蒙古大學學報(自然科學版);2008年01期
本文編號:2887419
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2887419.html
最近更新
教材專著