胚胎干細(xì)胞核心轉(zhuǎn)錄因子靶基因相關(guān)計(jì)算研究
發(fā)布時(shí)間:2020-10-20 09:33
轉(zhuǎn)錄因子OCT4,SOX2和NANOG及其靶基因在胚胎干細(xì)胞(Embryonic Stem Cells,ESCs)自我更新和分化過程中發(fā)揮了十分重要的作用,被稱為胚胎干細(xì)胞多能性維持核心轉(zhuǎn)錄因子(Transcription Factors,TFs)。然而,這些轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控特征及規(guī)律尚不清楚,其靶基因的缺失和不足也在一定程度上限制了干細(xì)胞自我更新及分化機(jī)理的探索。在調(diào)控特征方面,這些轉(zhuǎn)錄因子之間是否存在交互以及協(xié)同調(diào)控,仍然不清楚。此外,在胚胎干細(xì)胞中特異表達(dá)的microRNA(miRNA),也在其多能性維持和分化方面起到了重要的作用。因此,探索轉(zhuǎn)錄前后的調(diào)控因子如何協(xié)同地發(fā)揮作用,將有助于我們探究胚胎干細(xì)胞多能性維持分子機(jī)理。在靶基因的預(yù)測(cè)、篩選方面,由于社會(huì)倫理等方面的原因,在人類中挖掘這些核心轉(zhuǎn)錄因子的靶基因仍然存在較多困難,導(dǎo)致目前已知的靶基因數(shù)量相比于小鼠缺失較多,影響下游研究進(jìn)程。為此,本研究利用系統(tǒng)生物學(xué)方法,探索胚胎干細(xì)胞核心轉(zhuǎn)錄因子靶基因的調(diào)控特征,隨后根據(jù)機(jī)器學(xué)習(xí)方法,利用基因組的序列特征及表觀調(diào)控特征對(duì)其進(jìn)行靶基因預(yù)測(cè)篩選,提取不同細(xì)胞類型的特征性分子網(wǎng)絡(luò),并基于此計(jì)算細(xì)胞間相似性,為下游分子細(xì)胞實(shí)驗(yàn)驗(yàn)證提供理論支撐。主要研究結(jié)果如下:(1)整合BioGRID、HPRD蛋白互作網(wǎng)絡(luò)和miRNA調(diào)控網(wǎng)絡(luò)miRecords、TarBase,對(duì)核心轉(zhuǎn)錄因子的靶基因在網(wǎng)絡(luò)中的性質(zhì)進(jìn)行分析。發(fā)現(xiàn)在人類和小鼠的蛋白互作網(wǎng)絡(luò)中,核心轉(zhuǎn)錄因子和miRNA共同調(diào)控的基因同核心轉(zhuǎn)錄因子單獨(dú)調(diào)控的靶基因在網(wǎng)絡(luò)中心屬性方面顯著差異,并且核心轉(zhuǎn)錄因子和miRNA共同調(diào)控的靶基因與其它基因之間的中心性差距更加明顯,反映出它們之間存在著協(xié)同調(diào)控作用,從而增強(qiáng)靶基因的功能,實(shí)現(xiàn)它們共同維護(hù)ESCs多潛能性的目標(biāo)。(2)構(gòu)建非陰性集依賴的核心轉(zhuǎn)錄因子靶基因預(yù)測(cè)模型:標(biāo)簽標(biāo)記算法(LMA)。利用核心轉(zhuǎn)錄因子靶基因的組蛋白修飾和轉(zhuǎn)錄因子調(diào)控序列特征,在人類全基因組范圍內(nèi)分別預(yù)測(cè)得到核心轉(zhuǎn)錄因子OCT4、SOX2和NANOG的靶基因4796,3166和4384個(gè),并給出可靠性分值,同現(xiàn)有的非陰性集依賴的M-C模型比較發(fā)現(xiàn)LMA模型具有較高的穩(wěn)定性和預(yù)測(cè)陽性集合準(zhǔn)確率,為進(jìn)一步的科學(xué)研究提供可靠的數(shù)據(jù)基礎(chǔ)。對(duì)LMA預(yù)測(cè)的基因集合分析發(fā)現(xiàn)其具有很強(qiáng)的模塊性和基因功能相似性,進(jìn)一步驗(yàn)證了核心轉(zhuǎn)錄因子預(yù)測(cè)靶基因的準(zhǔn)確性。(3)整合人類所有細(xì)胞類型和細(xì)胞內(nèi)分子調(diào)控網(wǎng)絡(luò),構(gòu)建了細(xì)胞相似性計(jì)算和細(xì)胞類型預(yù)測(cè)軟件CellSim。Cell Sim可以對(duì)人類細(xì)胞類型的相似性進(jìn)行計(jì)算,并且提供了原始細(xì)胞和靶細(xì)胞共享的詳細(xì)轉(zhuǎn)錄因子和基因調(diào)控關(guān)系和調(diào)控可靠性分值,為細(xì)胞重編程的轉(zhuǎn)錄因子選擇提供方便。同時(shí)CellSim可以根據(jù)特異基因集合,計(jì)算與其匹配的組織細(xì)胞。為方便用戶使用,本軟件的計(jì)算結(jié)果可供下載使用。
【學(xué)位單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
圖 2-1 人類和小鼠核心轉(zhuǎn)錄因子靶基因分布圖Fig. 2-1 The distribution of the ‘core’TFs’targets in human and mouseA. 人類核心轉(zhuǎn)錄因子的靶基因 Human ‘core’pluripotency TFs’targets; B. 小鼠核心轉(zhuǎn)錄因子的靶基因 Mouse ‘core’pluripotency TFs’targets.2.1.2 miRNA 靶基因數(shù)據(jù)收集與整理為了消除數(shù)據(jù)偏移性,我們采用了兩個(gè) miRNA 數(shù)據(jù)庫:miRecords(Xiao F et al.2009 )( mirecords.biolead.org ) 和 TarBase ( Vergoulis et al. 2012 ),(diana.cslab.ece.ntua.gr/DianaToolsNew/index.php)。miRecords包括人類的284個(gè)miRNA,1101 個(gè)靶基因和 2087 個(gè)調(diào)控;小鼠的 145 個(gè) miRNA,266 個(gè)靶基因和 442 個(gè)調(diào)控。TarBase 包括人類的 111 個(gè) miRNA,862 個(gè)靶基因和 1093 個(gè)調(diào)控;小鼠的 44 個(gè) miRNA,75 個(gè)靶基因和 104 個(gè)調(diào)控。在 miRecords 中包括實(shí)驗(yàn)驗(yàn)證的 miRNA 調(diào)控?cái)?shù)據(jù)和由 11 種miRNA 調(diào)控預(yù)測(cè)軟件的結(jié)果整合之后的調(diào)控?cái)?shù)據(jù)。而 TarBase 數(shù)據(jù)庫中僅包含實(shí)驗(yàn)驗(yàn)證的 miRNA 調(diào)控信息,因此 Tarbase 的數(shù)據(jù)比 miRecords 中要少很多。2.1.3 蛋白互作網(wǎng)絡(luò)數(shù)據(jù)收集與整理2.1.3.1 人類蛋白互作網(wǎng)絡(luò)數(shù)據(jù)
第二章 胚胎干細(xì)胞多能性維持分子層面研究 11行統(tǒng)計(jì)計(jì)算放入 Label 中,以保證結(jié)果的可靠性并且可以對(duì)每一個(gè)沒有標(biāo)簽的基因給出一個(gè)可靠性分值來顯示一個(gè)基因是核心轉(zhuǎn)錄因子靶基因的概率。2.1.7 LMA 模型預(yù)測(cè)效果分析為了評(píng)估 LMA 模型的分類效果,我們選擇了一個(gè)已發(fā)表的同樣基于支持向量機(jī)構(gòu)建的非陰性集合依賴的預(yù)測(cè)模型(Mapping-Convergence,M-C)做比較(圖 2-3)(XiaoX et al. 2013:425)。M-C 模型第一個(gè)循環(huán)同 LMA 類似:用 POS 和從 MIX 隨機(jī)抽取等量的基因條目作為 NEG 進(jìn)行訓(xùn)練。隨后訓(xùn)練結(jié)果中預(yù)測(cè)不是靶基因的基因集合的作為陰性集合,在之后循環(huán)中從中抽取 NEG。訓(xùn)練結(jié)果中被預(yù)測(cè)為靶基因的作為 MIX,成為下一次被預(yù)測(cè)的集合。循環(huán)在預(yù)測(cè)MIX時(shí)得到的不是靶基因的集合為空時(shí)循環(huán)結(jié)束。
圖 2-3 M-C 模型流程圖(Xiao X et al. 2013:426)Fig. 2-3 Workflow of the M-C modelLMA 模型和 M-C 模型的性能,我們用貝葉斯定理計(jì)算預(yù)測(cè)為一個(gè)生物學(xué)假設(shè):超過 90%的基因不是核心轉(zhuǎn)錄因子的靶們假設(shè)事件 A1:“基因 A 是靶基因”,概率為 0.1;事件 A2:為 0.9。事件 B:“在 LMA 模型中,基因 A 被預(yù)測(cè)為靶基,基因 A 被預(yù)測(cè)為靶基因”。利用貝葉斯模型計(jì)算對(duì)應(yīng)概P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2-P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2- ( 1) = 0.9 (2- ( 2) = 0.1 (2- ( | 1) = 10000500( 1)500(1 1)500(2- ( | 2) = 10000500( 1)500(1 1)500(2-
【參考文獻(xiàn)】
本文編號(hào):2848515
【學(xué)位單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
圖 2-1 人類和小鼠核心轉(zhuǎn)錄因子靶基因分布圖Fig. 2-1 The distribution of the ‘core’TFs’targets in human and mouseA. 人類核心轉(zhuǎn)錄因子的靶基因 Human ‘core’pluripotency TFs’targets; B. 小鼠核心轉(zhuǎn)錄因子的靶基因 Mouse ‘core’pluripotency TFs’targets.2.1.2 miRNA 靶基因數(shù)據(jù)收集與整理為了消除數(shù)據(jù)偏移性,我們采用了兩個(gè) miRNA 數(shù)據(jù)庫:miRecords(Xiao F et al.2009 )( mirecords.biolead.org ) 和 TarBase ( Vergoulis et al. 2012 ),(diana.cslab.ece.ntua.gr/DianaToolsNew/index.php)。miRecords包括人類的284個(gè)miRNA,1101 個(gè)靶基因和 2087 個(gè)調(diào)控;小鼠的 145 個(gè) miRNA,266 個(gè)靶基因和 442 個(gè)調(diào)控。TarBase 包括人類的 111 個(gè) miRNA,862 個(gè)靶基因和 1093 個(gè)調(diào)控;小鼠的 44 個(gè) miRNA,75 個(gè)靶基因和 104 個(gè)調(diào)控。在 miRecords 中包括實(shí)驗(yàn)驗(yàn)證的 miRNA 調(diào)控?cái)?shù)據(jù)和由 11 種miRNA 調(diào)控預(yù)測(cè)軟件的結(jié)果整合之后的調(diào)控?cái)?shù)據(jù)。而 TarBase 數(shù)據(jù)庫中僅包含實(shí)驗(yàn)驗(yàn)證的 miRNA 調(diào)控信息,因此 Tarbase 的數(shù)據(jù)比 miRecords 中要少很多。2.1.3 蛋白互作網(wǎng)絡(luò)數(shù)據(jù)收集與整理2.1.3.1 人類蛋白互作網(wǎng)絡(luò)數(shù)據(jù)
第二章 胚胎干細(xì)胞多能性維持分子層面研究 11行統(tǒng)計(jì)計(jì)算放入 Label 中,以保證結(jié)果的可靠性并且可以對(duì)每一個(gè)沒有標(biāo)簽的基因給出一個(gè)可靠性分值來顯示一個(gè)基因是核心轉(zhuǎn)錄因子靶基因的概率。2.1.7 LMA 模型預(yù)測(cè)效果分析為了評(píng)估 LMA 模型的分類效果,我們選擇了一個(gè)已發(fā)表的同樣基于支持向量機(jī)構(gòu)建的非陰性集合依賴的預(yù)測(cè)模型(Mapping-Convergence,M-C)做比較(圖 2-3)(XiaoX et al. 2013:425)。M-C 模型第一個(gè)循環(huán)同 LMA 類似:用 POS 和從 MIX 隨機(jī)抽取等量的基因條目作為 NEG 進(jìn)行訓(xùn)練。隨后訓(xùn)練結(jié)果中預(yù)測(cè)不是靶基因的基因集合的作為陰性集合,在之后循環(huán)中從中抽取 NEG。訓(xùn)練結(jié)果中被預(yù)測(cè)為靶基因的作為 MIX,成為下一次被預(yù)測(cè)的集合。循環(huán)在預(yù)測(cè)MIX時(shí)得到的不是靶基因的集合為空時(shí)循環(huán)結(jié)束。
圖 2-3 M-C 模型流程圖(Xiao X et al. 2013:426)Fig. 2-3 Workflow of the M-C modelLMA 模型和 M-C 模型的性能,我們用貝葉斯定理計(jì)算預(yù)測(cè)為一個(gè)生物學(xué)假設(shè):超過 90%的基因不是核心轉(zhuǎn)錄因子的靶們假設(shè)事件 A1:“基因 A 是靶基因”,概率為 0.1;事件 A2:為 0.9。事件 B:“在 LMA 模型中,基因 A 被預(yù)測(cè)為靶基,基因 A 被預(yù)測(cè)為靶基因”。利用貝葉斯模型計(jì)算對(duì)應(yīng)概P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2-P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2- ( 1) = 0.9 (2- ( 2) = 0.1 (2- ( | 1) = 10000500( 1)500(1 1)500(2- ( | 2) = 10000500( 1)500(1 1)500(2-
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 譚文學(xué);王細(xì)萍;席金菊;李淑紅;;計(jì)算機(jī)輔助診斷疾病的支持向量機(jī)方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年05期
2 左長清;汪宗桂;吳鐵;崔燎;;胚胎干細(xì)胞核心轉(zhuǎn)錄因子靶基因集蛋白互作網(wǎng)絡(luò)特征分析[J];中國組織工程研究與臨床康復(fù);2011年01期
本文編號(hào):2848515
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2848515.html
最近更新
教材專著