胚胎干細胞核心轉(zhuǎn)錄因子靶基因相關(guān)計算研究
發(fā)布時間:2020-10-20 09:33
轉(zhuǎn)錄因子OCT4,SOX2和NANOG及其靶基因在胚胎干細胞(Embryonic Stem Cells,ESCs)自我更新和分化過程中發(fā)揮了十分重要的作用,被稱為胚胎干細胞多能性維持核心轉(zhuǎn)錄因子(Transcription Factors,TFs)。然而,這些轉(zhuǎn)錄因子對靶基因的調(diào)控特征及規(guī)律尚不清楚,其靶基因的缺失和不足也在一定程度上限制了干細胞自我更新及分化機理的探索。在調(diào)控特征方面,這些轉(zhuǎn)錄因子之間是否存在交互以及協(xié)同調(diào)控,仍然不清楚。此外,在胚胎干細胞中特異表達的microRNA(miRNA),也在其多能性維持和分化方面起到了重要的作用。因此,探索轉(zhuǎn)錄前后的調(diào)控因子如何協(xié)同地發(fā)揮作用,將有助于我們探究胚胎干細胞多能性維持分子機理。在靶基因的預(yù)測、篩選方面,由于社會倫理等方面的原因,在人類中挖掘這些核心轉(zhuǎn)錄因子的靶基因仍然存在較多困難,導(dǎo)致目前已知的靶基因數(shù)量相比于小鼠缺失較多,影響下游研究進程。為此,本研究利用系統(tǒng)生物學(xué)方法,探索胚胎干細胞核心轉(zhuǎn)錄因子靶基因的調(diào)控特征,隨后根據(jù)機器學(xué)習(xí)方法,利用基因組的序列特征及表觀調(diào)控特征對其進行靶基因預(yù)測篩選,提取不同細胞類型的特征性分子網(wǎng)絡(luò),并基于此計算細胞間相似性,為下游分子細胞實驗驗證提供理論支撐。主要研究結(jié)果如下:(1)整合BioGRID、HPRD蛋白互作網(wǎng)絡(luò)和miRNA調(diào)控網(wǎng)絡(luò)miRecords、TarBase,對核心轉(zhuǎn)錄因子的靶基因在網(wǎng)絡(luò)中的性質(zhì)進行分析。發(fā)現(xiàn)在人類和小鼠的蛋白互作網(wǎng)絡(luò)中,核心轉(zhuǎn)錄因子和miRNA共同調(diào)控的基因同核心轉(zhuǎn)錄因子單獨調(diào)控的靶基因在網(wǎng)絡(luò)中心屬性方面顯著差異,并且核心轉(zhuǎn)錄因子和miRNA共同調(diào)控的靶基因與其它基因之間的中心性差距更加明顯,反映出它們之間存在著協(xié)同調(diào)控作用,從而增強靶基因的功能,實現(xiàn)它們共同維護ESCs多潛能性的目標。(2)構(gòu)建非陰性集依賴的核心轉(zhuǎn)錄因子靶基因預(yù)測模型:標簽標記算法(LMA)。利用核心轉(zhuǎn)錄因子靶基因的組蛋白修飾和轉(zhuǎn)錄因子調(diào)控序列特征,在人類全基因組范圍內(nèi)分別預(yù)測得到核心轉(zhuǎn)錄因子OCT4、SOX2和NANOG的靶基因4796,3166和4384個,并給出可靠性分值,同現(xiàn)有的非陰性集依賴的M-C模型比較發(fā)現(xiàn)LMA模型具有較高的穩(wěn)定性和預(yù)測陽性集合準確率,為進一步的科學(xué)研究提供可靠的數(shù)據(jù)基礎(chǔ)。對LMA預(yù)測的基因集合分析發(fā)現(xiàn)其具有很強的模塊性和基因功能相似性,進一步驗證了核心轉(zhuǎn)錄因子預(yù)測靶基因的準確性。(3)整合人類所有細胞類型和細胞內(nèi)分子調(diào)控網(wǎng)絡(luò),構(gòu)建了細胞相似性計算和細胞類型預(yù)測軟件CellSim。Cell Sim可以對人類細胞類型的相似性進行計算,并且提供了原始細胞和靶細胞共享的詳細轉(zhuǎn)錄因子和基因調(diào)控關(guān)系和調(diào)控可靠性分值,為細胞重編程的轉(zhuǎn)錄因子選擇提供方便。同時CellSim可以根據(jù)特異基因集合,計算與其匹配的組織細胞。為方便用戶使用,本軟件的計算結(jié)果可供下載使用。
【學(xué)位單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
圖 2-1 人類和小鼠核心轉(zhuǎn)錄因子靶基因分布圖Fig. 2-1 The distribution of the ‘core’TFs’targets in human and mouseA. 人類核心轉(zhuǎn)錄因子的靶基因 Human ‘core’pluripotency TFs’targets; B. 小鼠核心轉(zhuǎn)錄因子的靶基因 Mouse ‘core’pluripotency TFs’targets.2.1.2 miRNA 靶基因數(shù)據(jù)收集與整理為了消除數(shù)據(jù)偏移性,我們采用了兩個 miRNA 數(shù)據(jù)庫:miRecords(Xiao F et al.2009 )( mirecords.biolead.org ) 和 TarBase ( Vergoulis et al. 2012 ),(diana.cslab.ece.ntua.gr/DianaToolsNew/index.php)。miRecords包括人類的284個miRNA,1101 個靶基因和 2087 個調(diào)控;小鼠的 145 個 miRNA,266 個靶基因和 442 個調(diào)控。TarBase 包括人類的 111 個 miRNA,862 個靶基因和 1093 個調(diào)控;小鼠的 44 個 miRNA,75 個靶基因和 104 個調(diào)控。在 miRecords 中包括實驗驗證的 miRNA 調(diào)控數(shù)據(jù)和由 11 種miRNA 調(diào)控預(yù)測軟件的結(jié)果整合之后的調(diào)控數(shù)據(jù)。而 TarBase 數(shù)據(jù)庫中僅包含實驗驗證的 miRNA 調(diào)控信息,因此 Tarbase 的數(shù)據(jù)比 miRecords 中要少很多。2.1.3 蛋白互作網(wǎng)絡(luò)數(shù)據(jù)收集與整理2.1.3.1 人類蛋白互作網(wǎng)絡(luò)數(shù)據(jù)
第二章 胚胎干細胞多能性維持分子層面研究 11行統(tǒng)計計算放入 Label 中,以保證結(jié)果的可靠性并且可以對每一個沒有標簽的基因給出一個可靠性分值來顯示一個基因是核心轉(zhuǎn)錄因子靶基因的概率。2.1.7 LMA 模型預(yù)測效果分析為了評估 LMA 模型的分類效果,我們選擇了一個已發(fā)表的同樣基于支持向量機構(gòu)建的非陰性集合依賴的預(yù)測模型(Mapping-Convergence,M-C)做比較(圖 2-3)(XiaoX et al. 2013:425)。M-C 模型第一個循環(huán)同 LMA 類似:用 POS 和從 MIX 隨機抽取等量的基因條目作為 NEG 進行訓(xùn)練。隨后訓(xùn)練結(jié)果中預(yù)測不是靶基因的基因集合的作為陰性集合,在之后循環(huán)中從中抽取 NEG。訓(xùn)練結(jié)果中被預(yù)測為靶基因的作為 MIX,成為下一次被預(yù)測的集合。循環(huán)在預(yù)測MIX時得到的不是靶基因的集合為空時循環(huán)結(jié)束。
圖 2-3 M-C 模型流程圖(Xiao X et al. 2013:426)Fig. 2-3 Workflow of the M-C modelLMA 模型和 M-C 模型的性能,我們用貝葉斯定理計算預(yù)測為一個生物學(xué)假設(shè):超過 90%的基因不是核心轉(zhuǎn)錄因子的靶們假設(shè)事件 A1:“基因 A 是靶基因”,概率為 0.1;事件 A2:為 0.9。事件 B:“在 LMA 模型中,基因 A 被預(yù)測為靶基,基因 A 被預(yù)測為靶基因”。利用貝葉斯模型計算對應(yīng)概P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2-P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2- ( 1) = 0.9 (2- ( 2) = 0.1 (2- ( | 1) = 10000500( 1)500(1 1)500(2- ( | 2) = 10000500( 1)500(1 1)500(2-
【參考文獻】
本文編號:2848515
【學(xué)位單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
圖 2-1 人類和小鼠核心轉(zhuǎn)錄因子靶基因分布圖Fig. 2-1 The distribution of the ‘core’TFs’targets in human and mouseA. 人類核心轉(zhuǎn)錄因子的靶基因 Human ‘core’pluripotency TFs’targets; B. 小鼠核心轉(zhuǎn)錄因子的靶基因 Mouse ‘core’pluripotency TFs’targets.2.1.2 miRNA 靶基因數(shù)據(jù)收集與整理為了消除數(shù)據(jù)偏移性,我們采用了兩個 miRNA 數(shù)據(jù)庫:miRecords(Xiao F et al.2009 )( mirecords.biolead.org ) 和 TarBase ( Vergoulis et al. 2012 ),(diana.cslab.ece.ntua.gr/DianaToolsNew/index.php)。miRecords包括人類的284個miRNA,1101 個靶基因和 2087 個調(diào)控;小鼠的 145 個 miRNA,266 個靶基因和 442 個調(diào)控。TarBase 包括人類的 111 個 miRNA,862 個靶基因和 1093 個調(diào)控;小鼠的 44 個 miRNA,75 個靶基因和 104 個調(diào)控。在 miRecords 中包括實驗驗證的 miRNA 調(diào)控數(shù)據(jù)和由 11 種miRNA 調(diào)控預(yù)測軟件的結(jié)果整合之后的調(diào)控數(shù)據(jù)。而 TarBase 數(shù)據(jù)庫中僅包含實驗驗證的 miRNA 調(diào)控信息,因此 Tarbase 的數(shù)據(jù)比 miRecords 中要少很多。2.1.3 蛋白互作網(wǎng)絡(luò)數(shù)據(jù)收集與整理2.1.3.1 人類蛋白互作網(wǎng)絡(luò)數(shù)據(jù)
第二章 胚胎干細胞多能性維持分子層面研究 11行統(tǒng)計計算放入 Label 中,以保證結(jié)果的可靠性并且可以對每一個沒有標簽的基因給出一個可靠性分值來顯示一個基因是核心轉(zhuǎn)錄因子靶基因的概率。2.1.7 LMA 模型預(yù)測效果分析為了評估 LMA 模型的分類效果,我們選擇了一個已發(fā)表的同樣基于支持向量機構(gòu)建的非陰性集合依賴的預(yù)測模型(Mapping-Convergence,M-C)做比較(圖 2-3)(XiaoX et al. 2013:425)。M-C 模型第一個循環(huán)同 LMA 類似:用 POS 和從 MIX 隨機抽取等量的基因條目作為 NEG 進行訓(xùn)練。隨后訓(xùn)練結(jié)果中預(yù)測不是靶基因的基因集合的作為陰性集合,在之后循環(huán)中從中抽取 NEG。訓(xùn)練結(jié)果中被預(yù)測為靶基因的作為 MIX,成為下一次被預(yù)測的集合。循環(huán)在預(yù)測MIX時得到的不是靶基因的集合為空時循環(huán)結(jié)束。
圖 2-3 M-C 模型流程圖(Xiao X et al. 2013:426)Fig. 2-3 Workflow of the M-C modelLMA 模型和 M-C 模型的性能,我們用貝葉斯定理計算預(yù)測為一個生物學(xué)假設(shè):超過 90%的基因不是核心轉(zhuǎn)錄因子的靶們假設(shè)事件 A1:“基因 A 是靶基因”,概率為 0.1;事件 A2:為 0.9。事件 B:“在 LMA 模型中,基因 A 被預(yù)測為靶基,基因 A 被預(yù)測為靶基因”。利用貝葉斯模型計算對應(yīng)概P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2-P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2- ( 1) = 0.9 (2- ( 2) = 0.1 (2- ( | 1) = 10000500( 1)500(1 1)500(2- ( | 2) = 10000500( 1)500(1 1)500(2-
【參考文獻】
相關(guān)期刊論文 前2條
1 譚文學(xué);王細萍;席金菊;李淑紅;;計算機輔助診斷疾病的支持向量機方法研究[J];計算機工程與設(shè)計;2011年05期
2 左長清;汪宗桂;吳鐵;崔燎;;胚胎干細胞核心轉(zhuǎn)錄因子靶基因集蛋白互作網(wǎng)絡(luò)特征分析[J];中國組織工程研究與臨床康復(fù);2011年01期
本文編號:2848515
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2848515.html
最近更新
教材專著