小鼠腦發(fā)育相關(guān)IncRNAs的高通量篩選及注釋平臺構(gòu)建
發(fā)布時間:2017-09-10 19:41
本文關(guān)鍵詞:小鼠腦發(fā)育相關(guān)IncRNAs的高通量篩選及注釋平臺構(gòu)建
更多相關(guān)文章: 長非編碼RNAs 腦發(fā)育 RNA-Seq 注釋平臺 共表達
【摘要】:長非編碼RNAs(lnc RNAs)是長度在200 nt以上的非編碼RNAs,在胚胎發(fā)育、癌癥、病痛和炎癥等過程中發(fā)揮重要的作用。然而,目前公共數(shù)據(jù)庫中小鼠lnc RNAs數(shù)據(jù)較少,而其中被功能注釋的則更少。腦組織是lnc RNAs表達的主要器官,預(yù)測腦表達lnc RNAs對于全面識別小鼠腦發(fā)育相關(guān)的lnc RNAs及認識其在腦發(fā)育中的作用具有重要意義。此外,將預(yù)測的lnc RNAs與已知lnc RNAs進行整合、注釋并存儲進專門的數(shù)據(jù)庫中對于lnc RNAs的規(guī)范化和再利用具有重要意義。小鼠DNA元件百科全書計劃測定了大量組織和細胞系的RNA測序(RNA-Seq)和染色質(zhì)免疫共沉淀測序等高通量數(shù)據(jù),對于預(yù)測新的lnc RNAs提供了一個新的思路。因此,本研究收集大量組織和細胞系的RNA-Seq數(shù)據(jù),基于RNA-Seq篩選鑒別新lnc RNAs,通過基因組、轉(zhuǎn)錄組、表觀基因組和功能基因組學(xué)表征證明其有效性,利用模型進行特征選擇從而篩選腦發(fā)育相關(guān)的lnc RNAs。整合已知和基于大規(guī)模RNA-Seq數(shù)據(jù)預(yù)測的lnc RNAs,構(gòu)建lnc RNAs注釋平臺和開發(fā)分析工具,便利研究人員的使用。本論文首先對已有的RNA-Seq流程進行優(yōu)化,進而篩選胚胎腦發(fā)育相關(guān)的基因間、內(nèi)含子和順式反義3種類型lnc RNAs。分別從基因組、轉(zhuǎn)錄組、表觀基因組和功能基因組學(xué)方法表征胚胎腦發(fā)育相關(guān)的新lnc RNAs,并與已知lnc RNAs和編碼轉(zhuǎn)錄本進行比較。結(jié)果表明新lnc RNAs具有相對完整的基因結(jié)構(gòu)及較低的編碼潛能,具有與已知lnc RNAs相似的組織特異性,并與典型的染色質(zhì)修飾相關(guān)。功能富集分析和基于RNA干擾的分析結(jié)果表明胚胎腦發(fā)育相關(guān)的lnc RNAs具有潛在的腦發(fā)育調(diào)控功能和結(jié)合轉(zhuǎn)錄因子發(fā)揮功能的傾向。隨機挑選的lnc RNAs的實驗驗證結(jié)果進一步表明lnc RNAs具有較強的發(fā)育階段特異性并且可能受到印記機制調(diào)控。其次,LASSO調(diào)整的羅杰斯特回歸模型在本論文中被用于篩選lnc RNAs與編碼轉(zhuǎn)錄本之間的基因組和表觀基因組學(xué)差異。由于使用了3個發(fā)育階段的染色質(zhì)修飾數(shù)據(jù),因此差異的特征可并用于篩選腦發(fā)育過程相關(guān)的lnc RNAs。對模型進行十倍交叉證實和獨立檢驗集測試后發(fā)現(xiàn)特征選擇模型的性能和只使用基因組特征和染色質(zhì)修飾特征相近,表明少數(shù)特征對lnc RNAs的預(yù)測發(fā)揮了主要作用。基于特征選擇模型對3個發(fā)育階段的RNA-Seq數(shù)據(jù)預(yù)測的候選lnc RNAs進行進一步篩選。通過對新lnc RNAs進行的基因組、轉(zhuǎn)錄組和功能基因組學(xué)方法表征表明模型篩選腦發(fā)育相關(guān)lnc RNAs的有效性。研究lnc RNAs與臨近編碼基因的關(guān)系后發(fā)現(xiàn)lnc RNAs傾向于與臨近編碼基因共表達,表明lnc RNAs可能調(diào)控臨近基因。當(dāng)使用模型分析lnc RNAs特異性后,發(fā)現(xiàn)lnc RNAs在腦發(fā)育過程中的表達特異性受到發(fā)育階段特異的染色質(zhì)修飾調(diào)控,例如H3K4me1和H3K36me3,但并未發(fā)現(xiàn)受到基因組特征調(diào)控,表明LASSO模型具有腦發(fā)育過程特異lnc RNAs的識別能力。原位雜交結(jié)果驗證了隨機挑選的lnc RNAs的腦發(fā)育特異性,而半定量RT-PCR結(jié)果發(fā)現(xiàn)胚胎發(fā)育階段特異表達的lnc RNAs傾向于具有腦組織特異性。再次,目前公共數(shù)據(jù)庫中l(wèi)nc RNAs的數(shù)目較少,于是整合基于大規(guī)模的RNA-Seq數(shù)據(jù)預(yù)測的lnc RNAs和已知lnc RNAs注釋,從而識別出了約26萬個lnc RNA轉(zhuǎn)錄本,稱之為lnc RNA合集。其中新lnc RNAs占75%,暗示大部分小鼠lnc RNAs尚未被報道。分析發(fā)現(xiàn)該合集中新lnc RNAs具有腦器官特異性,但沒有發(fā)育階段特異性。對新lnc RNAs和已知轉(zhuǎn)錄本進行加權(quán)共表達網(wǎng)絡(luò)分析發(fā)現(xiàn)了57個模塊,其中對腦組織表達的轉(zhuǎn)錄本模塊進行的表達譜熱圖和GO生物學(xué)過程富集分析表明腦模塊中腦特異基因的富集,為功能注釋奠定基礎(chǔ);陔S機化實驗確定的共表達閾值,篩選了12 548個預(yù)測的具有功能的lnc RNAs,其中包括3 128個預(yù)測的腦功能相關(guān)的lnc RNAs。進一步利用牽連獲罪(guilt by association)方法預(yù)測新lnc RNAs的功能,結(jié)果發(fā)現(xiàn)預(yù)測出功能的新lnc RNAs數(shù)量比基于加權(quán)共表達網(wǎng)絡(luò)的方法的數(shù)量多1倍,并且注釋的功能條目數(shù)目要多2倍以上,突出了這種方法在預(yù)測lnc RNAs功能方面的作用;诮徊孀C實和獨立測試數(shù)據(jù)的檢驗初步證明牽連獲罪方法的有效性。最后,對lnc RNA合集中腦表達的lnc RNAs進行篩選,得到約246 464個lnc RNAs。對這些lnc RNAs進行基因組和功能基因組注釋,發(fā)現(xiàn)已知基因注釋僅能覆蓋不足1/3的lnc RNAs;而幾乎所有的lnc RNAs都可以通過Entrez Gene ID得以在基因組定位,因此lncbrain注釋平臺中可以通過該ID進行l(wèi)nc RNAs查詢。對lnc RNAs的注釋存儲在建立的lncbrain注釋平臺中,該平臺具有較優(yōu)的平臺設(shè)計架構(gòu)及可視化界面,可對查詢進行流暢的響應(yīng)。平臺中除了有預(yù)先計算好的基因組注釋,還有支持使用者實時的表觀基因組和功能基因組分析模塊。此外,本文還對lncbrain平臺的使用進行了詳細的介紹。綜上所述,本文篩選了大量的腦表達的lnc RNAs,并構(gòu)建lnc RNA合集。對lnc RNAs進行了基因組、轉(zhuǎn)錄組、表觀基因組和功能基因組學(xué)注釋。構(gòu)建的平臺有助于實驗人員進行腦功能lnc RNAs的篩選及生物信息學(xué)研究人員進行l(wèi)nc RNAs的大規(guī)模研究。
【關(guān)鍵詞】:長非編碼RNAs 腦發(fā)育 RNA-Seq 注釋平臺 共表達
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:Q78
【目錄】:
- 摘要4-6
- Abstract6-15
- 第1章 緒論15-37
- 1.1 課題背景及研究的目的和意義15-17
- 1.1.1 課題背景15-16
- 1.1.2 研究的目的和意義16-17
- 1.2 lnc RNAs介紹17-23
- 1.2.1 lnc RNAs的序列特性17-18
- 1.2.2 lnc RNAs的基因組特性18-20
- 1.2.3 lnc RNAs的轉(zhuǎn)錄調(diào)控20
- 1.2.4 lnc RNAs的功能20-23
- 1.3 lnc RNAs在腦發(fā)育中的作用23-25
- 1.3.1 lnc RNAs在腦發(fā)育中的調(diào)控作用23-24
- 1.3.2 lnc RNAs失調(diào)在神經(jīng)系統(tǒng)疾病中的作用24-25
- 1.4 lnc RNAs的預(yù)測和注釋的研究進展25-32
- 1.4.1 lnc RNAs大規(guī)模預(yù)測的研究進展25-28
- 1.4.2 基于RNA-Seq的lnc RNAs篩選的研究進展28-30
- 1.4.3 lnc RNAs功能注釋的研究進展30
- 1.4.4 lnc RNAs注釋平臺建設(shè)的研究進展30-32
- 1.5 本文的主要研究內(nèi)容32-37
- 1.5.1 RNA-Seq篩選胚胎腦發(fā)育相關(guān)的lnc RNAs32-33
- 1.5.2 基于模型的腦發(fā)育相關(guān)lnc RNAs的識別33-34
- 1.5.3 基于共表達信息的lnc RNAs功能注釋34-35
- 1.5.4 腦表達lnc RNAs合集及其注釋平臺構(gòu)建35-36
- 1.5.5 技術(shù)路線36-37
- 第2章 材料與方法37-51
- 2.1 實驗材料37-40
- 2.1.1 高通量測序數(shù)據(jù)37
- 2.1.2 基因組注釋數(shù)據(jù)37
- 2.1.3 功能基因組數(shù)據(jù)37-38
- 2.1.4 實驗動物及實驗材料38
- 2.1.5 實驗儀器、網(wǎng)站和軟件38-40
- 2.2 生物信息學(xué)方法40-46
- 2.2.1 轉(zhuǎn)錄組測序數(shù)據(jù)分析40-41
- 2.2.2 染色質(zhì)修飾測序數(shù)據(jù)分析41-42
- 2.2.3 預(yù)測lnc RNAs的整合模型42-43
- 2.2.4 基因功能富集分析43-46
- 2.2.5 統(tǒng)計學(xué)分析46
- 2.3 分子生物學(xué)方法46-50
- 2.3.1 胚胎及組織的獲取46
- 2.3.2 核酸的提取等常規(guī)分子生物學(xué)技術(shù)46-48
- 2.3.3 RNA探針的制備48-49
- 2.3.4 原位雜交實驗49-50
- 2.4 本章小結(jié)50-51
- 第3章 RNA-Seq篩選胚胎腦發(fā)育相關(guān)的lnc RNAs51-69
- 3.1 引言51
- 3.2 基于RNA-Seq篩選lnc RNAs51-53
- 3.3 胚胎腦發(fā)育lnc RNAs的基因組表征53-58
- 3.4 胚胎腦發(fā)育lnc RNAs的轉(zhuǎn)錄組表征58-60
- 3.5 胚胎腦發(fā)育lnc RNAs的表觀基因組表征60-62
- 3.6 胚胎腦發(fā)育lnc RNAs的功能基因組表征62-66
- 3.7 胚胎腦發(fā)育lnc RNAs的驗證66-68
- 3.8 本章小結(jié)68-69
- 第4章 基于模型的腦發(fā)育相關(guān)lnc RNAs的識別69-89
- 4.1 引言69
- 4.2 LASSO模型的構(gòu)建和特征選擇69-73
- 4.3 基于LASSO模型的性能分析73-77
- 4.3.1 LASSO模型的交叉證實和獨立檢驗73-75
- 4.3.2 LASSO模型的參數(shù)對模型性能的影響75-76
- 4.3.3 LASSO模型特征選擇的穩(wěn)定性分析76-77
- 4.4 腦發(fā)育特異lnc RNAs的篩選和表征77-81
- 4.5 腦發(fā)育特異lnc RNAs對臨近基因的調(diào)控81-84
- 4.6 染色質(zhì)修飾調(diào)控腦發(fā)育特異lnc RNAs84-86
- 4.7 腦組織特異的lnc RNAs的驗證86-88
- 4.8 本章小結(jié)88-89
- 第5章 基于共表達信息的lnc RNAs功能注釋89-105
- 5.1 引言89
- 5.2 基于RNA-Seq的候選lnc RNAs的篩選及表征89-93
- 5.3 基于RNA-Seq的加權(quán)共表達模塊分析93-96
- 5.4 基于共表達網(wǎng)絡(luò)的lnc RNAs功能預(yù)測96-98
- 5.5 牽連獲罪方法預(yù)測lnc RNAs的功能98-104
- 5.6 本章小結(jié)104-105
- 第6章 腦表達lnc RNAs合集及其注釋平臺構(gòu)建105-124
- 6.1 引言105
- 6.2 小鼠腦發(fā)育過程表達的lnc RNA合集105-108
- 6.3 注釋平臺lncbrain中l(wèi)nc RNAs的注釋108-110
- 6.4 注釋平臺lncbrain的架構(gòu)110-111
- 6.5 注釋平臺lncbrain的功能介紹111-122
- 6.6 本章小結(jié)122-124
- 結(jié)論124-126
- 參考文獻126-139
- 附錄Ⅰ139-144
- 附錄Ⅱ144-145
- 攻讀博士學(xué)位期間發(fā)表的論文及其它成果145-147
- 致謝147-148
- 個人簡歷148
本文編號:826258
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/826258.html
最近更新
教材專著