轉錄組數(shù)據(jù)的共表達分析和擴展應用
本文關鍵詞:轉錄組數(shù)據(jù)的共表達分析和擴展應用 出處:《吉林大學》2016年博士論文 論文類型:學位論文
更多相關文章: 雙聚類算法 轉錄組學數(shù)據(jù) 生物能源 植物 原核生物 生物信息學
【摘要】:基因組學和轉錄組學技術的快速發(fā)展,使生物信息學的研究進入了大數(shù)據(jù)時代。這些組學數(shù)據(jù)的大量產(chǎn)生,在幫助我們解決生物學問題的同時,也產(chǎn)生了許多需要解決的問題。其中一項最主要的問題是:如何高效的利用這些數(shù)據(jù)并從中分析提取出我們所需要的信息。通過有效地轉錄組數(shù)據(jù)分析,讓研究人員可以對基因的功能和生物通路的組成有更進一步的了解。作者基于以上的問題,在博士期間以轉錄組數(shù)據(jù)為主要研究方向,在生物信息領域進行了相關的研究,擴展了雙聚類算法在植物和微生物轉錄組學數(shù)據(jù)上的應用范圍。研究的主要目的在于提高生物能源產(chǎn)出效率,同時為轉錄組數(shù)據(jù)在生物信息學領域開發(fā)出各種有效簡潔的計算工具和網(wǎng)絡平臺,提高研究者的工作效率。本文的一項主要研究工作是在能源植物柳葉稷的基因組中有效地尋找植物細胞壁生物過程的相關基因。擬南芥、水稻和玉米等多種模式植物中大量的植物細胞壁相關的基因,已經(jīng)在相關研究中被實驗發(fā)現(xiàn)并驗證。然而,迄今為止在新測序的能源植物柳葉稷上還沒有植物細胞壁相關的實驗結果。我們通過使用計算生物學的手段,提出了一種兩階段的方法在柳葉稷基因組中盡可能準確地識別植物細胞壁相關基因。1)首先,我們通過同源比對的方法,將已完成注釋的模式生物細胞壁相關的基因映射到柳葉稷的基因組上。通過這種方式,我們在柳葉稷的基因組上得到共計991個同源基因。2)使用雙聚類算法分析多種情況下的轉錄組數(shù)據(jù),得到與這些同源基因具有共表達性質(zhì)的基因集合。該方法共得到104個基因集合,這些基因集合包含了991個同源基因中的830個,同時還包含了823個未曾報道過可能是植物細胞壁相關的基因。之后,我們利用擬南芥的轉錄組數(shù)據(jù)對這1653個預測的基因進行了平行驗證,從而得到了112個還未報道的非?赡艿牧~稷細胞壁相關的基因。在我們認識到雙聚類算法在植物轉錄組學數(shù)據(jù)分析上的優(yōu)勢之后,我們在另外一項工作中提出了基于雙聚類方法的局部共表達相關性函數(shù)BF score,來代替標準Pearson或Spearman相關性系數(shù)。由于植物轉錄組學數(shù)據(jù)具有重復實驗數(shù)目少、實驗條件多的特點,并基于共表達基因在特定條件下才會產(chǎn)生共表達性質(zhì)的理論,我們提出的局部共表達相關性函數(shù)。該函數(shù)在植物轉錄組數(shù)據(jù)分析上具有更高的敏感性。通過使用新定義的局部共表達相關性函數(shù),我們研究了擬南芥、玉米和柳葉稷中木質(zhì)素合成的生物通路的異同點,并分別預測了219、177和532個與木質(zhì)素合成具有共表達關聯(lián)性的基因。同時使用提出的局部共表達相關函數(shù)定義了生物通路間的共表達性質(zhì),找出了與木質(zhì)素合成具有共表達性質(zhì)的生物通路。我們繼續(xù)擴展該局部共表達相關性函數(shù)的在轉錄組學上的應用范圍。我們開發(fā)了植物RNA-seq短序列映射質(zhì)量控制軟件Gene QC,該軟件能夠在進行轉錄組數(shù)據(jù)分析之前向生物學家提供具體的統(tǒng)計參考信息。通過對RNA-seq短序列映射位點和基因與基因間的序列相似性的分析,可以將經(jīng)過RNA-seq處理流程所得到的基因表達數(shù)據(jù)的可信程度分成不同的等級。這就使得植物學家在進行實驗驗證之前,可以選擇更加可靠地候選基因進行敲除和突變處理,從而節(jié)約實驗費用和時間。我們將局部共表達相關性函數(shù)應用于已知的表達數(shù)據(jù)來生成訓練集,這樣就可以解決部分RNA-seq短序列,由于與參考基因組多個位置具有很高的序列相似性而導致的無法準確定位的問題。使用以上的解決方法,Gene QC能夠提高植物中RNA-seq數(shù)據(jù)分析的精度和價值。同時我們擴展了轉錄組學RNA-seq數(shù)據(jù)的應用范圍,通過使用支持向量機構建原核生物轉錄單元信息的訓練集,來預測特定條件下的操縱子結構。我們構建的Seq TU網(wǎng)絡平臺能自動化的完成RNA-seq數(shù)據(jù)的測序質(zhì)量檢查、短序列映射和轉錄單元預測的流程,是一個用戶友好,操作簡便且預測精度高的良好平臺。在文章的最后一章還介紹了博士期間的其它科研工作包括:從能量最優(yōu)化角度分析近源細菌的基因組組成的共性和差異性以及交互式的細菌生物通路重構平臺。
[Abstract]:The rapid development of science and technology studies genome and transcriptome studies, the bioinformatics entered the era of big data. These data were generated in large quantities in biology to help us solve problems at the same time, also has many problems need to be solved. One of the most important question is: how to effectively use these the data and extract the information we need from the analysis. Through effective transcriptome data analysis, which allows researchers to function and biological pathways of genes have further understanding of the author. Based on the above problem, in the doctoral period to the transcriptome data as the main research direction and related research in the field of bioinformatics, extended double clustering algorithm application range of data on plant and microbial transcriptome. The main objective of the study is to improve the output efficiency of bio energy, at the same time for the group. The data in the field of bioinformatics and computational tools to develop effective network platform concise, improve researchers' work efficiency. One of the main research work of this paper is to effectively search for genes related to biological processes in the plant cell wall in the energy plant genome. The millet Arabidopsis plant cell wall a number of related genes in rice and a variety of modes of maize plants, have been found and verified. However, so far in the new sequencing energy plant is no experimental results willow millet plant cell wall related. We use computational biology methods, presents a method of two stage in Millet genome as may the accurate identification of plant cell wall related gene.1) first of all, we through the method of homologous alignment, completed gene annotation mode of biological cell wall related mapping Shoot the willow millet genome. By this way, we get in the millet genome on a total of 991 homologous gene.2) analysis of transcriptome data under various conditions, using the double clustering algorithm, and the homologous gene co expression with the nature of the gene set. The method has 104 sets of genes, these genes set contains 830 991 homologous genes, but also includes the 823 had not been reported may be related to cell wall gene plant. After that, we use gene transcriptome data on Arabidopsis this 1653 prediction is carried out in parallel verification, resulting in 112 genes has not been reported very likely millet leaf cell wall related. After we realize the double clustering algorithm to learn the advantages of data analysis in the plant transcriptome, we also work in a proposed dual clustering method based on The correlation function BF score co expression, to replace the standard Pearson or Spearman correlation coefficient. The plant transcriptome data with repeated experiments less the number of experimental conditions and characteristics, based on the co expressed genes will produce under specific conditions of co expression of nature of the theory, we put forward the local co expression correlation function. This function has higher sensitivity in the analysis of plant transcriptome data. By using the new definition of local co expression of correlation function, we studied Arabidopsis, maize and millet in the lignin biosynthesis pathway in difference, and respectively predicted 219177 and 532 and the lignin synthesis related genes with co expression. At the same time using the proposed local co expression correlation function defines the co expression of biological pathways between nature, and find out the lignin synthesis with co expression of biological pathways in nature. I We continue to expand the local co expression of correlation function in the scope of application of the transcriptome. We developed the plant RNA-seq short sequence mapping quality control software Gene QC, the software can provide statistical reference information to specific biologists before analyzing transcriptome data. Through the analysis of the sequence similarity of RNA-seq short sequence mapping sites and between genes and genes, can be obtained through the process of RNA-seq gene expression data credibility is divided into different levels. This makes the botanist before the experiment, can choose a more reliable candidate gene knockout and mutation, thus saving the experimental cost and time. We apply the local co expression the expression of correlation function is applied to the known data to generate the training set, so that it can solve the RNA-seq short sequence, and as a reference gene Unable to accurately locate multiple locations with high sequence similarity to solve the problem. Use the above methods, Gene QC can improve the RNA-seq data analysis of plants in the precision and value. At the same time we expanded the scope of application of the transcriptome of RNA-seq data, by using support vector machine to build prokaryotic transcription unit information the training set to predict the operon structure under specific conditions. We construct Seq TU network platform can complete the automatic quality inspection of RNA-seq sequencing data, short sequence mapping and transcription unit prediction process, is a good platform for user friendly, simple operation and high accuracy. In the last chapter the other research work during the doctoral period include: similarities and differences between the composition of near source of bacterial genomes and interactive bacteria from Perspective of energy optimization Physical path reconstruction platform.
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:Q811.4;TP311.13
【相似文獻】
相關期刊論文 前10條
1 張玉芳;趙麗娟;曾幼玲;;基因表達研究中內(nèi)參基因的選擇與應用[J];植物生理學報;2014年08期
2 李旭平;樂衛(wèi)東;;單細胞基因表達分析技術在神經(jīng)科學研究中的應用[J];生理科學進展;2006年01期
3 胡瑞波;范成明;傅永福;;植物實時熒光定量PCR內(nèi)參基因的選擇[J];中國農(nóng)業(yè)科技導報;2009年06期
4 常青山,余增亮;基因表達分析方法及其研究進展[J];生物技術通報;2002年06期
5 占祖兵;張越;趙若蘋;王文;;炓腹果蠅中嵌合新基因的進化命運和表達模式[J];動物學研究;2011年06期
6 何琳;何娟;沈耕宇;楊波;黃水清;;一種通過文本挖掘發(fā)現(xiàn)實時定量聚合酶鏈式反應實驗內(nèi)參基因的方法研究[J];現(xiàn)代圖書情報技術;2012年Z1期
7 王怡,王海平,王全立;基因表達系列分析技術研究進展[J];醫(yī)學分子生物學雜志;2004年03期
8 吳志革;鄒方東;;強大的廣譜基因表達分析技術——基因表達系列分析法[J];四川動物;2006年03期
9 胡賡熙;檢查基因表達分析的生物技術——cDNA陣列開發(fā)成功[J];中國科學院院刊;2000年03期
10 鄭芳,周新,嚴明,葉水清,劉芳;微量材料系列性基因表達分析技術的研究[J];生物化學與生物物理進展;2002年03期
相關會議論文 前1條
1 陳維;;文昌魚SOX9基因的克隆與分析[A];遺傳學與社會可持續(xù)發(fā)展——2010中國青年遺傳學家論壇論文摘要匯編[C];2010年
相關博士學位論文 前10條
1 劉勝浩;南極絲瓜蘚耐逆相關功能基因的發(fā)掘和功能研究[D];山東大學;2015年
2 孟璐;癌細胞中OCT4B的功能及所調(diào)控的p53新變體研究[D];中國農(nóng)業(yè)大學;2015年
3 齊笑笑;梨果實萼片宿存與脫落過程基因表達譜分析及PsIDA、PsJOINTLESS基因功能的初步研究[D];南京農(nóng)業(yè)大學;2014年
4 陳鑫;轉錄組數(shù)據(jù)的共表達分析和擴展應用[D];吉林大學;2016年
5 李斌;擬南芥轉錄因子TCPs和表觀遺傳因子CLF及LHP1抑制KNOX基因的分子機制研究[D];復旦大學;2012年
6 張曉東;人和大鼠精子發(fā)生相關基因的克隆及其基因結構和功能分析[D];中國協(xié)和醫(yī)科大學;2000年
7 童曉玲;家蠶翅模式?jīng)Q定基因的克隆、表達及功能研究[D];西南大學;2008年
8 周純葆;基因島預測與隔離遷移模型并行化[D];吉林大學;2012年
9 張樺;新牧1號雜花苜?鼓嫦嚓P基因的克隆和功能分析[D];新疆農(nóng)業(yè)大學;2011年
10 鄧小敏;小麥CBL基因CIPK基因的克隆及在非生物脅迫中的功能研究[D];華中科技大學;2013年
相關碩士學位論文 前10條
1 其木格;玉米黏蟲轉錄組學研究及RNAi機制相關基因的克隆[D];內(nèi)蒙古大學;2015年
2 劉祖碧;決明種子轉錄組學分析及胰蛋白酶抑制劑基因的克隆與功能研究[D];西南交通大學;2014年
3 張毛毛;水稻OsmtATPS1基因的克隆及功能初步分析[D];西北農(nóng)林科技大學;2015年
4 靳晶豪;辣椒疫病抗性相關基因CaPT11和CaHIR4的克隆及初步功能分析[D];西北農(nóng)林科技大學;2015年
5 肖瑤;茶樹AsA代謝相關酶基因的克隆及表達分析[D];西北農(nóng)林科技大學;2015年
6 楊立清;甜瓜CMe-ERF1和CMe-ERF2基因的功能研究[D];內(nèi)蒙古大學;2015年
7 李亞莉;蘋果磷脂酸合成途徑相關基因的生物信息學分析及DGK基因表達分析[D];西北農(nóng)林科技大學;2015年
8 徐偉;小麥bZIP基因TaGBF參與植物開花調(diào)控機制研究[D];山東大學;2015年
9 位正玉;ABA脅迫相關的小麥MAC基因的克隆及功能研究[D];山東大學;2015年
10 岳思思;擬南芥AT2G17350基因功能的初步研究[D];陜西師范大學;2015年
,本文編號:1387264
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1387264.html