基于芯片數(shù)據(jù)和文本挖掘的膠質(zhì)瘤生物信息學分析
發(fā)布時間:2019-08-08 19:21
【摘要】:目的: 膠質(zhì)瘤是目前人們生活中一種常見的多發(fā)的腫瘤疾病。作為一種惡性腫瘤,嚴重影響人們的生活質(zhì)量和日常的工作。雖然基于單個基因的研究已經(jīng)有所報道,但是對于基因間的互作及基因功能的富集分析的研究目前還很少。因此本文提出基于基因芯片對膠質(zhì)瘤的研究。本實驗采用芯片分析技術和文本挖掘技術對膠質(zhì)瘤進行生物信息學分析,篩選差異表達基因、差異共表達基因及及差異共表達關系對,構建分子差異調(diào)控網(wǎng)絡、蛋白質(zhì)互作網(wǎng)絡、生物學通路間的交互網(wǎng)絡,并進行功能富集,以闡明膠質(zhì)瘤的發(fā)生發(fā)展作用機制,為膠質(zhì)瘤的診斷治療奠定理論基礎。 方法: 從GEO數(shù)據(jù)庫下載芯片數(shù)據(jù)GSE4290,選取其中77例膠質(zhì)瘤樣本和23例正常對照樣本進行后續(xù)生物信息學分析分析。使用R軟件limma包中的T_test法計算差異表達基因(DEGs),選取P-value0.05及|logFC|2為顯著性閾值,篩選差異表達基因。使用DAVID在線工具對差異表達基因進行GO功能注釋;使用cytoscape軟件構建蛋白質(zhì)與蛋白質(zhì)相互作用(PPI)網(wǎng)絡;Cytoscape的插件ClusterONE進行模塊劃分,并隨后進行顯著的模塊進行功能富集分析。 使用R軟件中的Affy包和limma包篩選差異表達基因,選擇閥值|logFC|0.6且Pvalue0.05,再使用R軟件DCGL包中的DCe、DCp和DCsum函數(shù),選擇閥值q0.25作為差異共表達基因(Differential Coexpression Gene,DCG)和差異共表達關系(Differentially Co-expressed Link,DCL)的篩選條件。DAVID在線工具對差異共表達基因(DCGs)進行KEGG pathway顯著性富集分析。用Cytoscape構建差異共表達基因的轉錄調(diào)控網(wǎng)路,隨后使用Cytoscape插件ClusterONE對其進行模塊分析,選取最顯著的前5個模塊進行功能富集分析。 基于自然語言處理法進行文本挖掘分析,然后在人與小鼠的基因同源性數(shù)據(jù)MGD的基礎上,挖掘與膠質(zhì)瘤相關的突變基因。利用cytoscape軟件進行分子相關關系網(wǎng)絡的構建。采用DAVID在線工具進行KEGGpathway和GO功能富集分析。 結果: 1.共篩選到548個差異表達基因,包括441個下調(diào)基因和107個上調(diào)基因。PPI網(wǎng)絡中共包含1305個節(jié)點和1604條邊。選取最顯著的前5個子模塊進行子網(wǎng)絡模塊分析,這5個子模塊的中心節(jié)點基因依次為:FN1、GNAO1、STX1A、CDK1、CHGB。子模塊的GO富集結果主要為:extracellular region part,vesicle-mediated transport, cell cycle process, nucleoplasm等。KEGG pathway富集結果主要是:ECM-receptor interaction, long-term depression, SNARE interactions invesicular, cell cycle等。 2.共篩選到999個差異共表達基因(DCGs)和1833200對差異共表達關系。差異共表達調(diào)控網(wǎng)絡共包含1441節(jié)點和2127條邊。前5個子模塊的節(jié)點基因分別為:模塊1:STAT1、STAT3、STAT4、PLAU;模塊2:EPAS1;模塊3:BPTF;模塊4:CBFB、NFYB;模塊5:EGR3。差異共表達模塊的GO估計主要結果為:enzyme binding, protein modification by small protein conjugation or removal,muscle cell differentiation, mitotic cell cycle, pore complex等。 3.共篩選到52518個人類分子互作關系對,其中人與老鼠同源的分子關系對為27526個。此外,篩選到9個與膠質(zhì)瘤相關的突變基因。膠質(zhì)瘤相關基因的互作網(wǎng)絡中共包含875個節(jié)點和1068條邊,其中連接度最高的基因為:TP53、CDKN2A、PTEN、NF1、TG等。顯著富集的KEGG pathway為:p53signalingpathway, pathways in cancer, cell cycle等。顯著富集的GO功能為:nucleoplasmand regulation of cell death等。 結論: 通過篩選差異表達基因和共表達基因,構建PPI網(wǎng)絡和轉錄調(diào)控網(wǎng)絡,隨后進行功能富集分析;此外,結合文本挖掘技術篩選膠質(zhì)瘤相關的突變基因,,構建膠質(zhì)瘤相關分子的互作網(wǎng)絡,并進行功能富集分析;篩選到與膠質(zhì)瘤顯著相關的差異表達基因、差異共表達基因、突變基因及通路,為進一步深入研究膠質(zhì)瘤的發(fā)病機制提供有力的依據(jù),為今后膠質(zhì)瘤的基因治療探明藥物作用靶點。
【圖文】:
圖 1.1 基因芯片測序原理1.3.3 基因芯片數(shù)據(jù)的分析基因芯片可一次性地檢測上萬個基因的表達,面對如此海量的數(shù)據(jù),單基因的分析方法已不適用。而基因芯片數(shù)據(jù)分析可通過數(shù)據(jù)篩選、基因聚類等方法,將海量的芯片數(shù)據(jù)進行整合,以期發(fā)現(xiàn)基因表達與分子生物學功能之間的聯(lián)系。此外,基因芯片的數(shù)據(jù)分析可將無機的信息數(shù)據(jù)和有機的生命活動結合起來,用以解釋基因在相關疾病的發(fā)病機制中所發(fā)揮的作用。基因芯片的數(shù)據(jù)分析包括前期實驗設計、數(shù)據(jù)預處理和后期的數(shù)據(jù)分析等。實驗設計是整個芯片數(shù)據(jù)分析的基礎,也是最重要的一部分。芯片掃描得到的原始數(shù)據(jù)由于背景較雜、存在一些測序誤差等原因,可信度較低,需經(jīng)過數(shù)據(jù)預處理及歸一化,才能進行更高水平的分析。后續(xù)數(shù)據(jù)分析的第一步是篩選差異表達基因。差異表達基因分析是為了篩選在不同實驗條件、不同實驗樣品中表達水平
1.2 GEO平臺、樣本、數(shù)據(jù)集和表達譜之間關系示意圖:對平臺上的每個(比如基因A),有多個樣本(樣本1-樣本3)測量值。相關樣本構成一個據(jù)集,從表達譜中可產(chǎn)生多個或單個基因表達個體。.5 文本挖掘文本挖掘是應用計算機算法及程序?qū)ξ谋具M行分析,從而理解其所包含的和意義[27]。在生物醫(yī)藥領域中,應用文本挖掘技術可幫助醫(yī)務工作人員從海獻中挖掘疾病相關基因或疾病相關治療的最新研究進展,并從中發(fā)現(xiàn)隱藏的。應用信息抽取技術抽取相關的生物學信息,用以數(shù)據(jù)處理和生物信息學分絡的構建。文本挖掘技術可極大地減少檢索文獻的時間,提高效率。雖然文掘技術在數(shù)據(jù)提取的準確率(accuracy)、查準率(precision)和查全率(recall)方瑕疵,且有賴于計算機技術以及程序的進一步加強,但仍可幫助我們在短時
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:R739.41
本文編號:2524550
【圖文】:
圖 1.1 基因芯片測序原理1.3.3 基因芯片數(shù)據(jù)的分析基因芯片可一次性地檢測上萬個基因的表達,面對如此海量的數(shù)據(jù),單基因的分析方法已不適用。而基因芯片數(shù)據(jù)分析可通過數(shù)據(jù)篩選、基因聚類等方法,將海量的芯片數(shù)據(jù)進行整合,以期發(fā)現(xiàn)基因表達與分子生物學功能之間的聯(lián)系。此外,基因芯片的數(shù)據(jù)分析可將無機的信息數(shù)據(jù)和有機的生命活動結合起來,用以解釋基因在相關疾病的發(fā)病機制中所發(fā)揮的作用。基因芯片的數(shù)據(jù)分析包括前期實驗設計、數(shù)據(jù)預處理和后期的數(shù)據(jù)分析等。實驗設計是整個芯片數(shù)據(jù)分析的基礎,也是最重要的一部分。芯片掃描得到的原始數(shù)據(jù)由于背景較雜、存在一些測序誤差等原因,可信度較低,需經(jīng)過數(shù)據(jù)預處理及歸一化,才能進行更高水平的分析。后續(xù)數(shù)據(jù)分析的第一步是篩選差異表達基因。差異表達基因分析是為了篩選在不同實驗條件、不同實驗樣品中表達水平
1.2 GEO平臺、樣本、數(shù)據(jù)集和表達譜之間關系示意圖:對平臺上的每個(比如基因A),有多個樣本(樣本1-樣本3)測量值。相關樣本構成一個據(jù)集,從表達譜中可產(chǎn)生多個或單個基因表達個體。.5 文本挖掘文本挖掘是應用計算機算法及程序?qū)ξ谋具M行分析,從而理解其所包含的和意義[27]。在生物醫(yī)藥領域中,應用文本挖掘技術可幫助醫(yī)務工作人員從海獻中挖掘疾病相關基因或疾病相關治療的最新研究進展,并從中發(fā)現(xiàn)隱藏的。應用信息抽取技術抽取相關的生物學信息,用以數(shù)據(jù)處理和生物信息學分絡的構建。文本挖掘技術可極大地減少檢索文獻的時間,提高效率。雖然文掘技術在數(shù)據(jù)提取的準確率(accuracy)、查準率(precision)和查全率(recall)方瑕疵,且有賴于計算機技術以及程序的進一步加強,但仍可幫助我們在短時
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:R739.41
【參考文獻】
相關期刊論文 前2條
1 袁軍鵬;朱東華;李毅;李連宏;黃進;;文本挖掘技術研究進展[J];計算機應用研究;2006年02期
2 陳驊;黃強;翟德忠;董軍;王愛東;蘭青;;周期蛋白依賴性激酶1在膠質(zhì)瘤組織中的表達及其沉默對膠質(zhì)瘤細胞惡性表型的影響[J];中華腫瘤雜志;2007年07期
本文編號:2524550
本文鏈接:http://sikaile.net/yixuelunwen/shenjingyixue/2524550.html
最近更新
教材專著