【摘要】:背景和目的在全球范圍內(nèi),肺癌發(fā)病率和死亡率均居于惡性腫瘤首位,其中約85%肺癌為非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)。目前尚缺乏有效的早期診斷方法,很多肺癌患者初診時(shí)已處于中晚期,錯(cuò)過了最佳治療時(shí)間。高通量測(cè)序技術(shù)和分析方法的不斷發(fā)展完善,為研究肺癌腫瘤標(biāo)志物提供了新的思路和方法。腫瘤的形成是一個(gè)多基因參與、多因素相互作用、多階段發(fā)展的復(fù)雜的生物學(xué)過程,這個(gè)過程涉及到原癌基因突變、轉(zhuǎn)錄本表達(dá)譜改變以及蛋白質(zhì)結(jié)構(gòu)、功能或表達(dá)量異常。通過高通量測(cè)序技術(shù)從轉(zhuǎn)錄組水平來深入研究肺癌的分子學(xué)機(jī)制,可為肺癌早期診斷及靶向治療提供理論依據(jù)。材料和方法本研究對(duì)兩大公共數(shù)據(jù)庫(GEO和ArrayExpress)進(jìn)行了系統(tǒng)檢索,共納入了3個(gè)與肺癌相關(guān)轉(zhuǎn)錄組高通量測(cè)序(RNA sequencing,RNA-seq)數(shù)據(jù)和兩個(gè)肺癌相關(guān)的TCGA RNA-seq數(shù)據(jù)(LUAD和LUSC),根據(jù)目前主流研究推薦重新搭建了RNA-seq數(shù)據(jù)分析流程,對(duì)3個(gè)GEO數(shù)據(jù)中的2個(gè)原始數(shù)據(jù)重新進(jìn)行標(biāo)準(zhǔn)化流程分析,得到了轉(zhuǎn)錄組基因計(jì)數(shù)文件;對(duì)于2個(gè)肺癌相關(guān)的TCGA數(shù)據(jù),由于沒有獲取原始測(cè)序文件的權(quán)限,因此直接利用GDC的API下載了TCGA提供的LUAD和LUSC轉(zhuǎn)錄組表達(dá)計(jì)數(shù)(counts)表達(dá)矩陣。隨后對(duì)五個(gè)數(shù)據(jù)集進(jìn)行了合并,利用DESeq2和edgeR進(jìn)行差異表達(dá)分析,進(jìn)而利用limma程序包去除批次效應(yīng)(batch effect)并利用DESeq2程序包中vst功能進(jìn)行正態(tài)化轉(zhuǎn)換,獲得可用于后續(xù)WGCNA和機(jī)器學(xué)習(xí)的基因表達(dá)矩陣。使用加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,對(duì)1327例NSCLC組織和231例癌旁正常對(duì)照的基因轉(zhuǎn)錄組表達(dá)譜構(gòu)建基因共表達(dá)網(wǎng)絡(luò)、劃分基因模塊并尋找與NSCLC密切相關(guān)的基因模塊,對(duì)與NSCLC密切相關(guān)的模塊進(jìn)行基因本體(Gene Ontology,GO)和KEGG通路分析。將基因差異表達(dá)分析得出的結(jié)果與WGCNA結(jié)果進(jìn)行聯(lián)合分析,可以得到一批與NSCLC密切相關(guān)的差異表達(dá)基因,隨后從去除批次效應(yīng)并進(jìn)行正態(tài)化轉(zhuǎn)換的轉(zhuǎn)錄組表達(dá)數(shù)據(jù)中獲取這些基因的表達(dá)數(shù)據(jù),利用十折交叉驗(yàn)證結(jié)合機(jī)器學(xué)習(xí)的方法,構(gòu)建NSCLC預(yù)測(cè)模型,在驗(yàn)證組對(duì)預(yù)測(cè)模型效果進(jìn)行評(píng)價(jià)。結(jié)果DESeq2和edgeR程序包差異表達(dá)基因分析結(jié)果顯示,當(dāng)差異表達(dá)基因定義為|log_2FC|1且校正P0.01時(shí),共有2956個(gè)基因在NSCLC中高表達(dá),其中2124個(gè)基因?yàn)榈鞍拙幋a基因(mRNA),254個(gè)基因?yàn)閘ncRNA,578個(gè)基因?yàn)槠渌愋突?共有1790個(gè)基因低表達(dá),其中1565個(gè)基因?yàn)閙RNA,96個(gè)為lncRNA,129個(gè)基因?yàn)槠渌愋突颉GCNA網(wǎng)絡(luò)中共劃分了39個(gè)基因模塊,其中2個(gè)模塊與非小細(xì)胞肺癌呈強(qiáng)相關(guān)(寶石綠模塊R~2=0.60,藍(lán)色模塊R~2=-0.79,均有P0.001),其中寶石綠模塊與NSCLC最為密切。對(duì)寶石綠模塊中基因的GO分析結(jié)果顯示,這些基因?yàn)楹巳旧w、染色體、中心體、微管組織中心、細(xì)胞骨架、微管、微管細(xì)胞骨架等組分,DNA結(jié)合、轉(zhuǎn)錄調(diào)控、結(jié)合ATP等生物學(xué)功能,參與增殖、細(xì)胞骨架和微觀組織、有絲分裂細(xì)胞周期、核分裂、姐妹染色體分離、DNA代謝過程、DNA復(fù)制、DNA修復(fù)以及細(xì)胞DNA損傷刺激反應(yīng)等生物學(xué)過程;KEGG通路分析顯示寶石綠模塊基因主要富集在細(xì)胞周期、卵母細(xì)胞減數(shù)分裂、細(xì)胞衰老等信號(hào)通路,模塊中差異表達(dá)基因主要參與細(xì)胞周期、卵母細(xì)胞減數(shù)分裂、孕酮介導(dǎo)的卵母細(xì)胞成熟、細(xì)胞衰老、P53信號(hào)通路、同源重組等信號(hào)通路。這進(jìn)一步揭示了NSCLC的分子學(xué)機(jī)制。WGCNA分析結(jié)果聯(lián)合差異表達(dá)基因分析結(jié)果顯示,與NSCLC最密切的寶石綠模塊中,共有988個(gè)差異表達(dá)基因。利用十折交叉驗(yàn)證結(jié)合機(jī)器學(xué)習(xí)方法對(duì)1558例研究對(duì)象的988個(gè)基因表達(dá)矩陣分析結(jié)果顯示,構(gòu)建的多個(gè)NSCLC預(yù)測(cè)模型具有很好的分辨能力,這些模型在驗(yàn)證組中也表現(xiàn)良好,其中SVM、XGBoost、C5.0、PLS、AdaBoost和gbm等算法構(gòu)建的模型在驗(yàn)證組數(shù)據(jù)中預(yù)測(cè)準(zhǔn)確率可高達(dá)0.98以上;盡管JRip、PART、和rpart算法構(gòu)建的半透明模型在驗(yàn)證組中準(zhǔn)確率也較高,但是特異度較低,綜合比較,選取SVM和XGBoost這類黑盒子算法模型作為最終NSCLC預(yù)測(cè)模型。本研究成功構(gòu)建了多個(gè)準(zhǔn)確度在0.98以上的NSCLC預(yù)測(cè)模型。結(jié)論本研究通過對(duì)常用公共數(shù)據(jù)庫中與NSCLC相關(guān)的RNA-seq數(shù)據(jù)進(jìn)行差異表達(dá)分析、WGCNA分析,篩選到一批與NSCLC密切相關(guān)差異表達(dá)基因,GO和KEGG富集分析結(jié)果進(jìn)一步揭示了NSCLC的分子學(xué)機(jī)制;利用這些基因正態(tài)化后的表達(dá)數(shù)據(jù),采用十折交叉驗(yàn)證結(jié)合機(jī)器學(xué)習(xí)的方法,成功構(gòu)建了多個(gè)NSCLC預(yù)測(cè)模型,其中基于XGBoost、SVM、C5.0和PLS算法的預(yù)測(cè)模型在驗(yàn)證組中準(zhǔn)確度均高于0.98,為RNA-seq數(shù)據(jù)用于NSCLC早期基因?qū)W診斷提供了理論依據(jù)。
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:R734.2
【圖文】:
挑選至少在 155 例(約占總數(shù) 10%)樣本中 logCPM>1 的基因(最后保留19805 個(gè)基因),進(jìn)行后續(xù)的差異表達(dá)基因分析。本研究利用 limma 程序包去除批次效應(yīng),然后用DESeq2集成的vst功能對(duì)數(shù)據(jù)進(jìn)行正態(tài)化轉(zhuǎn)換。結(jié)果見圖3.1。3.3 差異表達(dá)基因篩選本研究使用 R 軟件中的 DESeq2 程序包和 edgeR 程序包提供的算法,利用基因的表達(dá)計(jì)數(shù)文件進(jìn)行分析,進(jìn)行差異表達(dá)分析,利用 org.Hs.eg.db 程序包和GENECODE 提供的注釋文件對(duì)篩選出來的差異表達(dá)基因進(jìn)行注釋[64, 65]。當(dāng)篩選條件設(shè)定為|log2FoldChange|>1、FDR<0.01 時(shí),DESeq2 篩選出 5085 個(gè)差異表達(dá)基因,其中上調(diào)基因?yàn)?3092 個(gè),下調(diào)基因?yàn)?1993 個(gè);edgeR 篩選出來 6175 個(gè)差異表達(dá)基因,其中上調(diào)基因?yàn)?4093 個(gè),下調(diào)基因?yàn)?2082 個(gè)。對(duì)兩個(gè)軟件包篩選出來的差異表達(dá)基因求交集

21圖 3.3 去除離群樣本后樣本層次聚類數(shù)與對(duì)應(yīng)臨床信息關(guān)系圖 1:圖中顏色深淺代表數(shù)字大小。 2:分類樣本取值說明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分別對(duì)應(yīng) 1~4,照為 0。Smoking_status: 0: 不吸煙;1:已戒煙;2:現(xiàn)吸煙。

21圖 3.3 去除離群樣本后樣本層次聚類數(shù)與對(duì)應(yīng)臨床信息關(guān)系圖 1:圖中顏色深淺代表數(shù)字大小。 2:分類樣本取值說明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分別對(duì)應(yīng) 1~4,照為 0。Smoking_status: 0: 不吸煙;1:已戒煙;2:現(xiàn)吸煙。
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳曉源;張晉雯;師秀艷;;HOXD13基因突變及所致疾病[J];沈陽醫(yī)學(xué)院學(xué)報(bào);2017年04期
2 司家瑞;;淺談機(jī)器學(xué)習(xí)在醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用[J];科技展望;2016年23期
3 姚蘭;陳書成;;過表達(dá)ITLN-1能抑制人子宮內(nèi)膜癌Ishikawa細(xì)胞的增殖并誘導(dǎo)其凋亡[J];腫瘤;2016年05期
4 李策;聶彩輝;張力君;徐寒梅;;腫瘤標(biāo)志物的應(yīng)用及其篩選技術(shù)研究進(jìn)展[J];藥學(xué)進(jìn)展;2014年01期
5 方耀敏;陳玉丙;;MAGE-3基因疫苗的構(gòu)建及其免疫活性的實(shí)驗(yàn)研究[J];中國免疫學(xué)雜志;2013年12期
6 李廣旭;宋平平;張百江;;黑色素瘤相關(guān)抗原(MAGE)基因在肺癌中的表達(dá)及意義[J];中國肺癌雜志;2013年06期
7 黎濤;白崇峰;馬春山;于晉建;王云;;MAGE基因在非小細(xì)胞肺癌中的表達(dá)及其臨床意義[J];實(shí)用醫(yī)藥雜志;2013年02期
8 徐晗;張斌;陳虎;;針對(duì)MAGE-3抗原的DC腫瘤疫苗的研究進(jìn)展[J];中國腫瘤生物治療雜志;2012年03期
9 劉濤;郭建極;;MAGE-1 mRNA在非小細(xì)胞肺癌外周血中基因的表達(dá)[J];臨床肺科雜志;2012年06期
10 劉幫助;劉超;;MAGE基因在肺癌疫苗研究進(jìn)展[J];國際呼吸雜志;2012年04期
相關(guān)博士學(xué)位論文 前3條
1 趙志洪;加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)探索肺腺癌中的功能基因模塊[D];北京協(xié)和醫(yī)學(xué)院;2017年
2 王攀;加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)在食管鱗癌中的應(yīng)用[D];北京協(xié)和醫(yī)學(xué)院;2014年
3 楊廣民;聯(lián)合應(yīng)用MAGE-1與IL-18基因疫苗抗肝癌免疫治療作用的實(shí)驗(yàn)研究[D];吉林大學(xué);2010年
相關(guān)碩士學(xué)位論文 前4條
1 馬星;MAGE-A3/C2在非小細(xì)胞肺癌中的表達(dá)及其臨床意義的研究[D];鄭州大學(xué);2017年
2 尹丹靜;黑色素瘤抗原-As在肺癌患者腫瘤組織及外周血中的表達(dá)及其臨床意義[D];河北醫(yī)科大學(xué);2017年
3 劉濤;RT-PCR檢測(cè)非小細(xì)胞肺癌外周血LUNX和MAGE-1基因的表達(dá)及意義[D];廣西醫(yī)科大學(xué);2013年
4 李玉楓;黑色素瘤相關(guān)抗原-A3在肺癌中的表達(dá)及臨床意義的研究[D];南方醫(yī)科大學(xué);2012年
本文編號(hào):
2763169
本文鏈接:http://sikaile.net/yixuelunwen/zlx/2763169.html