天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 醫(yī)學(xué)論文 > 腫瘤論文 >

基于生物信息學(xué)的非小細胞肺癌腫瘤標(biāo)志物篩選和預(yù)測模型構(gòu)建

發(fā)布時間:2020-07-20 07:59
【摘要】:背景和目的在全球范圍內(nèi),肺癌發(fā)病率和死亡率均居于惡性腫瘤首位,其中約85%肺癌為非小細胞肺癌(non-small cell lung cancer,NSCLC)。目前尚缺乏有效的早期診斷方法,很多肺癌患者初診時已處于中晚期,錯過了最佳治療時間。高通量測序技術(shù)和分析方法的不斷發(fā)展完善,為研究肺癌腫瘤標(biāo)志物提供了新的思路和方法。腫瘤的形成是一個多基因參與、多因素相互作用、多階段發(fā)展的復(fù)雜的生物學(xué)過程,這個過程涉及到原癌基因突變、轉(zhuǎn)錄本表達譜改變以及蛋白質(zhì)結(jié)構(gòu)、功能或表達量異常。通過高通量測序技術(shù)從轉(zhuǎn)錄組水平來深入研究肺癌的分子學(xué)機制,可為肺癌早期診斷及靶向治療提供理論依據(jù)。材料和方法本研究對兩大公共數(shù)據(jù)庫(GEO和ArrayExpress)進行了系統(tǒng)檢索,共納入了3個與肺癌相關(guān)轉(zhuǎn)錄組高通量測序(RNA sequencing,RNA-seq)數(shù)據(jù)和兩個肺癌相關(guān)的TCGA RNA-seq數(shù)據(jù)(LUAD和LUSC),根據(jù)目前主流研究推薦重新搭建了RNA-seq數(shù)據(jù)分析流程,對3個GEO數(shù)據(jù)中的2個原始數(shù)據(jù)重新進行標(biāo)準(zhǔn)化流程分析,得到了轉(zhuǎn)錄組基因計數(shù)文件;對于2個肺癌相關(guān)的TCGA數(shù)據(jù),由于沒有獲取原始測序文件的權(quán)限,因此直接利用GDC的API下載了TCGA提供的LUAD和LUSC轉(zhuǎn)錄組表達計數(shù)(counts)表達矩陣。隨后對五個數(shù)據(jù)集進行了合并,利用DESeq2和edgeR進行差異表達分析,進而利用limma程序包去除批次效應(yīng)(batch effect)并利用DESeq2程序包中vst功能進行正態(tài)化轉(zhuǎn)換,獲得可用于后續(xù)WGCNA和機器學(xué)習(xí)的基因表達矩陣。使用加權(quán)基因共表達網(wǎng)絡(luò)分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,對1327例NSCLC組織和231例癌旁正常對照的基因轉(zhuǎn)錄組表達譜構(gòu)建基因共表達網(wǎng)絡(luò)、劃分基因模塊并尋找與NSCLC密切相關(guān)的基因模塊,對與NSCLC密切相關(guān)的模塊進行基因本體(Gene Ontology,GO)和KEGG通路分析。將基因差異表達分析得出的結(jié)果與WGCNA結(jié)果進行聯(lián)合分析,可以得到一批與NSCLC密切相關(guān)的差異表達基因,隨后從去除批次效應(yīng)并進行正態(tài)化轉(zhuǎn)換的轉(zhuǎn)錄組表達數(shù)據(jù)中獲取這些基因的表達數(shù)據(jù),利用十折交叉驗證結(jié)合機器學(xué)習(xí)的方法,構(gòu)建NSCLC預(yù)測模型,在驗證組對預(yù)測模型效果進行評價。結(jié)果DESeq2和edgeR程序包差異表達基因分析結(jié)果顯示,當(dāng)差異表達基因定義為|log_2FC|1且校正P0.01時,共有2956個基因在NSCLC中高表達,其中2124個基因為蛋白編碼基因(mRNA),254個基因為lncRNA,578個基因為其他類型基因;共有1790個基因低表達,其中1565個基因為mRNA,96個為lncRNA,129個基因為其他類型基因。WGCNA網(wǎng)絡(luò)中共劃分了39個基因模塊,其中2個模塊與非小細胞肺癌呈強相關(guān)(寶石綠模塊R~2=0.60,藍色模塊R~2=-0.79,均有P0.001),其中寶石綠模塊與NSCLC最為密切。對寶石綠模塊中基因的GO分析結(jié)果顯示,這些基因為核染色體、染色體、中心體、微管組織中心、細胞骨架、微管、微管細胞骨架等組分,DNA結(jié)合、轉(zhuǎn)錄調(diào)控、結(jié)合ATP等生物學(xué)功能,參與增殖、細胞骨架和微觀組織、有絲分裂細胞周期、核分裂、姐妹染色體分離、DNA代謝過程、DNA復(fù)制、DNA修復(fù)以及細胞DNA損傷刺激反應(yīng)等生物學(xué)過程;KEGG通路分析顯示寶石綠模塊基因主要富集在細胞周期、卵母細胞減數(shù)分裂、細胞衰老等信號通路,模塊中差異表達基因主要參與細胞周期、卵母細胞減數(shù)分裂、孕酮介導(dǎo)的卵母細胞成熟、細胞衰老、P53信號通路、同源重組等信號通路。這進一步揭示了NSCLC的分子學(xué)機制。WGCNA分析結(jié)果聯(lián)合差異表達基因分析結(jié)果顯示,與NSCLC最密切的寶石綠模塊中,共有988個差異表達基因。利用十折交叉驗證結(jié)合機器學(xué)習(xí)方法對1558例研究對象的988個基因表達矩陣分析結(jié)果顯示,構(gòu)建的多個NSCLC預(yù)測模型具有很好的分辨能力,這些模型在驗證組中也表現(xiàn)良好,其中SVM、XGBoost、C5.0、PLS、AdaBoost和gbm等算法構(gòu)建的模型在驗證組數(shù)據(jù)中預(yù)測準(zhǔn)確率可高達0.98以上;盡管JRip、PART、和rpart算法構(gòu)建的半透明模型在驗證組中準(zhǔn)確率也較高,但是特異度較低,綜合比較,選取SVM和XGBoost這類黑盒子算法模型作為最終NSCLC預(yù)測模型。本研究成功構(gòu)建了多個準(zhǔn)確度在0.98以上的NSCLC預(yù)測模型。結(jié)論本研究通過對常用公共數(shù)據(jù)庫中與NSCLC相關(guān)的RNA-seq數(shù)據(jù)進行差異表達分析、WGCNA分析,篩選到一批與NSCLC密切相關(guān)差異表達基因,GO和KEGG富集分析結(jié)果進一步揭示了NSCLC的分子學(xué)機制;利用這些基因正態(tài)化后的表達數(shù)據(jù),采用十折交叉驗證結(jié)合機器學(xué)習(xí)的方法,成功構(gòu)建了多個NSCLC預(yù)測模型,其中基于XGBoost、SVM、C5.0和PLS算法的預(yù)測模型在驗證組中準(zhǔn)確度均高于0.98,為RNA-seq數(shù)據(jù)用于NSCLC早期基因?qū)W診斷提供了理論依據(jù)。
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:R734.2
【圖文】:

分布圖,組數(shù)據(jù),效應(yīng),分布圖


挑選至少在 155 例(約占總數(shù) 10%)樣本中 logCPM>1 的基因(最后保留19805 個基因),進行后續(xù)的差異表達基因分析。本研究利用 limma 程序包去除批次效應(yīng),然后用DESeq2集成的vst功能對數(shù)據(jù)進行正態(tài)化轉(zhuǎn)換。結(jié)果見圖3.1。3.3 差異表達基因篩選本研究使用 R 軟件中的 DESeq2 程序包和 edgeR 程序包提供的算法,利用基因的表達計數(shù)文件進行分析,進行差異表達分析,利用 org.Hs.eg.db 程序包和GENECODE 提供的注釋文件對篩選出來的差異表達基因進行注釋[64, 65]。當(dāng)篩選條件設(shè)定為|log2FoldChange|>1、FDR<0.01 時,DESeq2 篩選出 5085 個差異表達基因,其中上調(diào)基因為 3092 個,下調(diào)基因為 1993 個;edgeR 篩選出來 6175 個差異表達基因,其中上調(diào)基因為 4093 個,下調(diào)基因為 2082 個。對兩個軟件包篩選出來的差異表達基因求交集

關(guān)系圖,樣本,聚類圖,離群


21圖 3.3 去除離群樣本后樣本層次聚類數(shù)與對應(yīng)臨床信息關(guān)系圖 1:圖中顏色深淺代表數(shù)字大小。 2:分類樣本取值說明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分別對應(yīng) 1~4,照為 0。Smoking_status: 0: 不吸煙;1:已戒煙;2:現(xiàn)吸煙。

關(guān)系圖,樣本,離群,層次聚類


21圖 3.3 去除離群樣本后樣本層次聚類數(shù)與對應(yīng)臨床信息關(guān)系圖 1:圖中顏色深淺代表數(shù)字大小。 2:分類樣本取值說明:Group:NSCLC:1,Control:0。Stage:I~IV 分期分別對應(yīng) 1~4,照為 0。Smoking_status: 0: 不吸煙;1:已戒煙;2:現(xiàn)吸煙。

【參考文獻】

相關(guān)期刊論文 前10條

1 陳曉源;張晉雯;師秀艷;;HOXD13基因突變及所致疾病[J];沈陽醫(yī)學(xué)院學(xué)報;2017年04期

2 司家瑞;;淺談機器學(xué)習(xí)在醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用[J];科技展望;2016年23期

3 姚蘭;陳書成;;過表達ITLN-1能抑制人子宮內(nèi)膜癌Ishikawa細胞的增殖并誘導(dǎo)其凋亡[J];腫瘤;2016年05期

4 李策;聶彩輝;張力君;徐寒梅;;腫瘤標(biāo)志物的應(yīng)用及其篩選技術(shù)研究進展[J];藥學(xué)進展;2014年01期

5 方耀敏;陳玉丙;;MAGE-3基因疫苗的構(gòu)建及其免疫活性的實驗研究[J];中國免疫學(xué)雜志;2013年12期

6 李廣旭;宋平平;張百江;;黑色素瘤相關(guān)抗原(MAGE)基因在肺癌中的表達及意義[J];中國肺癌雜志;2013年06期

7 黎濤;白崇峰;馬春山;于晉建;王云;;MAGE基因在非小細胞肺癌中的表達及其臨床意義[J];實用醫(yī)藥雜志;2013年02期

8 徐晗;張斌;陳虎;;針對MAGE-3抗原的DC腫瘤疫苗的研究進展[J];中國腫瘤生物治療雜志;2012年03期

9 劉濤;郭建極;;MAGE-1 mRNA在非小細胞肺癌外周血中基因的表達[J];臨床肺科雜志;2012年06期

10 劉幫助;劉超;;MAGE基因在肺癌疫苗研究進展[J];國際呼吸雜志;2012年04期

相關(guān)博士學(xué)位論文 前3條

1 趙志洪;加權(quán)基因共表達網(wǎng)絡(luò)分析(WGCNA)探索肺腺癌中的功能基因模塊[D];北京協(xié)和醫(yī)學(xué)院;2017年

2 王攀;加權(quán)基因共表達網(wǎng)絡(luò)分析(WGCNA)在食管鱗癌中的應(yīng)用[D];北京協(xié)和醫(yī)學(xué)院;2014年

3 楊廣民;聯(lián)合應(yīng)用MAGE-1與IL-18基因疫苗抗肝癌免疫治療作用的實驗研究[D];吉林大學(xué);2010年

相關(guān)碩士學(xué)位論文 前4條

1 馬星;MAGE-A3/C2在非小細胞肺癌中的表達及其臨床意義的研究[D];鄭州大學(xué);2017年

2 尹丹靜;黑色素瘤抗原-As在肺癌患者腫瘤組織及外周血中的表達及其臨床意義[D];河北醫(yī)科大學(xué);2017年

3 劉濤;RT-PCR檢測非小細胞肺癌外周血LUNX和MAGE-1基因的表達及意義[D];廣西醫(yī)科大學(xué);2013年

4 李玉楓;黑色素瘤相關(guān)抗原-A3在肺癌中的表達及臨床意義的研究[D];南方醫(yī)科大學(xué);2012年



本文編號:2763169

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/zlx/2763169.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d8e52***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com