【摘要】:肺癌在我國已成為發(fā)病率和死亡率最高的惡性腫瘤。其中,非小細胞肺癌(Non-small-cell lung carcinoma,NSCLC)占肺癌的85%以上。鱗狀細胞癌(Squam-ous cell carcinomas,SCC)和腺癌(Adenocarcinomas,AC)是NSCLC最主要的兩種病理類型。這兩種肺癌的發(fā)生機制、生長過程等均有很大的不同,在臨床治療上也應(yīng)該采用不同的治療手段。然而,由于目前對SCC和AC發(fā)生分子機制方面的研究還比較缺乏,一般對這兩種亞型采取相同的治療措施,結(jié)果導(dǎo)致治療效果不夠理想。因此,本研究旨在利用生物信息學(xué)分析方法篩選SCC和AC特征基因,并通過基因的功能分析及上游調(diào)控因子的預(yù)測分析兩種亞型潛在的不同致病機制。此外,目前已報道了一些特征選擇的方法,但是都存在不同的缺點,尤其是對于單基因特征分析的準(zhǔn)確性不高。因此,本研究還分析了特征選擇算法SAM-GSR區(qū)分SCC和AC亞型和劃分各亞型所屬疾病階段的可行性。首先從NCBI GEO數(shù)據(jù)庫中搜索到四個合格的數(shù)據(jù)集(GSE10245,GSE18842,GSE2109和GSE43580)并獲取相關(guān)表達譜數(shù)據(jù),通過Meta QC包對數(shù)據(jù)進行質(zhì)控檢驗和Meta DE包篩選顯著差異表達的特征基因(也稱為差異表達基因,DEGs)。利用rank函數(shù)和cor.test函數(shù)檢驗兩兩數(shù)據(jù)集間基因顯著差異的相關(guān)性和一致性。其次,利用DAVID在線分析工具對DEGs分別進行GO功能和KEGG通路的富集分析。第三,綜合STRING、Bio GRID和HPRD三個數(shù)據(jù)庫中的人類蛋白-蛋白相互作用關(guān)系,取3者并集獲得DEGs的蛋白相互作用關(guān)系,構(gòu)建DEGs的蛋白互作關(guān)系網(wǎng)絡(luò),并利用Cytoscape3.3對網(wǎng)絡(luò)可視化;用節(jié)點的度分布,節(jié)點接近程度,中介性核心性三個指標(biāo)分析網(wǎng)絡(luò)拓撲結(jié)構(gòu)。對網(wǎng)絡(luò)中每個節(jié)點的三個參數(shù)分別進行降冪排序,每個參數(shù)均取top100的節(jié)點,對三個參數(shù)top100的基因進行比較,選擇交疊部分進行通路以及轉(zhuǎn)錄調(diào)控因子(Transcription Factor,TF)富集分析。第四,利用mi R2Disease數(shù)據(jù)庫搜索與AC和SCC直接關(guān)聯(lián)的mi RNAs。通過mi Randa數(shù)據(jù)庫對疾病直接關(guān)聯(lián)的mi RNA靶向的靶標(biāo)基因進行檢索。將靶標(biāo)基因映射到之前篩選得到的重要基因中,再結(jié)合前一步得到的重要基因相關(guān)的TFs,構(gòu)建疾病mi RNA和TF調(diào)控網(wǎng)絡(luò)。接著,以GSE43580為訓(xùn)練數(shù)據(jù)集,其他三組表達譜數(shù)據(jù)為驗證數(shù)據(jù)集,利用隨機森林算法(RF)篩選最優(yōu)重要基因,利用支持向量機(SVM)構(gòu)建分類模型。最后,利用SAM-GSR算法分析了GSE50081數(shù)據(jù)集和癌癥基因組圖譜計劃數(shù)據(jù)庫(TCGA)的RNA-seq數(shù)據(jù),相互交替作為訓(xùn)練集和驗證集,分析SAM-GSR算法在NSCLC數(shù)據(jù)階段劃分中的性能以及與其它特征選擇算法進行了性能比較。研究得到以下幾個結(jié)果:(1)基于Meta DE包共篩選得到1201個一致性顯著DEGs,其中661個顯著下調(diào)表達的基因和540顯著上調(diào)表達的基因。(2)GO功能和KEGG通路的富集分析表明這些DEGs顯著富集的GO功能主要有細胞黏附、鈣離子結(jié)合、生物黏著和表皮細胞分化等,而大多數(shù)DEGs顯著富集的KEGG通路有細胞粘附分子、補體和凝血級聯(lián)反應(yīng)、糖酵解途徑和黑素合成等。(3)在整合的相互作用網(wǎng)絡(luò)中,共獲得869對互作關(guān)系,包含529個基因節(jié)點,其中包括135個顯著下調(diào)表達和394個顯著上調(diào)表達的基因。通過各節(jié)點Degree、BC和CC值top100節(jié)點的排序并取交集,得到了39個重要基因。其中,上調(diào)的ELAVL1和MYC的度分布、BC和CC值均分別排名第一和第二。這39個重要基因顯著富集到細胞周期通路,P53和TGF-β信號通路等,此共預(yù)測了8個顯著相關(guān)的TFs,例如NFY,EGR1和NKX2-2等。(4)總共預(yù)測得到了5個與肺癌相關(guān)的mi RNAs(hsa-mi R-200b、hsa-mi R-205、hsa-mi R-18a、hsa-mi R-486和hsa-let-7a),且在整合的mi RNA-target-TF網(wǎng)絡(luò)中,共包含32個節(jié)點,其中包括4個mi RNAs、8個TFs、3個顯著下調(diào)和17個顯著上調(diào)表達的基因;該網(wǎng)絡(luò)中mi R-200b下游靶基因數(shù)目最多,包括ERRFI1,PPARGC1A和MAPK6;其次let-7a可能調(diào)控下游靶基因有EZH2、MAPK6、MYC、SUV39H1和TK1等。(5)RF算法提取出由5個基因構(gòu)成的最優(yōu)基因組合:SNCA、IFI16、MAPK6、ERRFI1和SFN,以包含樣本數(shù)最多的GSE43580數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,基于前一步篩選得到的5個最優(yōu)基因組合構(gòu)建疾病亞型判別分類器,能夠準(zhǔn)確分類133個樣本(75個AC和58個SCC),準(zhǔn)確率為88.67%,用剩余的三個數(shù)據(jù)集驗證結(jié)果表明該分類模型具有可重復(fù)性和可移植性。(6)各種算法的性能統(tǒng)計表示SAM-GSR算法較Lasso,Penalized SVM,DEGs+SVM和Radviz+SVM算法具有一定的可比性,SAM-GSR的信念混淆度量(BCM)值達0.609,精確回歸曲線下面積(AUPR)值達0.63,分別排名第一和第二。結(jié)論:1.我們發(fā)現(xiàn)一系列角蛋白家族成員在鱗癌和腺癌樣本間存在差異表達如KRT1、KRT4、KRT5、KRT6B、KRT15、KRT16、KRTAP19-1、KRT23、KRT75、KRT33A,且這些基因在鱗癌中的表達均高于腺癌。2.CDK1,CCND1,SFN和CHEK2可能通過調(diào)控細胞周期和P53信號通路,介導(dǎo)AC和SCC細胞增殖速度的不同,此外DEGs SMAD7和MYC富集在TGF-β信號通路,表明兩種肺癌亞型可能在TGF-β信號通路調(diào)控上存在差異。3.上調(diào)的mi R200b可能通過下調(diào)ERRFI1和PPARGC1A在肺癌的發(fā)生中起重要作用,且該調(diào)控機制與鱗癌的相關(guān)性更大;下調(diào)表達的let-7a可能調(diào)控EZH2、SUV39H1、TK1和MYC在NSCLC的腫瘤形成中起促進作用,且其下游靶基因在肺鱗癌樣本的表達高于腺癌,同樣表明該調(diào)控機制與鱗癌的相關(guān)性更大。4.機器學(xué)習(xí)方法篩選出5個最優(yōu)化的重要基因:SNCA、IFI16、MAPK6、ERRFI1、SFN,利用這5個基因在AC和SCC亞型樣本中的表達特性構(gòu)建的樣本類型判別分類器,能夠準(zhǔn)確地識別不同亞型的肺癌樣本,這對確定肺癌亞型,指定針對正確亞型指定治療和防御方案具有重要作用。5.SAM-GSR算法可以應(yīng)用于AC和SCC特征選擇,對于疾病亞型的階段劃分較其它算法具有可比性?紤]到該算法存在通路信息不完整、未涉及路徑拓撲知識和模型簡約等缺點,因此也需要不斷稍加修改SAM-GSR算法和在未來的工作中繼續(xù)評估,以推進基于通路的特征選擇算法的發(fā)展。
【圖文】:
圖 2.24 個表達譜數(shù)據(jù)集合 MetaQC 質(zhì)量控制圖。示主成分分析中的第一和第二主成分。1-4分別表示4個對應(yīng)數(shù)據(jù)集合。等含義請參見方法中第二部分。ure2.2 MetaQC quality control charts of 4 expression data set.

protein 6 homolog(CDC6)、Forkhead box protein A1(FOXA1)等;诤Y選得到的1201個一致性顯著DEGs在各個數(shù)據(jù)集中的表達值,利用heatmap.sig.genes函數(shù),同時做4個數(shù)據(jù)集的雙向?qū)哟尉垲悷釄D,如圖2.3所示。由圖可以看出,篩選得到的1201個DEGs在4個數(shù)據(jù)集AC和SCC樣本中表達差異是明顯的(紅綠顏色分明),且差異情況一致性非常好(紅綠分布位置在每個數(shù)據(jù)集中非常一致),說明1201個顯著差異表達的基因在四個數(shù)據(jù)集中表達及差異模式(方向)的一致性。圖2.3 四個數(shù)據(jù)集基于1201個顯著DEGs雙向?qū)哟尉垲悷釄D。從左到右以此表示GSE10245、GSE18842、GSE2109、GSE43580數(shù)據(jù)集。上方樣本條中,,黑色和白色分別表示AC和SCC類型樣本。Figure 2.3 Bidirectional hierarchical clustering image based on 1201 significantly differentexpression genes in the four data sets.From left to right to represent the GSE10245, GSE18842, GSE2109, and GSE43580 data sets. Inthe upper sample bar, black and white represent AC and SCC type samples
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:R734.2
【參考文獻】
相關(guān)期刊論文 前10條
1 周航;武峰;;肺癌CT能譜成像:定量分析及與TTF-1和EGFR表達水平的相關(guān)性[J];放射學(xué)實踐;2017年08期
2 朱利群;王純;陳菊香;;血清miRNA-200b在非小細胞肺癌中的表達及其臨床意義[J];實用癌癥雜志;2017年07期
3 陳夢竹;王秀杰;夏立新;;肺腺癌和肺鱗癌中mRNA可變剪接特征的比較[J];深圳大學(xué)學(xué)報(理工版);2017年01期
4 黃仁飛;江倩;金蒙蒙;劉茵;杜婷;張妍蓓;;血清胸苷激酶1評估非小細胞肺癌化療療效的意義[J];實用醫(yī)學(xué)雜志;2016年17期
5 趙丹;尹春嶺;王重利;張晨;張麗麗;張海青;;細胞角蛋白7、甲狀腺轉(zhuǎn)錄因子1、新天冬氨酸蛋白酶A、細胞角蛋白5/6、p40、p63在肺腺癌及鱗狀細胞癌鑒別診斷中的價值[J];中國綜合臨床;2015年07期
6 羅旭;王聰;范寧;羅文超;徐飛;李巖;;S100A4在肺鱗癌與肺腺癌細胞中的表達差異和生物學(xué)作用[J];大連醫(yī)科大學(xué)學(xué)報;2015年02期
7 韓戍君;邵永平;劉健康;;抑癌基因MIG-6與腫瘤[J];中國生物化學(xué)與分子生物學(xué)報;2014年11期
8 楚荷瑩;常靜俠;王華啟;張國俊;;吉非替尼單藥二線治療非小細胞肺癌的臨床療效[J];中國現(xiàn)代藥物應(yīng)用;2014年16期
9 張雷;王琳琳;張旭東;劉世榮;孫鵬森;王同立;;隨機森林算法基本思想及其在生態(tài)學(xué)中的應(yīng)用——以云南松分布模擬為例[J];生態(tài)學(xué)報;2014年03期
10 魏輝;侯俊明;董明;杜寧;任宏;;Hsa-let-7誘導(dǎo)肺癌細胞凋亡與G_0/G_1期阻滯及其分子機制[J];現(xiàn)代腫瘤醫(yī)學(xué);2013年11期
相關(guān)博士學(xué)位論文 前1條
1 王莉;在肺癌發(fā)生中Smad7對TGF-β信號通路的調(diào)控[D];重慶醫(yī)科大學(xué);2005年
相關(guān)碩士學(xué)位論文 前4條
1 王天驕;識別早期非小細胞肺癌不同亞型間差異表達基因的Meta分析[D];吉林大學(xué);2016年
2 陳明達;肺腺癌CircRNA芯片篩選及其調(diào)控機制探討[D];華北理工大學(xué);2016年
3 周楠楠;S100A8和S100A9在肺腺癌及肺鱗癌中的表達及臨床意義[D];河南大學(xué);2015年
4 沈旦;MiR-205調(diào)控非小細胞肺癌細胞發(fā)生上皮—間充質(zhì)轉(zhuǎn)化過程的機制研究[D];蘇州大學(xué);2014年
本文編號:
2588077
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2588077.html