【摘要】:肺癌在我國(guó)已成為發(fā)病率和死亡率最高的惡性腫瘤。其中,非小細(xì)胞肺癌(Non-small-cell lung carcinoma,NSCLC)占肺癌的85%以上。鱗狀細(xì)胞癌(Squam-ous cell carcinomas,SCC)和腺癌(Adenocarcinomas,AC)是NSCLC最主要的兩種病理類型。這兩種肺癌的發(fā)生機(jī)制、生長(zhǎng)過(guò)程等均有很大的不同,在臨床治療上也應(yīng)該采用不同的治療手段。然而,由于目前對(duì)SCC和AC發(fā)生分子機(jī)制方面的研究還比較缺乏,一般對(duì)這兩種亞型采取相同的治療措施,結(jié)果導(dǎo)致治療效果不夠理想。因此,本研究旨在利用生物信息學(xué)分析方法篩選SCC和AC特征基因,并通過(guò)基因的功能分析及上游調(diào)控因子的預(yù)測(cè)分析兩種亞型潛在的不同致病機(jī)制。此外,目前已報(bào)道了一些特征選擇的方法,但是都存在不同的缺點(diǎn),尤其是對(duì)于單基因特征分析的準(zhǔn)確性不高。因此,本研究還分析了特征選擇算法SAM-GSR區(qū)分SCC和AC亞型和劃分各亞型所屬疾病階段的可行性。首先從NCBI GEO數(shù)據(jù)庫(kù)中搜索到四個(gè)合格的數(shù)據(jù)集(GSE10245,GSE18842,GSE2109和GSE43580)并獲取相關(guān)表達(dá)譜數(shù)據(jù),通過(guò)Meta QC包對(duì)數(shù)據(jù)進(jìn)行質(zhì)控檢驗(yàn)和Meta DE包篩選顯著差異表達(dá)的特征基因(也稱為差異表達(dá)基因,DEGs)。利用rank函數(shù)和cor.test函數(shù)檢驗(yàn)兩兩數(shù)據(jù)集間基因顯著差異的相關(guān)性和一致性。其次,利用DAVID在線分析工具對(duì)DEGs分別進(jìn)行GO功能和KEGG通路的富集分析。第三,綜合STRING、Bio GRID和HPRD三個(gè)數(shù)據(jù)庫(kù)中的人類蛋白-蛋白相互作用關(guān)系,取3者并集獲得DEGs的蛋白相互作用關(guān)系,構(gòu)建DEGs的蛋白互作關(guān)系網(wǎng)絡(luò),并利用Cytoscape3.3對(duì)網(wǎng)絡(luò)可視化;用節(jié)點(diǎn)的度分布,節(jié)點(diǎn)接近程度,中介性核心性三個(gè)指標(biāo)分析網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。對(duì)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的三個(gè)參數(shù)分別進(jìn)行降冪排序,每個(gè)參數(shù)均取top100的節(jié)點(diǎn),對(duì)三個(gè)參數(shù)top100的基因進(jìn)行比較,選擇交疊部分進(jìn)行通路以及轉(zhuǎn)錄調(diào)控因子(Transcription Factor,TF)富集分析。第四,利用mi R2Disease數(shù)據(jù)庫(kù)搜索與AC和SCC直接關(guān)聯(lián)的mi RNAs。通過(guò)mi Randa數(shù)據(jù)庫(kù)對(duì)疾病直接關(guān)聯(lián)的mi RNA靶向的靶標(biāo)基因進(jìn)行檢索。將靶標(biāo)基因映射到之前篩選得到的重要基因中,再結(jié)合前一步得到的重要基因相關(guān)的TFs,構(gòu)建疾病mi RNA和TF調(diào)控網(wǎng)絡(luò)。接著,以GSE43580為訓(xùn)練數(shù)據(jù)集,其他三組表達(dá)譜數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集,利用隨機(jī)森林算法(RF)篩選最優(yōu)重要基因,利用支持向量機(jī)(SVM)構(gòu)建分類模型。最后,利用SAM-GSR算法分析了GSE50081數(shù)據(jù)集和癌癥基因組圖譜計(jì)劃數(shù)據(jù)庫(kù)(TCGA)的RNA-seq數(shù)據(jù),相互交替作為訓(xùn)練集和驗(yàn)證集,分析SAM-GSR算法在NSCLC數(shù)據(jù)階段劃分中的性能以及與其它特征選擇算法進(jìn)行了性能比較。研究得到以下幾個(gè)結(jié)果:(1)基于Meta DE包共篩選得到1201個(gè)一致性顯著DEGs,其中661個(gè)顯著下調(diào)表達(dá)的基因和540顯著上調(diào)表達(dá)的基因。(2)GO功能和KEGG通路的富集分析表明這些DEGs顯著富集的GO功能主要有細(xì)胞黏附、鈣離子結(jié)合、生物黏著和表皮細(xì)胞分化等,而大多數(shù)DEGs顯著富集的KEGG通路有細(xì)胞粘附分子、補(bǔ)體和凝血級(jí)聯(lián)反應(yīng)、糖酵解途徑和黑素合成等。(3)在整合的相互作用網(wǎng)絡(luò)中,共獲得869對(duì)互作關(guān)系,包含529個(gè)基因節(jié)點(diǎn),其中包括135個(gè)顯著下調(diào)表達(dá)和394個(gè)顯著上調(diào)表達(dá)的基因。通過(guò)各節(jié)點(diǎn)Degree、BC和CC值top100節(jié)點(diǎn)的排序并取交集,得到了39個(gè)重要基因。其中,上調(diào)的ELAVL1和MYC的度分布、BC和CC值均分別排名第一和第二。這39個(gè)重要基因顯著富集到細(xì)胞周期通路,P53和TGF-β信號(hào)通路等,此共預(yù)測(cè)了8個(gè)顯著相關(guān)的TFs,例如NFY,EGR1和NKX2-2等。(4)總共預(yù)測(cè)得到了5個(gè)與肺癌相關(guān)的mi RNAs(hsa-mi R-200b、hsa-mi R-205、hsa-mi R-18a、hsa-mi R-486和hsa-let-7a),且在整合的mi RNA-target-TF網(wǎng)絡(luò)中,共包含32個(gè)節(jié)點(diǎn),其中包括4個(gè)mi RNAs、8個(gè)TFs、3個(gè)顯著下調(diào)和17個(gè)顯著上調(diào)表達(dá)的基因;該網(wǎng)絡(luò)中mi R-200b下游靶基因數(shù)目最多,包括ERRFI1,PPARGC1A和MAPK6;其次let-7a可能調(diào)控下游靶基因有EZH2、MAPK6、MYC、SUV39H1和TK1等。(5)RF算法提取出由5個(gè)基因構(gòu)成的最優(yōu)基因組合:SNCA、IFI16、MAPK6、ERRFI1和SFN,以包含樣本數(shù)最多的GSE43580數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,基于前一步篩選得到的5個(gè)最優(yōu)基因組合構(gòu)建疾病亞型判別分類器,能夠準(zhǔn)確分類133個(gè)樣本(75個(gè)AC和58個(gè)SCC),準(zhǔn)確率為88.67%,用剩余的三個(gè)數(shù)據(jù)集驗(yàn)證結(jié)果表明該分類模型具有可重復(fù)性和可移植性。(6)各種算法的性能統(tǒng)計(jì)表示SAM-GSR算法較Lasso,Penalized SVM,DEGs+SVM和Radviz+SVM算法具有一定的可比性,SAM-GSR的信念混淆度量(BCM)值達(dá)0.609,精確回歸曲線下面積(AUPR)值達(dá)0.63,分別排名第一和第二。結(jié)論:1.我們發(fā)現(xiàn)一系列角蛋白家族成員在鱗癌和腺癌樣本間存在差異表達(dá)如KRT1、KRT4、KRT5、KRT6B、KRT15、KRT16、KRTAP19-1、KRT23、KRT75、KRT33A,且這些基因在鱗癌中的表達(dá)均高于腺癌。2.CDK1,CCND1,SFN和CHEK2可能通過(guò)調(diào)控細(xì)胞周期和P53信號(hào)通路,介導(dǎo)AC和SCC細(xì)胞增殖速度的不同,此外DEGs SMAD7和MYC富集在TGF-β信號(hào)通路,表明兩種肺癌亞型可能在TGF-β信號(hào)通路調(diào)控上存在差異。3.上調(diào)的mi R200b可能通過(guò)下調(diào)ERRFI1和PPARGC1A在肺癌的發(fā)生中起重要作用,且該調(diào)控機(jī)制與鱗癌的相關(guān)性更大;下調(diào)表達(dá)的let-7a可能調(diào)控EZH2、SUV39H1、TK1和MYC在NSCLC的腫瘤形成中起促進(jìn)作用,且其下游靶基因在肺鱗癌樣本的表達(dá)高于腺癌,同樣表明該調(diào)控機(jī)制與鱗癌的相關(guān)性更大。4.機(jī)器學(xué)習(xí)方法篩選出5個(gè)最優(yōu)化的重要基因:SNCA、IFI16、MAPK6、ERRFI1、SFN,利用這5個(gè)基因在AC和SCC亞型樣本中的表達(dá)特性構(gòu)建的樣本類型判別分類器,能夠準(zhǔn)確地識(shí)別不同亞型的肺癌樣本,這對(duì)確定肺癌亞型,指定針對(duì)正確亞型指定治療和防御方案具有重要作用。5.SAM-GSR算法可以應(yīng)用于AC和SCC特征選擇,對(duì)于疾病亞型的階段劃分較其它算法具有可比性。考慮到該算法存在通路信息不完整、未涉及路徑拓?fù)渲R(shí)和模型簡(jiǎn)約等缺點(diǎn),因此也需要不斷稍加修改SAM-GSR算法和在未來(lái)的工作中繼續(xù)評(píng)估,以推進(jìn)基于通路的特征選擇算法的發(fā)展。
【圖文】:
圖 2.24 個(gè)表達(dá)譜數(shù)據(jù)集合 MetaQC 質(zhì)量控制圖。示主成分分析中的第一和第二主成分。1-4分別表示4個(gè)對(duì)應(yīng)數(shù)據(jù)集合。等含義請(qǐng)參見(jiàn)方法中第二部分。ure2.2 MetaQC quality control charts of 4 expression data set.

protein 6 homolog(CDC6)、Forkhead box protein A1(FOXA1)等;诤Y選得到的1201個(gè)一致性顯著DEGs在各個(gè)數(shù)據(jù)集中的表達(dá)值,利用heatmap.sig.genes函數(shù),同時(shí)做4個(gè)數(shù)據(jù)集的雙向?qū)哟尉垲悷釄D,如圖2.3所示。由圖可以看出,篩選得到的1201個(gè)DEGs在4個(gè)數(shù)據(jù)集AC和SCC樣本中表達(dá)差異是明顯的(紅綠顏色分明),且差異情況一致性非常好(紅綠分布位置在每個(gè)數(shù)據(jù)集中非常一致),說(shuō)明1201個(gè)顯著差異表達(dá)的基因在四個(gè)數(shù)據(jù)集中表達(dá)及差異模式(方向)的一致性。圖2.3 四個(gè)數(shù)據(jù)集基于1201個(gè)顯著DEGs雙向?qū)哟尉垲悷釄D。從左到右以此表示GSE10245、GSE18842、GSE2109、GSE43580數(shù)據(jù)集。上方樣本條中,,黑色和白色分別表示AC和SCC類型樣本。Figure 2.3 Bidirectional hierarchical clustering image based on 1201 significantly differentexpression genes in the four data sets.From left to right to represent the GSE10245, GSE18842, GSE2109, and GSE43580 data sets. Inthe upper sample bar, black and white represent AC and SCC type samples
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:R734.2
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周航;武峰;;肺癌CT能譜成像:定量分析及與TTF-1和EGFR表達(dá)水平的相關(guān)性[J];放射學(xué)實(shí)踐;2017年08期
2 朱利群;王純;陳菊香;;血清miRNA-200b在非小細(xì)胞肺癌中的表達(dá)及其臨床意義[J];實(shí)用癌癥雜志;2017年07期
3 陳夢(mèng)竹;王秀杰;夏立新;;肺腺癌和肺鱗癌中mRNA可變剪接特征的比較[J];深圳大學(xué)學(xué)報(bào)(理工版);2017年01期
4 黃仁飛;江倩;金蒙蒙;劉茵;杜婷;張妍蓓;;血清胸苷激酶1評(píng)估非小細(xì)胞肺癌化療療效的意義[J];實(shí)用醫(yī)學(xué)雜志;2016年17期
5 趙丹;尹春嶺;王重利;張晨;張麗麗;張海青;;細(xì)胞角蛋白7、甲狀腺轉(zhuǎn)錄因子1、新天冬氨酸蛋白酶A、細(xì)胞角蛋白5/6、p40、p63在肺腺癌及鱗狀細(xì)胞癌鑒別診斷中的價(jià)值[J];中國(guó)綜合臨床;2015年07期
6 羅旭;王聰;范寧;羅文超;徐飛;李巖;;S100A4在肺鱗癌與肺腺癌細(xì)胞中的表達(dá)差異和生物學(xué)作用[J];大連醫(yī)科大學(xué)學(xué)報(bào);2015年02期
7 韓戍君;邵永平;劉健康;;抑癌基因MIG-6與腫瘤[J];中國(guó)生物化學(xué)與分子生物學(xué)報(bào);2014年11期
8 楚荷瑩;常靜俠;王華啟;張國(guó)俊;;吉非替尼單藥二線治療非小細(xì)胞肺癌的臨床療效[J];中國(guó)現(xiàn)代藥物應(yīng)用;2014年16期
9 張雷;王琳琳;張旭東;劉世榮;孫鵬森;王同立;;隨機(jī)森林算法基本思想及其在生態(tài)學(xué)中的應(yīng)用——以云南松分布模擬為例[J];生態(tài)學(xué)報(bào);2014年03期
10 魏輝;侯俊明;董明;杜寧;任宏;;Hsa-let-7誘導(dǎo)肺癌細(xì)胞凋亡與G_0/G_1期阻滯及其分子機(jī)制[J];現(xiàn)代腫瘤醫(yī)學(xué);2013年11期
相關(guān)博士學(xué)位論文 前1條
1 王莉;在肺癌發(fā)生中Smad7對(duì)TGF-β信號(hào)通路的調(diào)控[D];重慶醫(yī)科大學(xué);2005年
相關(guān)碩士學(xué)位論文 前4條
1 王天驕;識(shí)別早期非小細(xì)胞肺癌不同亞型間差異表達(dá)基因的Meta分析[D];吉林大學(xué);2016年
2 陳明達(dá);肺腺癌CircRNA芯片篩選及其調(diào)控機(jī)制探討[D];華北理工大學(xué);2016年
3 周楠楠;S100A8和S100A9在肺腺癌及肺鱗癌中的表達(dá)及臨床意義[D];河南大學(xué);2015年
4 沈旦;MiR-205調(diào)控非小細(xì)胞肺癌細(xì)胞發(fā)生上皮—間充質(zhì)轉(zhuǎn)化過(guò)程的機(jī)制研究[D];蘇州大學(xué);2014年
本文編號(hào):
2588077
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2588077.html