基于網(wǎng)絡(luò)模型的泛癌癥驅(qū)動(dòng)基因識(shí)別方法
發(fā)布時(shí)間:2020-08-17 15:06
【摘要】:隨著生物技術(shù)的進(jìn)步和相關(guān)研究的深入,人們對(duì)基因功能的認(rèn)知也進(jìn)入了全新的層次,隨之而來(lái)的是,癌癥的治療觀念也正在發(fā)生著根本性的轉(zhuǎn)變,即由經(jīng)驗(yàn)科學(xué)向循證醫(yī)學(xué)轉(zhuǎn)變、由細(xì)胞攻擊模式向靶向性治療模式轉(zhuǎn)變。大量的研究已經(jīng)證明,在癌癥的發(fā)生和發(fā)展過(guò)程中,只有少量的關(guān)鍵基因起到了決定性的作用,稱(chēng)之為“驅(qū)動(dòng)基因(drivers)”,而大量與癌癥相關(guān)的基因只是“乘客基因(passengers)”,它們的改變并不誘發(fā)癌癥,F(xiàn)在的生物技術(shù)可以精確地對(duì)患者的癌細(xì)胞進(jìn)行基因組測(cè)序,因此,如何準(zhǔn)確地在發(fā)生改變的數(shù)百個(gè)乃至上千個(gè)基因中,識(shí)別出癌癥的驅(qū)動(dòng)基因,就成為亟待解決的問(wèn)題,這對(duì)于癌癥的有效治療具有重要意義。目前,研究泛癌癥驅(qū)動(dòng)基因的方法大致可以分為兩大類(lèi):一類(lèi)是基于統(tǒng)計(jì)規(guī)律的研究方法。該方法通過(guò)整合目前多個(gè)權(quán)威數(shù)據(jù)庫(kù)的癌癥相關(guān)數(shù)據(jù),借助統(tǒng)計(jì)規(guī)律或者矩陣變換,對(duì)數(shù)據(jù)進(jìn)行分析,將特定的研究指標(biāo)發(fā)生顯著差異的基因作為檢測(cè)到的癌癥驅(qū)動(dòng)基因。該類(lèi)方法只著重于數(shù)學(xué)運(yùn)算的應(yīng)用,很大程度上忽視了數(shù)據(jù)的生物學(xué)意義。另一類(lèi)是基于網(wǎng)絡(luò)分析的研究方法,此類(lèi)方法通過(guò)將癌癥樣本數(shù)據(jù)整合到生物網(wǎng)絡(luò)上,把復(fù)雜網(wǎng)絡(luò)分析的相關(guān)理論遷移應(yīng)用到生物網(wǎng)絡(luò)分析上,評(píng)估各個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)中的重要性程度,將重要性最高的若干基因作為檢測(cè)到的癌癥驅(qū)動(dòng)基因。該類(lèi)方法識(shí)別的準(zhǔn)確率很大程度上受限于生物網(wǎng)絡(luò)信息的準(zhǔn)確性和完整性。本文在前人研究成果的基礎(chǔ)上,針對(duì)驅(qū)動(dòng)基因識(shí)別的準(zhǔn)確率受網(wǎng)絡(luò)信息準(zhǔn)確性和完整性影響過(guò)大的缺點(diǎn),引入了已知的癌癥驅(qū)動(dòng)基因作為先驗(yàn)知識(shí),對(duì)識(shí)別結(jié)果進(jìn)行校正,從而提出了一種新的泛癌癥驅(qū)動(dòng)基因的檢測(cè)算法。本文實(shí)驗(yàn)數(shù)據(jù)采用TCGA數(shù)據(jù)庫(kù)中多種癌癥的體細(xì)胞突變的樣本數(shù)據(jù),在進(jìn)行質(zhì)量控制和預(yù)處理后,映射到人類(lèi)基因網(wǎng)絡(luò)HumanNet中,并通過(guò)重采樣的方法對(duì)網(wǎng)絡(luò)進(jìn)行了重構(gòu),提取泛癌癥的基因網(wǎng)絡(luò)。然后,結(jié)合復(fù)雜網(wǎng)絡(luò)分析的相關(guān)理論,評(píng)估每個(gè)突變基因?qū)W(wǎng)絡(luò)的重要程度得分。為了減少結(jié)果對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的依賴(lài)性,本算法引入了已知的癌癥驅(qū)動(dòng)基因作為先驗(yàn)知識(shí),校正每個(gè)基因的得分。最后,選取得分靠前的突變基因作為候選的癌癥驅(qū)動(dòng)基因。本實(shí)驗(yàn)最終確定了20個(gè)候選的癌癥驅(qū)動(dòng)基因,其中有8個(gè)基因已被相關(guān)文獻(xiàn)證明是一種或多種癌癥的驅(qū)動(dòng)基因。隨后我們分析了未被驗(yàn)證的候選基因以及它們的鄰近基因,發(fā)現(xiàn)絕大部分候選基因與已知的癌癥驅(qū)動(dòng)基因存在緊密的聯(lián)系,這也從側(cè)面反映出本文所檢測(cè)的候選驅(qū)動(dòng)基因具有較高的可信性。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O157.5;O212.2
【圖文】:
14(c) 到達(dá)第三個(gè)頂點(diǎn) C (d) 按轉(zhuǎn)移概率選擇下一個(gè)頂點(diǎn) B 或者 A圖2.1 圖上的隨機(jī)游走示例隨機(jī)游走在圖上最早應(yīng)用是為了解決網(wǎng)頁(yè)的搜索排序問(wèn)題,Google 公司的搜索引擎算法 PageRank 的理論基礎(chǔ)就是建立在圖上的隨機(jī)游走理論之上的。此外,隨機(jī)游走還被應(yīng)用于蛋白質(zhì)網(wǎng)絡(luò)[17]和社交網(wǎng)絡(luò)[18-21]拓?fù)涮匦缘确矫娴难芯浚〉昧撕芎玫男Ч?.4.2 帶重啟的隨機(jī)游走重啟隨機(jī)游走算法的提出,是為了解決常規(guī)的隨機(jī)游走模型在游走過(guò)程中,種子節(jié)點(diǎn)有可能陷入局部循環(huán)無(wú)法跳出的缺陷。重啟隨機(jī)游走算法思想是,設(shè)置一個(gè)重啟概率參數(shù),種子在游走過(guò)程的每一步都多加入了一種選擇,即種子節(jié)點(diǎn)在向鄰居游走時(shí),有一定概率會(huì)選擇跳轉(zhuǎn)回初始節(jié)點(diǎn)。其他過(guò)程與常規(guī)的隨機(jī)游走相同,然后經(jīng)過(guò)反復(fù)迭代直至達(dá)到穩(wěn)態(tài)。穩(wěn)態(tài)時(shí)的概率分布就反映了初始節(jié)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)的控制能力
有可能會(huì)影響算法的運(yùn)行效率,因此在使用網(wǎng)絡(luò)之前,需要對(duì)網(wǎng)絡(luò)進(jìn)行處理,本部分的流程圖如圖 3.1 所示。圖3.1 數(shù)據(jù)收集和預(yù)處理流程圖本文的實(shí)驗(yàn)數(shù)據(jù)是 TCGA 數(shù)據(jù)庫(kù)中 12 種常見(jiàn)的癌癥數(shù)據(jù),它們具有較多的樣本數(shù)據(jù),也是目前相關(guān)研究廣泛采用的研究對(duì)象。其中包括:BLCA、BRCA、COAD、GBM、HNSC、KIRC、LAML、LUAD、LUSC、OV、READ、UCEC 等,詳細(xì)統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表 3.1。表3.1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表癌癥名稱(chēng) 癌癥英文全稱(chēng) 樣本數(shù)目BLCA Lung squamous cell carcinoma 130BRCA Rectum adenocarcinoma 982COAD Glioblastoma multiforme 154GBM Bladder Urothelial Carcinoma 290HNSC Uterine Corpus Endometrioid Carcinoma 280KIRC Colon adenocarcinoma 417LAML Ovarian serous cystadenocarcinoma 197LUAD Acute Myeloid Leukemia 230LUSC Head and Neck squamous cell carcinoma 178OV Lung adenocarcinoma 316READ Breast invasive carcinoma 69UCEC Kidney renal clear cell carcinoma 24812 種癌癥的樣本數(shù)據(jù)匯總并進(jìn)行預(yù)處理步驟為:首先,將所有樣本數(shù)據(jù)整合成行表示突變基因名稱(chēng)、列表示樣本名稱(chēng)的二維矩陣,矩陣中若樣本在該基因處發(fā)生突變,則對(duì)應(yīng)的矩陣元素標(biāo)記為 1,反之標(biāo)記為 0。實(shí)驗(yàn)的原始數(shù)據(jù)共包含 3490 個(gè)癌癥樣本、22906 個(gè)突變基因。然后進(jìn)行質(zhì)量控制
的方法:一個(gè)完整的網(wǎng)絡(luò)可以分解成各個(gè)節(jié)點(diǎn)及其一階鄰居的總和,其核心思想可以用圖 3.2 形象地表示。圖3.2 網(wǎng)絡(luò)重構(gòu)原理圖在此思想的基礎(chǔ)上,結(jié)合統(tǒng)計(jì)學(xué)中重采樣的思想,本文設(shè)計(jì)了一種基于重采樣的泛癌癥基因網(wǎng)絡(luò)重構(gòu)方法。用矩陣n nW 表示初始網(wǎng)絡(luò)的鄰接矩陣,假設(shè)每次采樣的個(gè)數(shù)為 k,共采樣 m 次,則重采樣過(guò)程就相當(dāng)于依次刪除W 中的每個(gè)采樣點(diǎn)對(duì)應(yīng)的行和列,最終得到了 m 個(gè)大小為( n k ) ( n k)矩陣,對(duì)應(yīng)于相應(yīng)的子網(wǎng)。使用mijC 表示第 m 個(gè)子網(wǎng)中基因 i 與基因 j 之間是否存在連邊,使用所有子網(wǎng)的算術(shù)平均值表示節(jié)點(diǎn)在最終網(wǎng)絡(luò)中的連接參數(shù)
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O157.5;O212.2
【圖文】:
14(c) 到達(dá)第三個(gè)頂點(diǎn) C (d) 按轉(zhuǎn)移概率選擇下一個(gè)頂點(diǎn) B 或者 A圖2.1 圖上的隨機(jī)游走示例隨機(jī)游走在圖上最早應(yīng)用是為了解決網(wǎng)頁(yè)的搜索排序問(wèn)題,Google 公司的搜索引擎算法 PageRank 的理論基礎(chǔ)就是建立在圖上的隨機(jī)游走理論之上的。此外,隨機(jī)游走還被應(yīng)用于蛋白質(zhì)網(wǎng)絡(luò)[17]和社交網(wǎng)絡(luò)[18-21]拓?fù)涮匦缘确矫娴难芯浚〉昧撕芎玫男Ч?.4.2 帶重啟的隨機(jī)游走重啟隨機(jī)游走算法的提出,是為了解決常規(guī)的隨機(jī)游走模型在游走過(guò)程中,種子節(jié)點(diǎn)有可能陷入局部循環(huán)無(wú)法跳出的缺陷。重啟隨機(jī)游走算法思想是,設(shè)置一個(gè)重啟概率參數(shù),種子在游走過(guò)程的每一步都多加入了一種選擇,即種子節(jié)點(diǎn)在向鄰居游走時(shí),有一定概率會(huì)選擇跳轉(zhuǎn)回初始節(jié)點(diǎn)。其他過(guò)程與常規(guī)的隨機(jī)游走相同,然后經(jīng)過(guò)反復(fù)迭代直至達(dá)到穩(wěn)態(tài)。穩(wěn)態(tài)時(shí)的概率分布就反映了初始節(jié)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)的控制能力
有可能會(huì)影響算法的運(yùn)行效率,因此在使用網(wǎng)絡(luò)之前,需要對(duì)網(wǎng)絡(luò)進(jìn)行處理,本部分的流程圖如圖 3.1 所示。圖3.1 數(shù)據(jù)收集和預(yù)處理流程圖本文的實(shí)驗(yàn)數(shù)據(jù)是 TCGA 數(shù)據(jù)庫(kù)中 12 種常見(jiàn)的癌癥數(shù)據(jù),它們具有較多的樣本數(shù)據(jù),也是目前相關(guān)研究廣泛采用的研究對(duì)象。其中包括:BLCA、BRCA、COAD、GBM、HNSC、KIRC、LAML、LUAD、LUSC、OV、READ、UCEC 等,詳細(xì)統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表 3.1。表3.1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表癌癥名稱(chēng) 癌癥英文全稱(chēng) 樣本數(shù)目BLCA Lung squamous cell carcinoma 130BRCA Rectum adenocarcinoma 982COAD Glioblastoma multiforme 154GBM Bladder Urothelial Carcinoma 290HNSC Uterine Corpus Endometrioid Carcinoma 280KIRC Colon adenocarcinoma 417LAML Ovarian serous cystadenocarcinoma 197LUAD Acute Myeloid Leukemia 230LUSC Head and Neck squamous cell carcinoma 178OV Lung adenocarcinoma 316READ Breast invasive carcinoma 69UCEC Kidney renal clear cell carcinoma 24812 種癌癥的樣本數(shù)據(jù)匯總并進(jìn)行預(yù)處理步驟為:首先,將所有樣本數(shù)據(jù)整合成行表示突變基因名稱(chēng)、列表示樣本名稱(chēng)的二維矩陣,矩陣中若樣本在該基因處發(fā)生突變,則對(duì)應(yīng)的矩陣元素標(biāo)記為 1,反之標(biāo)記為 0。實(shí)驗(yàn)的原始數(shù)據(jù)共包含 3490 個(gè)癌癥樣本、22906 個(gè)突變基因。然后進(jìn)行質(zhì)量控制
的方法:一個(gè)完整的網(wǎng)絡(luò)可以分解成各個(gè)節(jié)點(diǎn)及其一階鄰居的總和,其核心思想可以用圖 3.2 形象地表示。圖3.2 網(wǎng)絡(luò)重構(gòu)原理圖在此思想的基礎(chǔ)上,結(jié)合統(tǒng)計(jì)學(xué)中重采樣的思想,本文設(shè)計(jì)了一種基于重采樣的泛癌癥基因網(wǎng)絡(luò)重構(gòu)方法。用矩陣n nW 表示初始網(wǎng)絡(luò)的鄰接矩陣,假設(shè)每次采樣的個(gè)數(shù)為 k,共采樣 m 次,則重采樣過(guò)程就相當(dāng)于依次刪除W 中的每個(gè)采樣點(diǎn)對(duì)應(yīng)的行和列,最終得到了 m 個(gè)大小為( n k ) ( n k)矩陣,對(duì)應(yīng)于相應(yīng)的子網(wǎng)。使用mijC 表示第 m 個(gè)子網(wǎng)中基因 i 與基因 j 之間是否存在連邊,使用所有子網(wǎng)的算術(shù)平均值表示節(jié)點(diǎn)在最終網(wǎng)絡(luò)中的連接參數(shù)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;肥胖可使基因網(wǎng)絡(luò)發(fā)生變化而致病[J];中華中醫(yī)藥學(xué)刊;2008年05期
2 張治洲;韓瀟;王志偉;王蕓;;攝食低鈉鹽對(duì)三高病人局部基因網(wǎng)絡(luò)模式的共同影響[J];現(xiàn)代食品科技;2009年01期
3 蘇曉華;劉琦;寧坤;劉成功;;植物功能基因網(wǎng)絡(luò)及其應(yīng)用[J];林業(yè)科學(xué)研究;2018年01期
4 童杰;王永吉;;基因電路研究綜述[J];小型微型計(jì)算機(jī)系統(tǒng);2006年06期
5 汪卉;牟鵬;邱婷;朱懷槿;陳sハ
本文編號(hào):2795479
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2795479.html
最近更新
教材專(zhuān)著