基于決策樹算法的癌癥合成致死基因組合的預測及預后分析
發(fā)布時間:2021-11-24 23:17
癌癥治療一直都是世界性難題。近年來,合成致死(Synthetic lethality)已經(jīng)成為一種抗癌藥物研發(fā)的新思路,針對兩個存在相互作用的基因進行靶向治療,可有效克服耐藥性問題。目前,合成致死療法所面臨的關鍵問題是在特定癌癥類型中獲得一批可靠的具合成致死效應的基因,為基于合成致死策略尋找關鍵基因的可能治療靶點提供數(shù)據(jù)參考。由于實驗驗證成本較高、耗時長且難以大批量開展,利用生物信息學手段預測可靠的合成致死基因組合已成為了一種重要方法。因此,本文基于已知合成致死基因組合的相關分子特征,通過機器學習算法預測了不同癌癥中的合成致死基因組合,并針對相關數(shù)據(jù)進行了分析,同時構建了數(shù)據(jù)庫。首先,基于TCGA數(shù)據(jù)庫(The Cancer Genome Atlas)中33種癌癥的測序數(shù)據(jù),從基因突變、m RNA表達、甲基化及拷貝數(shù)變異(Copy number variation,CNV)四個分子水平展開分析,提取特征并利用決策樹模型進行合成致死基因組合的預測;然后,基于預測結果進行分析,以了解具合成致死效應基因的可能生物學功能及在癌癥預后中的價值等;最后,為了共享合成致死基因組合的預測結果,本文搭建...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:119 頁
【學位級別】:碩士
【部分圖文】:
合成致死效應示意圖(概念參考:O"Neil等[4])
南京郵電大學碩士研究生學位論文第一章緒論7存分析的可視化分析功能,為全世界的相關科研人員提供了一個具有在線分析功能的數(shù)據(jù)參考平臺。圖1.2本文主要研究內(nèi)容1.4.2本文結構安排本文共有六個章節(jié),具體章節(jié)安排如下:第一章:緒論。本章主要介紹了合成致死的概念及在癌癥治療中的優(yōu)勢、國內(nèi)外相關領域的發(fā)展及應用情況,以及本文的研究目標,并對本文主要工作進行了概述。第二章:多組學數(shù)據(jù)分析預測與相關原理。本章節(jié)主要介紹了多分子水平數(shù)據(jù)分析與機器學習模型的相關理論知識、近年來國內(nèi)外已經(jīng)公開的預測合成致死基因組合的常用方法和數(shù)據(jù)庫原理,并對預測合成致死基因組合的難點進行了分析。第三章:基于多組學數(shù)據(jù)利用決策樹模型預測合成致死基因組合。本章節(jié)主要介紹了基于多組學數(shù)據(jù)集成分析預測合成致死基因組合的方法,并重點介紹了數(shù)據(jù)預處理方法、特征參數(shù)選娶模型訓練和優(yōu)化以及模型準確度的驗證。第四章:基于合成致死基因組合的預后及功能分析。本章節(jié)主要介紹了基于合成致死基因組合的預測結果進行預后分析及功能分析等,主要圍繞互作網(wǎng)絡、生存、功能及藥物敏感性等展開分析,以了解具合成致死效應基因在癌癥發(fā)生發(fā)展中的可能作用。
南京郵電大學碩士研究生學位論文第二章多組學數(shù)據(jù)分析預測及相關原理10圖2.1TCGA樣本編號示例2.2.2針對不同分子水平測序數(shù)據(jù)的處理在mRNA表達數(shù)據(jù)的處理中,測序數(shù)據(jù)中的表達量通常使用RPKM/FPKM表示,其中TCGA數(shù)據(jù)庫[50]中使用RPKM。通常研究人員們較為關注的是表達差異這一指標,即癌癥樣本與對照樣本之間的表達差異,通常使用倍數(shù)變化(Foldchange,F(xiàn)C)、p值和錯誤發(fā)現(xiàn)率(Falsediscoveryrate,F(xiàn)DR)值來描述表達的差異性。目前,有多種分析工具及R包可以對表達差異進行分析。較常見的有EdgeR[52]、limma等。NCBI(TheNationalCenterforBiotechnologyInformation)中的GEO(GeneExpressionOmnibus)數(shù)據(jù)庫[53]也有在線分析工具可供使用。甲基化是發(fā)生在DNA分子水平的重要生物學過程,甲基化程度作為該分子水平的一個重要指標,通常由Bate-Value值來描述,Bate-Value值為一個大小在0-1之間的值,其中1表示完全甲基化,0表示不發(fā)生甲基化[54]。拷貝數(shù)變異(Copynumbervariation,CNV)是發(fā)生在基因中的較為重要的變化之一,其狀態(tài)通常由擴增、缺失和無變化來描述。TCGA數(shù)據(jù)庫[50]的原始數(shù)據(jù)采用了5個離散的變量,包括-2、-1、0、1和2,來描述拷貝數(shù)變異的狀態(tài),分別表示純合性缺失、半合性缺失、無變化、擴增和高水平擴增[54]。針對拷貝數(shù)變異的研究通常采用變化程度或發(fā)生擴增/缺失的比例作為指標。2.2.3線性模型與決策樹模型基礎理論知識(1)線性模型線性模型(Linearmodel)是機器學習的一種常見模型[55],其以形式簡單、易于建模等特點被廣泛應用。線性模型通過學習一個帶有屬性的線性組合來得到預測函數(shù):()=11+22+++(2.1)
【參考文獻】:
期刊論文
[1]PARP抑制劑在子宮內(nèi)膜癌治療中的研究進展[J]. 曾靖,尹如鐵. 實用婦產(chǎn)科雜志. 2020(01)
[2]基于合成致死策略尋找ARID1A突變肝細胞癌的治療靶點[J]. 王光興,石毅,王小晟,張躍,韓澤廣,何昆燕. 基因組學與應用生物學. 2019(07)
[3]PARP抑制劑治療晚期乳腺癌的作用機制及相關研究進展[J]. 吳靜,曾曉華. 中國腫瘤臨床. 2019(11)
博士論文
[1]基于多模態(tài)數(shù)據(jù)融合的乳腺癌生存期預測研究[D]. 孫冬冬.中國科學技術大學 2018
[2]基于納米膠束的Micelleplex輸送小干擾RNA用于癌癥治療[D]. 毛成瓊.中國科學技術大學 2013
[3]應用合成致死原理篩選胰腺癌對化療藥物反應的關鍵基因[D]. 馮韻霖.北京協(xié)和醫(yī)學院 2009
碩士論文
[1]釀酒酵母AFR1過量表達與MPK1及MIH1缺失導致的合成致死[D]. 樊純.天津大學 2009
本文編號:3516943
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:119 頁
【學位級別】:碩士
【部分圖文】:
合成致死效應示意圖(概念參考:O"Neil等[4])
南京郵電大學碩士研究生學位論文第一章緒論7存分析的可視化分析功能,為全世界的相關科研人員提供了一個具有在線分析功能的數(shù)據(jù)參考平臺。圖1.2本文主要研究內(nèi)容1.4.2本文結構安排本文共有六個章節(jié),具體章節(jié)安排如下:第一章:緒論。本章主要介紹了合成致死的概念及在癌癥治療中的優(yōu)勢、國內(nèi)外相關領域的發(fā)展及應用情況,以及本文的研究目標,并對本文主要工作進行了概述。第二章:多組學數(shù)據(jù)分析預測與相關原理。本章節(jié)主要介紹了多分子水平數(shù)據(jù)分析與機器學習模型的相關理論知識、近年來國內(nèi)外已經(jīng)公開的預測合成致死基因組合的常用方法和數(shù)據(jù)庫原理,并對預測合成致死基因組合的難點進行了分析。第三章:基于多組學數(shù)據(jù)利用決策樹模型預測合成致死基因組合。本章節(jié)主要介紹了基于多組學數(shù)據(jù)集成分析預測合成致死基因組合的方法,并重點介紹了數(shù)據(jù)預處理方法、特征參數(shù)選娶模型訓練和優(yōu)化以及模型準確度的驗證。第四章:基于合成致死基因組合的預后及功能分析。本章節(jié)主要介紹了基于合成致死基因組合的預測結果進行預后分析及功能分析等,主要圍繞互作網(wǎng)絡、生存、功能及藥物敏感性等展開分析,以了解具合成致死效應基因在癌癥發(fā)生發(fā)展中的可能作用。
南京郵電大學碩士研究生學位論文第二章多組學數(shù)據(jù)分析預測及相關原理10圖2.1TCGA樣本編號示例2.2.2針對不同分子水平測序數(shù)據(jù)的處理在mRNA表達數(shù)據(jù)的處理中,測序數(shù)據(jù)中的表達量通常使用RPKM/FPKM表示,其中TCGA數(shù)據(jù)庫[50]中使用RPKM。通常研究人員們較為關注的是表達差異這一指標,即癌癥樣本與對照樣本之間的表達差異,通常使用倍數(shù)變化(Foldchange,F(xiàn)C)、p值和錯誤發(fā)現(xiàn)率(Falsediscoveryrate,F(xiàn)DR)值來描述表達的差異性。目前,有多種分析工具及R包可以對表達差異進行分析。較常見的有EdgeR[52]、limma等。NCBI(TheNationalCenterforBiotechnologyInformation)中的GEO(GeneExpressionOmnibus)數(shù)據(jù)庫[53]也有在線分析工具可供使用。甲基化是發(fā)生在DNA分子水平的重要生物學過程,甲基化程度作為該分子水平的一個重要指標,通常由Bate-Value值來描述,Bate-Value值為一個大小在0-1之間的值,其中1表示完全甲基化,0表示不發(fā)生甲基化[54]。拷貝數(shù)變異(Copynumbervariation,CNV)是發(fā)生在基因中的較為重要的變化之一,其狀態(tài)通常由擴增、缺失和無變化來描述。TCGA數(shù)據(jù)庫[50]的原始數(shù)據(jù)采用了5個離散的變量,包括-2、-1、0、1和2,來描述拷貝數(shù)變異的狀態(tài),分別表示純合性缺失、半合性缺失、無變化、擴增和高水平擴增[54]。針對拷貝數(shù)變異的研究通常采用變化程度或發(fā)生擴增/缺失的比例作為指標。2.2.3線性模型與決策樹模型基礎理論知識(1)線性模型線性模型(Linearmodel)是機器學習的一種常見模型[55],其以形式簡單、易于建模等特點被廣泛應用。線性模型通過學習一個帶有屬性的線性組合來得到預測函數(shù):()=11+22+++(2.1)
【參考文獻】:
期刊論文
[1]PARP抑制劑在子宮內(nèi)膜癌治療中的研究進展[J]. 曾靖,尹如鐵. 實用婦產(chǎn)科雜志. 2020(01)
[2]基于合成致死策略尋找ARID1A突變肝細胞癌的治療靶點[J]. 王光興,石毅,王小晟,張躍,韓澤廣,何昆燕. 基因組學與應用生物學. 2019(07)
[3]PARP抑制劑治療晚期乳腺癌的作用機制及相關研究進展[J]. 吳靜,曾曉華. 中國腫瘤臨床. 2019(11)
博士論文
[1]基于多模態(tài)數(shù)據(jù)融合的乳腺癌生存期預測研究[D]. 孫冬冬.中國科學技術大學 2018
[2]基于納米膠束的Micelleplex輸送小干擾RNA用于癌癥治療[D]. 毛成瓊.中國科學技術大學 2013
[3]應用合成致死原理篩選胰腺癌對化療藥物反應的關鍵基因[D]. 馮韻霖.北京協(xié)和醫(yī)學院 2009
碩士論文
[1]釀酒酵母AFR1過量表達與MPK1及MIH1缺失導致的合成致死[D]. 樊純.天津大學 2009
本文編號:3516943
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3516943.html