基于極端梯度提升算法的癌癥診斷分類研究
發(fā)布時間:2022-01-01 01:21
作為嚴(yán)重影響人類健康的重大疾病之一,癌癥的發(fā)病率呈逐年上升趨勢。精準(zhǔn)診斷腫瘤的進展可以為研究人員了解癌癥的發(fā)展機制、制定治療方案提供幫助。本文以腎透明細(xì)胞癌(KIRC,Kidney Renal Clear Cell Carcinoma)、腎乳頭狀細(xì)胞癌(KIRP,Kidney Renal Papillary Cell Carcinoma)、肺鱗狀細(xì)胞癌(LUSC,Lung Squamous Cell Carcinoma)和頭頸部鱗癌(HNSC,Head and Neck Squamous Cell Carcinoma)為例,研究腫瘤診斷分類模型。本文給出一種基于極端梯度提升(XGBoost,Extreme Gradient Boosting)算法和多組學(xué)數(shù)據(jù)的癌癥患者早期和晚期階段的診斷分類模型。與其他流行的機器學(xué)習(xí)方法相比,該模型在大多數(shù)數(shù)據(jù)集上獲得了較好的預(yù)測精度。此外,使用深度學(xué)習(xí)算法集成多組學(xué)數(shù)據(jù)能夠使模型的預(yù)測準(zhǔn)確性進一步提高。這為醫(yī)療人員能夠準(zhǔn)確診斷癌癥患者所處的患病階段提供了有效支持。(1)數(shù)據(jù)的收集與預(yù)處理。本文所用的多種分子生物學(xué)數(shù)據(jù)以及臨床數(shù)據(jù)均來自TCGA數(shù)據(jù)庫。...
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.3十折交叉驗證法框圖??Fig.?3.3?Block?diagram?of?10?fold?cross?validation?method??
?基于極端梯度提升算法的癌癥診斷分類研究???4集成多組學(xué)數(shù)據(jù)的癌癥診斷分類模型??近年來,利用單一組學(xué)數(shù)據(jù)在癌癥診斷以及預(yù)后預(yù)測方面取得了顯著的成績,但仍??然無法全面揭示癌癥發(fā)生和發(fā)展的生物學(xué)機制。為了更加系統(tǒng)地揭示腫瘤發(fā)生發(fā)展的過??程和機制,集成多組學(xué)數(shù)據(jù)研究應(yīng)運而生,進一步促進了腫瘤研究方法從單參數(shù)模型向??多參數(shù)系統(tǒng)模型的轉(zhuǎn)變%1。多組學(xué)數(shù)據(jù)的集成對研究腫瘤的發(fā)生發(fā)展機制具有重要意??義,能夠發(fā)現(xiàn)與癌癥的診斷和預(yù)后相關(guān)的生物標(biāo)志物,從而為臨床的靶向治療提供幫助。??由于組學(xué)數(shù)據(jù)具有復(fù)雜性、高維性以及異質(zhì)性。因此,結(jié)合多個不同的組學(xué)數(shù)據(jù)來預(yù)測??癌癥表型(腫瘤/正常、早期/晚期、生存期等)具有一定難度。本章的目標(biāo)是使用深度??學(xué)習(xí)方法集成癌癥患者的多組學(xué)數(shù)據(jù),進一步提高癌癥階段診斷分類模型的預(yù)測準(zhǔn)確??度。??4.1自動編碼器算法原理??Rumclhart?&?1986年提出/自動編碼器(AutoEncoder)這一概念,并將這—算法應(yīng)用??在處理高維復(fù)雜數(shù)據(jù)方面,促進了神經(jīng)網(wǎng)絡(luò)的發(fā)展[6f’]。自動編碼器是?種無監(jiān)督學(xué)習(xí)算??法,是前饋的非遞歸神經(jīng)網(wǎng)絡(luò)[671。給定輸入層X,自動編碼器的目標(biāo)是通過連續(xù)的隱藏??層轉(zhuǎn)換X,由輸出W?.\r'?(x和x'具有相同的維度)重建X。它可以通過編碼(encodcring)??過程學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征,也可以通過解碼(decoding)過程將隱含層的特征巫構(gòu)??出原始輸入數(shù)據(jù)。整個過程如圖4.1所示。??輸入層?輸出S??圖4.1自動編碼器原理圖??Fig.?4.1?Schematic?of?autoencoder??-34?_??
?大連海亊大學(xué)碩士學(xué)位論文???r?XGBoost、特征重要件排序w?|特征重要f生??卯練集1??\分類模型1?J?^■分?jǐn)?shù)前10%?、??n—?I?廣XGB〇〇st、特征重要冊序|特征重耍性?取交集??訓(xùn)凍集一?\分類模型2?J?分?jǐn)?shù)前io%?y??關(guān)鍵基因集??1…一?I?廣XGBoost特征重耍性排序」特征重要性|??訓(xùn)忐粟10??\分類模型10J?,分?jǐn)?shù)前〗0%?J??圖5.1?XGBoost模型識別關(guān)鍵基因的示意圖??Fig.?5.1?Schematic?diagi*am?of?XGBoost?model?to?identify?key?genes??5.2診斷關(guān)鍵基因的分析??為了深入了解由XGBoost鑒定的上述重要基因的生物學(xué)功能,我們對每種癌癥鑒定??出的關(guān)鍵基因集進行了?KEGG富集分析,以確定與癌癥進展相關(guān)的通路和基因。此外,??我們還對這些基因集進行表達差異的顯著性分析,以鑒定在癌癥早期和晚期階段表達值??存在顯著差異的基因。??5.?2.?1?KEGG通路分析??KEGG作為一種進行生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)研究的強有力工具。??DAVID(Database?for?Annotation,Visualization?and?Integrated?Discovery)是'一個生物信息??數(shù)據(jù)庫,對于給定的基因列表,DAVID工具能夠發(fā)現(xiàn)豐富的功能相關(guān)基因群,確定豐??富的生物主題(特別是GO?terms),列出相互作用的蛋白質(zhì)等[68]。對很多科研工作者來??說,DAVID是用來了解大量基因背后生物學(xué)意義的有力工具。本研宂中使用DAVID以??及KOBAS3.0將與癌癥階
【參考文獻】:
期刊論文
[1]組學(xué)技術(shù)在腫瘤精準(zhǔn)診療中應(yīng)用的研究進展:從單組學(xué)分析到多組學(xué)整合[J]. 冉冰冰,梁楠,孫輝. 中國腫瘤生物治療雜志. 2019(12)
[2]2015年中國惡性腫瘤流行情況分析[J]. 鄭榮壽,孫可欣,張思維,曾紅梅,鄒小農(nóng),陳茹,顧秀瑛,魏文強,赫捷. 中華腫瘤雜志. 2019 (01)
[3]中國各類癌癥的發(fā)病率和死亡率現(xiàn)狀及發(fā)展趨勢[J]. 陳金東. 遵義醫(yī)學(xué)院學(xué)報. 2018(06)
[4]深度自動編碼器的研究與展望[J]. 曲建嶺,杜辰飛,邸亞洲,高峰,郭超然. 計算機與現(xiàn)代化. 2014(08)
[5]乳腺癌相關(guān)基因差異表達分析[J]. 孟旭莉,謝尚鬧,李濤,徐笑紅,王升啟. 中國腫瘤臨床. 2005(15)
本文編號:3561373
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.3十折交叉驗證法框圖??Fig.?3.3?Block?diagram?of?10?fold?cross?validation?method??
?基于極端梯度提升算法的癌癥診斷分類研究???4集成多組學(xué)數(shù)據(jù)的癌癥診斷分類模型??近年來,利用單一組學(xué)數(shù)據(jù)在癌癥診斷以及預(yù)后預(yù)測方面取得了顯著的成績,但仍??然無法全面揭示癌癥發(fā)生和發(fā)展的生物學(xué)機制。為了更加系統(tǒng)地揭示腫瘤發(fā)生發(fā)展的過??程和機制,集成多組學(xué)數(shù)據(jù)研究應(yīng)運而生,進一步促進了腫瘤研究方法從單參數(shù)模型向??多參數(shù)系統(tǒng)模型的轉(zhuǎn)變%1。多組學(xué)數(shù)據(jù)的集成對研究腫瘤的發(fā)生發(fā)展機制具有重要意??義,能夠發(fā)現(xiàn)與癌癥的診斷和預(yù)后相關(guān)的生物標(biāo)志物,從而為臨床的靶向治療提供幫助。??由于組學(xué)數(shù)據(jù)具有復(fù)雜性、高維性以及異質(zhì)性。因此,結(jié)合多個不同的組學(xué)數(shù)據(jù)來預(yù)測??癌癥表型(腫瘤/正常、早期/晚期、生存期等)具有一定難度。本章的目標(biāo)是使用深度??學(xué)習(xí)方法集成癌癥患者的多組學(xué)數(shù)據(jù),進一步提高癌癥階段診斷分類模型的預(yù)測準(zhǔn)確??度。??4.1自動編碼器算法原理??Rumclhart?&?1986年提出/自動編碼器(AutoEncoder)這一概念,并將這—算法應(yīng)用??在處理高維復(fù)雜數(shù)據(jù)方面,促進了神經(jīng)網(wǎng)絡(luò)的發(fā)展[6f’]。自動編碼器是?種無監(jiān)督學(xué)習(xí)算??法,是前饋的非遞歸神經(jīng)網(wǎng)絡(luò)[671。給定輸入層X,自動編碼器的目標(biāo)是通過連續(xù)的隱藏??層轉(zhuǎn)換X,由輸出W?.\r'?(x和x'具有相同的維度)重建X。它可以通過編碼(encodcring)??過程學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征,也可以通過解碼(decoding)過程將隱含層的特征巫構(gòu)??出原始輸入數(shù)據(jù)。整個過程如圖4.1所示。??輸入層?輸出S??圖4.1自動編碼器原理圖??Fig.?4.1?Schematic?of?autoencoder??-34?_??
?大連海亊大學(xué)碩士學(xué)位論文???r?XGBoost、特征重要件排序w?|特征重要f生??卯練集1??\分類模型1?J?^■分?jǐn)?shù)前10%?、??n—?I?廣XGB〇〇st、特征重要冊序|特征重耍性?取交集??訓(xùn)凍集一?\分類模型2?J?分?jǐn)?shù)前io%?y??關(guān)鍵基因集??1…一?I?廣XGBoost特征重耍性排序」特征重要性|??訓(xùn)忐粟10??\分類模型10J?,分?jǐn)?shù)前〗0%?J??圖5.1?XGBoost模型識別關(guān)鍵基因的示意圖??Fig.?5.1?Schematic?diagi*am?of?XGBoost?model?to?identify?key?genes??5.2診斷關(guān)鍵基因的分析??為了深入了解由XGBoost鑒定的上述重要基因的生物學(xué)功能,我們對每種癌癥鑒定??出的關(guān)鍵基因集進行了?KEGG富集分析,以確定與癌癥進展相關(guān)的通路和基因。此外,??我們還對這些基因集進行表達差異的顯著性分析,以鑒定在癌癥早期和晚期階段表達值??存在顯著差異的基因。??5.?2.?1?KEGG通路分析??KEGG作為一種進行生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)研究的強有力工具。??DAVID(Database?for?Annotation,Visualization?and?Integrated?Discovery)是'一個生物信息??數(shù)據(jù)庫,對于給定的基因列表,DAVID工具能夠發(fā)現(xiàn)豐富的功能相關(guān)基因群,確定豐??富的生物主題(特別是GO?terms),列出相互作用的蛋白質(zhì)等[68]。對很多科研工作者來??說,DAVID是用來了解大量基因背后生物學(xué)意義的有力工具。本研宂中使用DAVID以??及KOBAS3.0將與癌癥階
【參考文獻】:
期刊論文
[1]組學(xué)技術(shù)在腫瘤精準(zhǔn)診療中應(yīng)用的研究進展:從單組學(xué)分析到多組學(xué)整合[J]. 冉冰冰,梁楠,孫輝. 中國腫瘤生物治療雜志. 2019(12)
[2]2015年中國惡性腫瘤流行情況分析[J]. 鄭榮壽,孫可欣,張思維,曾紅梅,鄒小農(nóng),陳茹,顧秀瑛,魏文強,赫捷. 中華腫瘤雜志. 2019 (01)
[3]中國各類癌癥的發(fā)病率和死亡率現(xiàn)狀及發(fā)展趨勢[J]. 陳金東. 遵義醫(yī)學(xué)院學(xué)報. 2018(06)
[4]深度自動編碼器的研究與展望[J]. 曲建嶺,杜辰飛,邸亞洲,高峰,郭超然. 計算機與現(xiàn)代化. 2014(08)
[5]乳腺癌相關(guān)基因差異表達分析[J]. 孟旭莉,謝尚鬧,李濤,徐笑紅,王升啟. 中國腫瘤臨床. 2005(15)
本文編號:3561373
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3561373.html
最近更新
教材專著