天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

整合基因-癌癥關(guān)聯(lián)、網(wǎng)絡(luò)、序列和功能屬性利用機器學習方法預測癌癥候選基因的研究

發(fā)布時間:2020-03-25 20:00
【摘要】:目的:癌癥是一類由多種基因改變引起的復雜疾病,癌癥基因在癌癥的發(fā)生發(fā)展中起著至關(guān)重要的作用,但目前已知的癌癥基因只占到人類基因組的2%,還有大量的癌癥基因至今沒有被發(fā)現(xiàn)。由于傳統(tǒng)的實驗方法發(fā)現(xiàn)癌癥基因費時費力,因此本研究采用機器學習方法建立癌癥候選基因預測模型,旨在為進一步了解癌癥的發(fā)病機制和開發(fā)有效的癌癥治療手段提供參考。方法:從OpenTargets數(shù)據(jù)庫篩選基因-癌癥關(guān)聯(lián)及基因通路、遺傳關(guān)聯(lián)、動物模型、RNA表達等變量,同時從DIP、HPRD、BIOGRID數(shù)據(jù)庫下載蛋白質(zhì)相互作用數(shù)據(jù),采用CytoScape構(gòu)建PPI網(wǎng)絡(luò)并計算網(wǎng)絡(luò)拓撲屬性;從Uniprot數(shù)據(jù)庫下載蛋白質(zhì)序列信息,采用PROFEAT計算蛋白質(zhì)序列結(jié)構(gòu)和理化特征;從GO和KEGG數(shù)據(jù)庫獲取基因富集的GO術(shù)語和KEGG通路,整合基因上述四方面的特征,以CGC數(shù)據(jù)庫中已知的癌癥基因為結(jié)局變量,進行變量篩選和不平衡數(shù)據(jù)處理后,采用五種機器學習方法(RF、GBM、SVM、ANNs及NaiveBayes)預測潛在的癌癥基因,將預測結(jié)果在CBioPortal數(shù)據(jù)庫中進行驗證,并以基因BLK和結(jié)腸癌為例進行具體分析。結(jié)果:模型最終納入62個變量,其中PPI網(wǎng)絡(luò)拓撲屬性的重要性最大,且癌癥基因與非癌癥基因在平均路徑長度、點度中心度、CNR、氨基酸組成、二肽組成以及GO和KEGG富集方面的分布有很大的差異。在上述四方面變量組成的15個模型中,模型PPI+OpenTargets+Sequence+Function性能在五種算法中均達到最佳,五種算法的AUC均值達到0.885,預測得到20種潛在的癌癥基因,其在不同的癌癥組織中均具有一定程度的突變和擴增。結(jié)論:本研究從多個權(quán)威生物醫(yī)學數(shù)據(jù)庫獲取基因的多種屬性,使用五種機器學習算法預測癌癥候選基因,結(jié)果驗證顯示預測效果良好,進一步揭示了整合基因-癌癥關(guān)聯(lián)屬性、PPI網(wǎng)絡(luò)拓撲屬性、序列屬性和功能屬性等多方面信息,應用機器學習方法預測癌癥候選基因的可行性,可以為癌癥基因的發(fā)現(xiàn)及癌癥的基因治療提供參考。
【圖文】:

流程圖,集成學習,流程圖,癌癥


7圖 2.2 組合采樣+集成學習流程圖2.3 數(shù)據(jù)收集及預處理2.3.1 基因-癌癥關(guān)聯(lián)屬性①從 OpenTargets 數(shù)據(jù)庫(https://www.targetvalidation.org/downloads/data)

算法,集成學習,基模型,訓練集


中國醫(yī)科大學碩士學位論文2.4.2 集成學習集成學習,就是通過將多個單一學習器組合在一起,使它們共同完成學習任務。目前有三種常見的集成學習框架,分別為:Bagging、Boosting 和 Stacking,本研究主要采用前兩種集成學習算法:(1)Bagging:從訓練集中采用 Bootstrap 進行子抽樣,組成每個基模型所需要的子訓練集,,對所有基模型預測結(jié)果進行綜合產(chǎn)生最終的預測結(jié)果,Bagging算法的基本思想如圖 2.3 所示:
【學位授予單位】:中國醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:R73-3;G353.1

【相似文獻】

相關(guān)期刊論文 前10條

1 劉唯;陳鍵;楊子林;;重癥監(jiān)護病房老年患者感染嗜麥芽寡養(yǎng)單胞菌整合基因調(diào)查及耐藥性分析[J];實用預防醫(yī)學;2019年05期

2 潘奇;李萌;錢鳳翠;湯治東;趙越;王秋毓;李春權(quán);;整合基因的拷貝數(shù)與表達信息識別膠質(zhì)瘤風險通路區(qū)域內(nèi)的生存標志物[J];癌變·畸變·突變;2017年01期

3 吳家睿;;建立在系統(tǒng)生物學基礎(chǔ)上的精準醫(yī)學[J];生命科學;2015年05期

4 劉曉菊;;備考生物科技發(fā)展,整合基因工程與相關(guān)知識[J];教學考試;2017年15期

5 張素芝;左建儒;;擬南芥開花時間調(diào)控的研究進展[J];生物化學與生物物理進展;2006年04期

6 于軍;;“人類基因組計劃”回顧與展望:從基因組生物學到精準醫(yī)學[J];自然雜志;2013年05期

7 陳廷,劉昌平,王家英;人類巨細胞病毒感染與免疫[J];濟寧醫(yī)學院學報;1993年03期

8 王玉芝;用反義核酸研究正常造血的基因調(diào)控[J];實驗血液學雜志;1995年01期

9 孫標;李向陽;;PIM與消化系統(tǒng)腫瘤[J];東南國防醫(yī)藥;2012年04期

10 廖志琴;程華;李琳玲;程水源;;高等植物花發(fā)育的分子生物學研究[J];黃岡師范學院學報;2013年03期

相關(guān)會議論文 前2條

1 張晶;殷明;;基因芯片結(jié)合整合基因網(wǎng)絡(luò)篩選輻射損傷后恢復相關(guān)基因的研究[A];全國第十二屆生化與分子藥理學學術(shù)會議論文集[C];2011年

2 朱坤舉;張學軍;楊森;;全基因組關(guān)聯(lián)分析(GWAS)基因通路研究和基因—基因、基因—環(huán)境交互作用研究[A];中華醫(yī)學會第16次全國皮膚性病學術(shù)年會摘要集[C];2010年

相關(guān)碩士學位論文 前5條

1 范馨月;整合基因-癌癥關(guān)聯(lián)、網(wǎng)絡(luò)、序列和功能屬性利用機器學習方法預測癌癥候選基因的研究[D];中國醫(yī)科大學;2019年

2 王濤;殺念菌素高產(chǎn)菌株的構(gòu)建[D];內(nèi)蒙古農(nóng)業(yè)大學;2009年

3 王魏強;基于基因表達譜識別人類疾病相關(guān)基因和功能[D];華中科技大學;2006年

4 孫婉;DNA assembler技術(shù)在順,順—己二烯二酸和Siderophere生物合成中的應用[D];北京協(xié)和醫(yī)學院;2015年

5 黃春敏;整合基因擴增提高高溫α-淀粉酶生產(chǎn)水平[D];江南大學;2011年



本文編號:2600370

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2600370.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶99824***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com