癌癥發(fā)生的特征基因篩選及模式識別
發(fā)布時間:2020-09-30 10:15
目前,癌癥是嚴重危害人類身體健康的一種重大疾病,因此研究癌癥的致病機理成為當前的研究熱點之一。隨著高通量測序技術(shù)的發(fā)展,研究人員可以使用基因芯片技術(shù)得到多種癌癥的基因表達數(shù)據(jù),在人類全基因組水平上分析基因表達對癌癥發(fā)生和發(fā)展的影響。然而通過基因芯片技術(shù)得到的表達數(shù)據(jù)存在樣本量小、特征維度大的特征,這給人們的后續(xù)研究帶來很大的困難。因此,采用優(yōu)秀的特征選擇算法識別導(dǎo)致癌癥發(fā)生的關(guān)鍵基因,有利于早期干預(yù)、診斷及治療,具有十分重要的理論和臨床價值。本文以癌癥基因組圖譜數(shù)據(jù)庫(TCGA)轉(zhuǎn)錄本數(shù)據(jù)集為研究對象,建立了一種基于基因表達數(shù)據(jù)的癌癥早期特征基因識別方法,該方法可以篩選癌癥發(fā)生階段的少量特征基因,并保持較高的識別精度。主要工作包括三個部分:第一部分,選擇TCGA數(shù)據(jù)集中的乳腺癌樣本作為研究集,提出了一套乳腺癌發(fā)生的特征基因選擇方法,經(jīng)過支持向量機、隨機森林等多種機器學(xué)習建模方法,預(yù)測精度達到98%以上,與以往的研究相比,識別準確率更高。KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析得到與基因顯著相關(guān)(P0.05)的通路有8個,對通路中的一部分基因進行簡要功能分析,說明了這些基因在調(diào)控水平上的密切關(guān)系,表明識別的特征基因在乳腺癌的發(fā)生過程中起著重要的作用,這對了解乳腺癌發(fā)病機理以及乳腺癌的早期診斷非常重要。第二部分,將乳腺癌的研究方法應(yīng)用于TCGA數(shù)據(jù)庫中多種癌癥。針對TCGA的乳腺癌、肺腺癌、肺鱗狀細胞癌、結(jié)腸癌、腎透明細胞癌、甲狀腺癌、肝細胞癌七種癌癥的轉(zhuǎn)錄本數(shù)據(jù),篩選與每種癌癥發(fā)生有關(guān)的關(guān)鍵基因,建立多種癌癥發(fā)病的識別方法,為癌癥早期階段的研究和診斷提供理論上的支持。對于TCGA數(shù)據(jù)集,七種癌癥的識別精度均能高達98%,對于GEO獨立數(shù)據(jù)集,識別精度均能高達92%,其中癌癥I期的識別準確率最低為95%,這些結(jié)果表明,本文的特征基因篩選方法普適有效。從七種癌癥的特征基因中整理得到了在五種癌癥中共同出現(xiàn)的基因:PID1和SPTBN2,同時,采用KEGG通路分析,得到三條癌癥發(fā)生的共性通路,說明了這些共性通路與癌癥發(fā)生發(fā)展的密切聯(lián)系,篩選得到的高置信度少量特征基因?qū)Π┌Y早期診斷研究有重要價值。第三部分,根據(jù)特征基因篩選工作生成了一個癌癥特征基因篩選與模式識別軟件。在包含本文篩選方法的同時,加入多種機器學(xué)習建模和預(yù)測功能,形成了一個一體化的生物信息挖掘軟件,可對癌癥基因組圖譜數(shù)據(jù)庫的所有癌癥數(shù)據(jù)進行篩選和分析,為今后分析其它癌癥的發(fā)病機理、多種癌癥的相互聯(lián)系提供便利。本文選取TCGA數(shù)據(jù)庫中七種癌癥樣本作為研究對象,建立了癌癥的特征基因識別方法。結(jié)果表明:特征基因篩選方法可有效篩選癌癥發(fā)生的特征基因,高置信度的少量特征基因能有效區(qū)分癌旁和癌癥早期樣本,對癌癥發(fā)生機理及早期診斷研究具有重要的價值。
【學(xué)位單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:R730.2;Q811.4
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
第2章 數(shù)據(jù)庫及相關(guān)方法介紹
2.1 生物信息數(shù)據(jù)庫概述
2.1.1 TCGA數(shù)據(jù)庫簡介
2.1.2 GEO數(shù)據(jù)庫簡介
2.2 數(shù)據(jù)挖掘概述
2.2.1 數(shù)據(jù)挖掘的定義
2.2.2 數(shù)據(jù)挖掘的過程
2.3 本文在數(shù)據(jù)挖掘過程中使用的相關(guān)方法
2.3.1 特征提取方法
2.3.2 建模預(yù)測方法
2.3.3 模型評價方法
2.4 本章小結(jié)
第3章 乳腺癌發(fā)生的特征基因篩選及模式識別
3.1 引言
3.2 乳腺癌相關(guān)數(shù)據(jù)
3.2.1 乳腺癌基因表達數(shù)據(jù)
3.2.2 乳腺癌病人臨床數(shù)據(jù)
3.2.3 乳腺癌數(shù)據(jù)整合
3.3 乳腺癌發(fā)生相關(guān)的特征基因篩選
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 特征基因的篩選流程
3.3.3 建模預(yù)測與模型評價
3.4 乳腺癌特征基因功能分析
3.4.1 GO和Pathway富集
3.4.2 乳腺癌相關(guān)基因分析
3.5 本章小結(jié)
第4章 多種癌癥發(fā)生的特征基因篩選及模式識別
4.1 引言
4.2 癌癥相關(guān)數(shù)據(jù)
4.3 七種癌癥發(fā)生特征基因識別
4.3.1 數(shù)據(jù)預(yù)處理
4.3.2 特征基因篩選
4.3.3 特征基因的建模分類結(jié)果
4.4 癌癥發(fā)生相關(guān)的特征基因分析
4.4.1 七種癌癥共有基因分析
4.4.2 七種癌癥共有通路分析
4.5 本章小結(jié)
第5章 癌癥發(fā)病特征基因識別與建模軟件
5.1 軟件介紹
5.2 軟件的開發(fā)環(huán)境
5.3 軟件的使用
5.3.1 軟件的安裝
5.3.2 軟件的啟動
5.3.3 數(shù)據(jù)處理模塊的使用
5.3.4 附加功能的使用
5.3.5 模型建模預(yù)測模塊的使用
5.3.6 文件的保存與命名
5.4 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
本文編號:2830693
【學(xué)位單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:R730.2;Q811.4
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
第2章 數(shù)據(jù)庫及相關(guān)方法介紹
2.1 生物信息數(shù)據(jù)庫概述
2.1.1 TCGA數(shù)據(jù)庫簡介
2.1.2 GEO數(shù)據(jù)庫簡介
2.2 數(shù)據(jù)挖掘概述
2.2.1 數(shù)據(jù)挖掘的定義
2.2.2 數(shù)據(jù)挖掘的過程
2.3 本文在數(shù)據(jù)挖掘過程中使用的相關(guān)方法
2.3.1 特征提取方法
2.3.2 建模預(yù)測方法
2.3.3 模型評價方法
2.4 本章小結(jié)
第3章 乳腺癌發(fā)生的特征基因篩選及模式識別
3.1 引言
3.2 乳腺癌相關(guān)數(shù)據(jù)
3.2.1 乳腺癌基因表達數(shù)據(jù)
3.2.2 乳腺癌病人臨床數(shù)據(jù)
3.2.3 乳腺癌數(shù)據(jù)整合
3.3 乳腺癌發(fā)生相關(guān)的特征基因篩選
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 特征基因的篩選流程
3.3.3 建模預(yù)測與模型評價
3.4 乳腺癌特征基因功能分析
3.4.1 GO和Pathway富集
3.4.2 乳腺癌相關(guān)基因分析
3.5 本章小結(jié)
第4章 多種癌癥發(fā)生的特征基因篩選及模式識別
4.1 引言
4.2 癌癥相關(guān)數(shù)據(jù)
4.3 七種癌癥發(fā)生特征基因識別
4.3.1 數(shù)據(jù)預(yù)處理
4.3.2 特征基因篩選
4.3.3 特征基因的建模分類結(jié)果
4.4 癌癥發(fā)生相關(guān)的特征基因分析
4.4.1 七種癌癥共有基因分析
4.4.2 七種癌癥共有通路分析
4.5 本章小結(jié)
第5章 癌癥發(fā)病特征基因識別與建模軟件
5.1 軟件介紹
5.2 軟件的開發(fā)環(huán)境
5.3 軟件的使用
5.3.1 軟件的安裝
5.3.2 軟件的啟動
5.3.3 數(shù)據(jù)處理模塊的使用
5.3.4 附加功能的使用
5.3.5 模型建模預(yù)測模塊的使用
5.3.6 文件的保存與命名
5.4 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻】
相關(guān)期刊論文 前3條
1 陳凱;朱鈺;;機器學(xué)習及其相關(guān)算法綜述[J];統(tǒng)計與信息論壇;2007年05期
2 劉鳳茹;侯振江;王秀文;;細胞黏附分子[J];檢驗醫(yī)學(xué)與臨床;2007年08期
3 李穎新,劉全金,阮曉鋼;急性白血病的基因表達譜分析與亞型分類特征的鑒別[J];中國生物醫(yī)學(xué)工程學(xué)報;2005年02期
本文編號:2830693
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2830693.html
最近更新
教材專著