基于統(tǒng)計(jì)方法的癌癥特征基因提取
發(fā)布時(shí)間:2017-10-29 11:28
本文關(guān)鍵詞:基于統(tǒng)計(jì)方法的癌癥特征基因提取
更多相關(guān)文章: 基因表達(dá)譜數(shù)據(jù) chernoff距離 Bhattaacharyya距離 Lasso方法 支持向量機(jī)
【摘要】:癌癥是當(dāng)前困擾現(xiàn)代醫(yī)學(xué)的一種嚴(yán)重的致死性疾病,現(xiàn)在一般將癌癥作為各種惡性腫瘤的統(tǒng)稱。目前臨床上對(duì)于腫瘤的診斷主要是借助形態(tài)學(xué)上的方法,但這種方法并不精確。癌癥的發(fā)生往往包含著生物體內(nèi)基因的變化,因此從基因?qū)用鎸?duì)癌癥的致病機(jī)理進(jìn)行研究更具有科學(xué)性。DNA微陣列技術(shù)可以在短時(shí)間內(nèi)獲得大量生物基因表達(dá)譜數(shù)據(jù),這使得從基因?qū)用娣治霭┌Y的發(fā)生成為可能,同時(shí)該方法對(duì)于癌癥病患的早期診斷和后續(xù)相關(guān)治療有著非常重要的意義。但是基因表達(dá)譜數(shù)據(jù)往往具有維數(shù)高、小樣本、噪聲大的特點(diǎn),這使得對(duì)數(shù)據(jù)分析的難度大大增加。癌癥致病基因的數(shù)目一般比較少,大量無(wú)關(guān)基因夾雜在表達(dá)數(shù)據(jù)中增加了分析的難度。鑒于此,預(yù)先選取一定的標(biāo)準(zhǔn)對(duì)無(wú)關(guān)基因進(jìn)行剔除,使得數(shù)據(jù)維數(shù)降低,并通過(guò)選擇的最優(yōu)特征基因來(lái)取得較高的分類(lèi)準(zhǔn)確率,成為利用DNA微陣列技術(shù)研究癌癥的基本思路。本文選取結(jié)腸癌基因表達(dá)譜數(shù)據(jù),通過(guò)采用Chernoff距離和Bhattaacharyya距離相結(jié)合的方法,濾除掉無(wú)關(guān)基因,找到了136個(gè)代表性的候選特征基因,隨后采用Lasso方法對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步降維分析,最終選出了21個(gè)關(guān)鍵的特征基因。用支持向量機(jī)的方法對(duì)所選特征基因的分類(lèi)效果進(jìn)行了檢測(cè),得到87%的分類(lèi)準(zhǔn)確率。其中幾個(gè)特征基因己被生物學(xué)實(shí)驗(yàn)證實(shí)與結(jié)腸癌有關(guān)。
【關(guān)鍵詞】:基因表達(dá)譜數(shù)據(jù) chernoff距離 Bhattaacharyya距離 Lasso方法 支持向量機(jī)
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:R73-3
【目錄】:
- 摘要3-4
- Abstract4-8
- 第1章 緒論8-16
- 1.1 研究背景及其意義8-9
- 1.2. 生物信息學(xué)概述9-10
- 1.3. 生物信息學(xué)相關(guān)概念10-12
- 1.3.1 基因芯片技術(shù)10-11
- 1.3.2 基因表達(dá)譜數(shù)據(jù)11
- 1.3.3 基因表達(dá)譜數(shù)據(jù)特點(diǎn)11-12
- 1.4. 基因表達(dá)譜數(shù)據(jù)國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.5 本文主要工作及創(chuàng)新點(diǎn)14-16
- 第2章 基因表達(dá)譜數(shù)據(jù)分析相關(guān)理論16-24
- 2.1 基因表達(dá)譜數(shù)據(jù)的預(yù)處理16-17
- 2.1.1 缺失值處理16
- 2.1.2 異常值處理16
- 2.1.3 數(shù)據(jù)標(biāo)準(zhǔn)化16-17
- 2.2 特征基因選取17-21
- 2.2.1 特征基因選取的概念17-18
- 2.2.2 特征基因選取目的18
- 2.2.3 基因表達(dá)數(shù)據(jù)的度量準(zhǔn)則18-19
- 2.2.4 特征基因選取方法19-21
- 2.3 分類(lèi)方法21-24
- 2.3.1 支持向量機(jī)21-23
- 2.3.2 實(shí)驗(yàn)效果評(píng)估23-24
- 第3章 LASSO方法24-27
- 3.1 Lasso方法24-25
- 3.2 LARS算法25-27
- 第4章 特征基因選取實(shí)證分析27-36
- 4.1 問(wèn)題描述及數(shù)據(jù)來(lái)源27
- 4.2 實(shí)證分析與結(jié)果27-36
- 4.2.1 無(wú)關(guān)基因剔除27-32
- 4.2.2 Lasso方法降維和特征基因提取32-34
- 4.2.3 分類(lèi)效果檢驗(yàn)與評(píng)價(jià)34-35
- 4.2.4 生物學(xué)解釋35-36
- 第5章 總結(jié)與展望36-38
- 5.1 總結(jié)36
- 5.2 展望36-38
- 參考文獻(xiàn)38-43
- 致謝43
本文編號(hào):1112817
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1112817.html
最近更新
教材專(zhuān)著