天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 醫(yī)學論文 > 腫瘤論文 >

基于最大相關最小冗余樸素貝葉斯分類器的腫瘤分類方法研究

發(fā)布時間:2018-07-09 13:54

  本文選題:基因表達譜 + 腫瘤分類; 參考:《重慶醫(yī)科大學》2017年碩士論文


【摘要】:目的利用基因表達譜數(shù)據(jù)研究腫瘤的發(fā)生發(fā)展機理,有助于腫瘤的診斷與個性化治療。然而,基因芯片檢測的基因數(shù)量巨大,檢測費用也較高加之樣本收集的困難,造成了基因表達譜數(shù)據(jù)高維小樣本的特點。此外,基因表達數(shù)據(jù)還存在高噪聲、高冗余及樣本分布不均衡等特點,傳統(tǒng)分類方法已不再適用,高維數(shù)據(jù)的分類問題正面臨前所未有的挑戰(zhàn)。特征選擇與分類器相結合是解決這類問題的一種思路,本文以最大相關最小冗余樸素貝葉斯分類器(Na?ve Bayes classifier based on the Maximum Relevance Minimum Redundancy feature selection method,m RMR-NBC)為例,將其應用于模擬數(shù)據(jù)、公開的基因表達譜數(shù)據(jù)以及實際臨床腫瘤樣本的基因表達譜數(shù)據(jù),并與常用分類方法進行對比研究,證明該思路的優(yōu)越性,以期為實際臨床腫瘤樣本分類提供理論依據(jù)。方法(1)進行高維數(shù)據(jù)模擬研究,將m RMR-NBC應用于高維數(shù)據(jù)分類問題中,并將其與支持向量機、極限學習機與隨機森林進行比較,探討樣本量、基因數(shù)以及信噪比對分類準確率的影響;(2)應用公開的結腸癌與肺癌基因表達譜數(shù)據(jù),分別采用m RMR-NBC、支持向量機、極限學習機與隨機森林進行比較研究,驗證模擬研究結果;(3)從GEO數(shù)據(jù)庫下載人類非小細胞肺癌基因表達數(shù)據(jù)集(GSE10245),共獲得40例肺腺癌和18例肺鱗癌組織的基因表達譜數(shù)據(jù)。進行預處理后,采用m RMR-NBC進行分析,選取特征基因;利用迪杰斯特拉算法進行最短路徑分析,篩選候選基因;利用DAVID軟件進行GO與KEGG富集分析。采用文獻回顧法分析對分類有貢獻的基因在腫瘤發(fā)生發(fā)展中的作用。結果(1)在模擬數(shù)據(jù)中,m RMR-NBC的綜合分類準確率達到96.71%,與支持向量機分類準確率相當,依次高于隨機森林與極限向量機。上述幾種方法的分類準確率與樣本量的相關系數(shù),均具有統(tǒng)計學意義(P0.05)。其中,m RMR-NBC、支持向量機與極限學習機的分類準確率與樣本量為負相關,而隨機森林的分類準確率則與樣本量呈正相關。隨機森林的分類準確率還與基因數(shù)呈負相關(P0.05),而暫未發(fā)現(xiàn)m RMR-NBC的分類準確率與基因數(shù)間的相關性。對m RMR-NBC的分類準確率進行析因設計的方差分析結果顯示,僅樣本量對分類準確率有影響(P0.05)。(2)應用m RMR-NBC分析結腸癌與肺癌基因表達譜數(shù)據(jù)顯示,當納入基因數(shù)分別為15與12時分類準確率最高分別達到95.16%與97.26%,m RMR-NBC僅使用極少的屬性參與分類就能得到非常好的分類效果,且隨著納入分析的基因增多分類效果逐漸趨于穩(wěn)定。支持向量機在結腸癌與肺癌數(shù)據(jù)集上分類準確率分別達到90.32%與94.52%;極限學習機則分別為82.26%與69.86%;隨機森林分別為81.98%與77.62%。(3)運用m RMR-NBC篩選特征基因8個;最短路徑分析篩選候選基因21個,其中AURKA、SLC7A2基因分別在最短路徑中出現(xiàn)3、2次。富集分析后發(fā)現(xiàn),上述基因主要涉及卵母細胞減數(shù)分裂、細胞周期調控、癌癥通路等信號通路。結論m RMR-NBC適用于處理高維小樣本數(shù)據(jù)的分類問題;能在僅有極少屬性參與分類時,得到較高的分類準確率,優(yōu)于隨機森林、極限學習機等方法;能較為準確地篩選腫瘤相關基因,這將有助于了解基因在腫瘤發(fā)生發(fā)展中的作用,推動精準醫(yī)學與個性化治療的發(fā)展。
[Abstract]:Objective To study the development mechanism of tumor by using gene expression profiling data , which is helpful to the diagnosis and treatment of tumor . In this paper , the classification accuracy rate of random forests is 90.32 % and 97.26 % , respectively , and the classification accuracy rate of random forests is 80.98 % and 77.62 % , respectively .
【學位授予單位】:重慶醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:R730.2

【參考文獻】

相關期刊論文 前10條

1 趙發(fā)林;張濤;李康;;基于遺傳算法的隨機森林模型在特征基因篩選中的應用[J];中國衛(wèi)生統(tǒng)計;2016年04期

2 翟俊海;張素芳;胡文祥;王熙照;;核心集徑向基函數(shù)極限學習機[J];山東大學學報(工學版);2016年02期

3 何淑琳;張雪英;孫穎;張衛(wèi);;基于極限學習機的語音情感識別[J];微電子學與計算機;2015年07期

4 袁聯(lián)雄;佘玲玲;林愛華;駱福添;;常用分類算法在不同樣本量和類分布的不平衡數(shù)據(jù)中的分類效果比較[J];中國醫(yī)院統(tǒng)計;2015年01期

5 亓慧;王文劍;郭虎升;;一種基于特征選擇的SVM Bagging集成方法[J];小型微型計算機系統(tǒng);2014年11期

6 王志凱;朱麗娟;竇震;姚雪彪;;紡錘體組裝檢驗點:染色體穩(wěn)定性的守護神[J];中國細胞生物學學報;2014年09期

7 高相銘;劉付斌;楊世鳳;;基于極限學習機的供水管網(wǎng)故障智能診斷方法[J];計算機工程與設計;2013年08期

8 吳登國;李曉明;;基于極限學習機的配電網(wǎng)重構[J];電力自動化設備;2013年02期

9 楊玉花;魏曉莉;鄭建全;;脂氧合酶代謝與肺癌研究進展[J];國際藥學研究雜志;2012年06期

10 于彬;張巖;;基于GA-SVM方法的結腸癌基因表達譜數(shù)據(jù)分析[J];青島科技大學學報(自然科學版);2012年06期

相關博士學位論文 前1條

1 王明怡;微陣列數(shù)據(jù)挖掘技術的研究[D];浙江大學;2004年

相關碩士學位論文 前4條

1 葉倩怡;基于Xgboost方法的實體零售業(yè)銷售額預測研究[D];南昌大學;2016年

2 樊鵬;基于優(yōu)化的xgboost-LMT模型的供應商信用評價研究[D];廣東工業(yè)大學;2016年

3 劉孝良;基于半監(jiān)督學習的隨機森林算法研究與應用[D];中國海洋大學;2013年

4 劉利平;基因模式的PICA獲取及基于Boosting的模式分類[D];西安電子科技大學;2004年

,

本文編號:2109579

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/zlx/2109579.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5f65a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com