改進(jìn)隨機(jī)森林的集成分類方法預(yù)測(cè)結(jié)直腸癌存活性
本文選題:隨機(jī)森林 + 遺傳算法 ; 參考:《管理科學(xué)》2017年01期
【摘要】:癌癥是人類死亡的主要原因之一,許多國(guó)家在癌癥方面的支出占醫(yī)療總支出的很大比例。癌癥存活性預(yù)測(cè)作為癌癥預(yù)后的一項(xiàng)重要工作,可以輔助醫(yī)生做出更精準(zhǔn)的診療決策,進(jìn)而降低癌癥治療成本。近年來(lái),基于數(shù)據(jù)驅(qū)動(dòng)的癌癥存活性預(yù)測(cè)方法逐漸得到應(yīng)用,而預(yù)測(cè)的準(zhǔn)確性是評(píng)價(jià)預(yù)測(cè)方法性能的主要指標(biāo),因此提高癌癥存活性預(yù)測(cè)方法的準(zhǔn)確性一直是一個(gè)活躍的研究領(lǐng)域。結(jié)直腸癌是一種具有高發(fā)病率和高死亡率的癌癥,為了提高結(jié)直腸癌存活性預(yù)測(cè)的準(zhǔn)確性,利用遺傳算法對(duì)隨機(jī)森林進(jìn)行改進(jìn),提出基于GA-RF的集成分類方法。該方法通過(guò)遺傳算法對(duì)隨機(jī)森林中的決策樹實(shí)行進(jìn)化搜索,以提高集成分類準(zhǔn)確率為目標(biāo)選出決策樹的滿意集成。實(shí)驗(yàn)分別使用基于GA-RF的集成分類方法、決策樹和參數(shù)優(yōu)化的隨機(jī)森林訓(xùn)練預(yù)測(cè)模型預(yù)測(cè)結(jié)直腸癌患者的存活性,利用SEER數(shù)據(jù)庫(kù)的結(jié)直腸癌數(shù)據(jù)集對(duì)3種方法分別進(jìn)行10折交叉驗(yàn)證,然后用準(zhǔn)確性、敏感性和特異性3個(gè)指標(biāo)對(duì)它們進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示,基于GA-RF的集成分類方法的預(yù)測(cè)精度最高(88.2%),參數(shù)優(yōu)化的隨機(jī)森林的預(yù)測(cè)精度次之(86.4%),但集成復(fù)雜度遠(yuǎn)高于基于GA-RF的集成分類方法,決策樹的預(yù)測(cè)精度最差(74.2%),而基于GA-RF的集成分類方法還表現(xiàn)出了最好的泛化性能。該集成分類方法對(duì)隨機(jī)森林進(jìn)行了有效的改進(jìn),能以更高的運(yùn)算效率和更好的準(zhǔn)確性預(yù)測(cè)結(jié)直腸癌存活性,可以為結(jié)直腸癌的預(yù)后提供決策參考,彌補(bǔ)經(jīng)驗(yàn)預(yù)測(cè)的不足,該方法的提出對(duì)節(jié)約醫(yī)療資源、降低醫(yī)療成本、提高患者滿意度具有實(shí)際意義。
[Abstract]:Cancer is one of the leading causes of human death, and many countries spend a large proportion of total medical expenditure on cancer. As an important work of cancer prognosis, cancer survivability prediction can help doctors to make more accurate diagnosis and treatment decisions, thus reducing the cost of cancer treatment. In recent years, the data-driven cancer survivability prediction method has been gradually applied, and the accuracy of prediction is the main index to evaluate the performance of the prediction method. Therefore, improving the accuracy of cancer survivability prediction methods has been an active research field. Colorectal cancer is a kind of cancer with high morbidity and high mortality. In order to improve the accuracy of predicting the survivability of colorectal cancer, the genetic algorithm is used to improve the stochastic forest, and an integrated classification method based on GA-RF is proposed. In this method, the decision tree in random forest is searched by genetic algorithm. The goal of this method is to improve the accuracy of classification and select the decision tree for satisfactory ensemble. The survival of colorectal cancer patients was predicted by an integrated classification method based on GA-RF, a decision tree and a stochastic forest training prediction model with optimized parameters. The data sets of SEER database were used to carry out 10% cross-validation of the three methods, and then the accuracy, sensitivity and specificity of the three methods were evaluated. The experimental results show that the prediction accuracy of the integrated classification method based on GA-RF is the highest, that of the stochastic forest with optimized parameters is 86.4%, but the integration complexity is much higher than that of the integrated classification method based on GA-RF. The prediction accuracy of decision tree is the worst 74.2%, and the integrated classification method based on GA-RF also shows the best generalization performance. The integrated classification method can effectively improve the stochastic forest, which can predict the survival of colorectal cancer with higher computational efficiency and better accuracy. It can provide a decision reference for the prognosis of colorectal cancer and make up for the deficiency of empirical prediction. This method has practical significance for saving medical resources, reducing medical cost and improving patients' satisfaction.
【作者單位】: 大連理工大學(xué)管理與經(jīng)濟(jì)學(xué)部;英國(guó)薩里大學(xué)計(jì)算機(jī)系;
【基金】:國(guó)家自然科學(xué)基金(71533001) 中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(DUT15QY32)~~
【分類號(hào)】:R735.34
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 錢維;王超;吳騁;許金芳;葉小飛;杜文民;賀佳;;運(yùn)用隨機(jī)森林分析藥品不良反應(yīng)發(fā)生的影響因素[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2013年02期
2 武曉巖;李康;;隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2009年04期
3 李貞子;張濤;武曉巖;李康;;隨機(jī)森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2012年02期
4 劉永春;宋弘;;基于隨機(jī)森林的乳腺腫瘤診斷研究[J];電視技術(shù);2014年15期
5 聶斌;王卓;杜建強(qiáng);朱明峰;林劍鳴;艾國(guó)平;熊玲珠;;基于粗糙集和隨機(jī)森林算法輔助糖尿病并發(fā)癥分類研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
6 武曉巖;李康;;基因表達(dá)數(shù)據(jù)判別分析的隨機(jī)森林方法[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2006年06期
7 武曉巖;閆曉光;李康;;基因表達(dá)數(shù)據(jù)的隨機(jī)森林逐步判別分析方法[J];中國(guó)衛(wèi)生統(tǒng)計(jì);2007年02期
8 馬廣立;趙筱萍;程翼宇;;基于隨機(jī)森林與Chemistry Development Kit描述符的P-gp底物識(shí)別[J];高等學(xué)校化學(xué)學(xué)報(bào);2007年10期
9 苑婕;李曉杰;陳超;宋向崗;王淑美;;基于隨機(jī)森林算法的川芎成分-靶點(diǎn)-疾病網(wǎng)絡(luò)的預(yù)測(cè)研究[J];中國(guó)中藥雜志;2014年12期
10 ;[J];;年期
相關(guān)會(huì)議論文 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
相關(guān)博士學(xué)位論文 前4條
1 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年
2 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
3 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
4 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年
5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D];西安電子科技大學(xué);2014年
,本文編號(hào):1929187
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1929187.html