天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究

發(fā)布時(shí)間:2017-12-28 11:36

  本文關(guān)鍵詞:面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究 出處:《哈爾濱工程大學(xué)》2016年博士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 醫(yī)學(xué)數(shù)據(jù)挖掘 特征選擇 微陣列表達(dá)數(shù)據(jù)分析 隨機(jī)森林 支持向量機(jī)


【摘要】:醫(yī)學(xué)數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的重要研究方向,多年來(lái)始終是計(jì)算機(jī)科學(xué)和醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn)。近年來(lái),醫(yī)學(xué)數(shù)據(jù)挖掘?qū)ο笳饾u由臨床診斷數(shù)據(jù)轉(zhuǎn)變到基因芯片數(shù)據(jù)。目前,許多優(yōu)秀的數(shù)據(jù)挖掘算法被應(yīng)用于各種醫(yī)學(xué)研究工作中,如決策樹(shù)、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等。然而,醫(yī)學(xué)數(shù)據(jù)所固有的高維特征空間、高度特征冗余、特征高度相關(guān)、樣本類別不平衡等特點(diǎn)以及醫(yī)學(xué)研究對(duì)于數(shù)據(jù)挖掘結(jié)果的可理解性要求,使得傳統(tǒng)的數(shù)據(jù)挖掘算法難以直接應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘任務(wù)中。隨機(jī)森林算法是一種基于決策樹(shù)的集成機(jī)器學(xué)習(xí)算法。一方面,隨機(jī)森林因?yàn)榫哂蟹诸惥雀、運(yùn)算速度快、能夠從具有小邊際效應(yīng)和復(fù)雜相互作用的特征中識(shí)別主相關(guān)特征的優(yōu)點(diǎn),在醫(yī)學(xué)數(shù)據(jù)分析中得到廣泛應(yīng)用;另一方面,有研究表明隨機(jī)森林在類別不平衡數(shù)據(jù)集和高維數(shù)據(jù)集上,其分類能力和穩(wěn)定性會(huì)受到削弱。針對(duì)醫(yī)學(xué)數(shù)據(jù)集的特征高維性、冗余性、相關(guān)性以及樣本類別不平衡等問(wèn)題,本文以UCI標(biāo)準(zhǔn)數(shù)據(jù)集、糖尿病臨床診斷數(shù)據(jù)集和基因芯片數(shù)據(jù)集為對(duì)象,研究了基于隨機(jī)森林的特征選擇和數(shù)據(jù)分類方法,主要開(kāi)展了以下幾個(gè)方面的工作。首先,針對(duì)醫(yī)學(xué)數(shù)據(jù)集的樣本類別不平衡問(wèn)題,提出了一種基于有放回地隨機(jī)重采樣技術(shù)和集成機(jī)器學(xué)習(xí)思想的隨機(jī)森林改進(jìn)算法。該算法首先從原始訓(xùn)練數(shù)據(jù)集中利用有放回地隨機(jī)重采樣技術(shù)構(gòu)建樣本類別平衡的數(shù)據(jù)集,然后在每一個(gè)采樣數(shù)據(jù)集上訓(xùn)練隨機(jī)森林分類器,最后所有采樣數(shù)據(jù)集上生成的隨機(jī)森林分類器通過(guò)多數(shù)投票方式確定未知樣本的分類類別。在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于隨機(jī)降采樣和基于代價(jià)敏感的方法相比,本文提出的算法能夠有效提高分類器的分類性能尤其是少數(shù)類樣本的查全率。其次,針對(duì)醫(yī)學(xué)臨床數(shù)據(jù)集的高維特征空間和特征間高度相關(guān)問(wèn)題,提出了一種基于隨機(jī)森林的Filter式特征選擇算法。該算法首先基于隨機(jī)森林變量重要性分?jǐn)?shù)對(duì)數(shù)據(jù)集中的特征進(jìn)行排序,然后通過(guò)迭代實(shí)驗(yàn)確定特征選擇的閾值,選取重要性分?jǐn)?shù)最大的前若干個(gè)特征構(gòu)成特征子集,最后在選出的特征子集上訓(xùn)練分類器。在UCI數(shù)據(jù)集和糖尿病臨床數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于隨機(jī)森林變量重要性分?jǐn)?shù)的算法的分類性能明顯高于現(xiàn)有的基于特征子集區(qū)分度和特征相關(guān)性等度量的算法。再次,針對(duì)醫(yī)學(xué)數(shù)據(jù)集特征之間高度相關(guān)和高度冗余的問(wèn)題,提出了一種基于隨機(jī)森林和序列聯(lián)合搜索策略的Wrapper式特征選擇算法。該算法利用隨機(jī)森林善于從具有小邊際效應(yīng)和復(fù)雜相互作用的特征中識(shí)別主相關(guān)特征的能力,以隨機(jī)森林變量重要性分?jǐn)?shù)作為特征重要性度量,采用序列后向和序列前向相結(jié)合的序列聯(lián)合特征搜索策略選擇特征子集,以特征子集上分類器的分類正確率評(píng)價(jià)特征子集的質(zhì)量,最后選擇分類正確率最高的特征子集作為最優(yōu)特征子集。在UCI數(shù)據(jù)集、糖尿病臨床數(shù)據(jù)集和微陣列表達(dá)數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,本文提出的算法的分類正確率和特征子集質(zhì)量均優(yōu)于基于過(guò)濾式的方法和基于其它度量的方法。最后,針對(duì)微陣列表達(dá)數(shù)據(jù)集存在大量不相關(guān)特征、噪聲特征和冗余特征的問(wèn)題,提出了一種基于Filter和Wrapper相結(jié)合的隨機(jī)森林特征選擇算法。該算法首先采用Filter特征選擇算法過(guò)濾掉與目標(biāo)變量明顯不相關(guān)的基因,然后采用基于隨機(jī)森林的Wrapper特征選擇算法選擇最優(yōu)特征子集。在Wrapper特征選擇過(guò)程中,針對(duì)微陣列表達(dá)數(shù)據(jù)的特點(diǎn),基于隨機(jī)森林變量重要性分?jǐn)?shù),提出了序列前向特征選擇和序列后向特征選擇相結(jié)合、分層剔除冗余特征和不相關(guān)特征的特征搜索策略。在微陣列表達(dá)數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,本文提出的算法在分類正確率上優(yōu)于現(xiàn)有的算法。
[Abstract]:Medical data mining is an important research direction of data mining technology. For many years, it has always been a hot topic in the field of computer science and medicine. In recent years, medical data mining objects are gradually changing from clinical diagnostic data to gene chip data. At present, many excellent data mining algorithms have been applied to various medical research work, such as decision tree, support vector machine and artificial neural network. However, the high dimensional feature space, the inherent characteristics of medical data highly redundancy, highly relevant features, sample class imbalance and the characteristics of medical research data mining results for the understanding of the requirements, traditional data mining algorithms cannot be applied directly to the medical data mining tasks. Random forest algorithm (random forest algorithm) is an integrated machine learning algorithm based on decision tree. On the one hand, because the random forest has the advantages of high classification accuracy, fast calculation speed and can identify the main related feature from having small marginal effect and complex interactions in the widely used in medical data analysis; on the other hand, studies have shown that random forests in the categories of imbalanced data sets and high-dimensional data sets on the classification ability and stability will be weakened. In order to solve the problem of medical data sets of features of high dimension and redundancy, and the correlation between the sample class imbalance, based on the UCI standard data sets, diabetes clinical diagnosis data sets and microarray data sets on the feature selection and data classification method based on random forest, mainly carried out the following work. First, aiming at the problem of sample class imbalance in medical datasets, a random forest improvement algorithm based on random resampling technology and integrated machine learning idea is proposed. Firstly, from the original training data set using back random resampling technique to construct samples balanced data set, and then train the random forest classifier at each sampling data set, finally all the random forest classifier to generate the data set by the number of votes to determine the classification of unknown samples. Experimental results on UCI dataset show that compared with traditional random sampling and cost sensitive methods, the algorithm proposed in this paper can effectively improve the classification performance of classifiers, especially the recall of minority samples. Secondly, aiming at the problem of high dimensional feature space and high correlation among features of medical clinical dataset, a Filter based feature selection algorithm based on random forest is proposed. The algorithm based on the sort of feature data set of the random forest variable importance scores, then feature selection is determined by iterative threshold selection before the experiment, several important features constitute the largest fraction feature subset, finally in the feature subset of the training classifier. Experimental results on UCI dataset and diabetes clinical dataset show that the classification performance based on the importance score of random forest variables is significantly higher than that of existing algorithms based on feature subset subarea and feature correlation. Thirdly, aiming at the problem of highly correlated and highly redundant features among medical datasets, a Wrapper feature selection algorithm based on random forest and sequential search strategy is proposed. This algorithm uses the random forest good ability for identifying the main related feature from having small marginal effect and complex interactions in the random forest variable importance scores as feature importance measurement, using sequence to the United feature sequence search and sequence prior to the combination of search strategy feature subset selection, quality classification feature subset classifier the rate of correct evaluation of feature subsets, the final choice of the correct rate of classification feature subset with the highest as the best subset of features. Simulation experiments on UCI dataset, diabetes clinical dataset and microarray dataset show that the classification accuracy and subset quality of the proposed algorithm are better than those based on filtering method and other metric methods. Finally, aiming at the problem that there are many unrelated features, noise characteristics and redundant features in the dataset of microarray, a random forest feature selection algorithm based on Filter and Wrapper is proposed. The algorithm uses the Filter feature selection algorithm to filter out was not associated with the target variable genes, then using Wrapper feature selection algorithm to select the most random forest based on feature subset. In the process of Wrapper feature selection, aiming at the characteristics of microarray list data, based on the importance score of random forest variables, we propose a feature search strategy combining sequential forward feature selection and sequential backward feature selection, delamination redundant features and irrelevant features hierarchically. The simulation experiments on the data set of the microarray list show that the proposed algorithm is better than the existing algorithm in the classification accuracy.
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李建更;高志坤;;隨機(jī)森林:一種重要的腫瘤特征基因選擇法[J];生物物理學(xué)報(bào);2009年01期

2 劉足華;熊惠霖;;基于隨機(jī)森林的目標(biāo)檢測(cè)與定位[J];計(jì)算機(jī)工程;2012年13期

3 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期

4 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期

5 陳姝;彭小寧;;基于粒子濾波和在線隨機(jī)森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

6 羅知林;陳挺;蔡皖東;;一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J];計(jì)算機(jī)科學(xué);2014年04期

7 王麗婷;丁曉青;方馳;;基于隨機(jī)森林的人臉關(guān)鍵點(diǎn)精確定位方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

8 李建更;高志坤;;隨機(jī)森林針對(duì)小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期

9 張建;武東英;劉慧生;;基于隨機(jī)森林的流量分類方法[J];信息工程大學(xué)學(xué)報(bào);2012年05期

10 吳華芹;;基于訓(xùn)練集劃分的隨機(jī)森林算法[J];科技通報(bào);2013年10期

相關(guān)會(huì)議論文 前10條

1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年

3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年

4 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年

6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年

7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹(shù)的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年

8 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

9 李長(zhǎng)升;盧漢清;;排序?qū)W習(xí)模型中的特征選擇[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

10 劉功申;李建華;李生紅;;基于類信息的特征選擇和加權(quán)方法[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)博士學(xué)位論文 前10條

1 姚登舉;面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D];哈爾濱工程大學(xué);2016年

2 張乾;基于隨機(jī)森林的視覺(jué)數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年

3 薛小明;基于時(shí)頻分析與特征約簡(jiǎn)的水電機(jī)組故障診斷方法研究[D];華中科技大學(xué);2016年

4 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年

5 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年

6 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年

7 李靜;高維數(shù)據(jù)交互特征選擇和分類研究[D];燕山大學(xué);2015年

8 劉風(fēng);基于磁共振成像的多變量模式分析方法學(xué)與應(yīng)用研究[D];電子科技大學(xué);2014年

9 王石平;粗糙擬陣及其在高維數(shù)據(jù)降維中的應(yīng)用研究[D];電子科技大學(xué);2014年

10 代琨;基于支持向量機(jī)的網(wǎng)絡(luò)數(shù)據(jù)特征選擇技術(shù)研究[D];解放軍信息工程大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年

2 韓燕龍;基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年

3 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年

4 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年

5 李強(qiáng);基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)[D];南京理工大學(xué);2015年

6 朱玟謙;一種收斂性隨機(jī)森林在人臉檢測(cè)中的應(yīng)用研究[D];武漢理工大學(xué);2015年

7 肖宇;基于序列圖像的手勢(shì)檢測(cè)與識(shí)別算法研究[D];電子科技大學(xué);2014年

8 李慧;一種改進(jìn)的隨機(jī)森林并行分類方法在運(yùn)營(yíng)商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年

9 趙亞紅;面向多類標(biāo)分類的隨機(jī)森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年

10 黎成;基于隨機(jī)森林和ReliefF的致病SNP識(shí)別方法[D];西安電子科技大學(xué);2014年

,

本文編號(hào):1345836

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1345836.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4b830***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com