改進決策樹算法在腫瘤數(shù)據(jù)中的應用
發(fā)布時間:2017-09-10 18:08
本文關鍵詞:改進決策樹算法在腫瘤數(shù)據(jù)中的應用
【摘要】:于1990年正式啟動的人類基因組計劃到2003年美國人類基因組項目負責人Francis S.Collins博士宣布人類基因組序列圖制作成功,人類基因組所有研究目標全部完成,從此生物信息學步入了后基因組時代,在這過去的20年里獲得的大量基因表達數(shù)據(jù)呈爆炸性趨勢增長,而且基因數(shù)據(jù)又具有高維度,低樣本的特性,使得在海量基因數(shù)據(jù)中尋找關于疾病的基因成為挑戰(zhàn),這就決定了特征選擇在生物信息學中的非凡意義。本文主要研究對二叉決策樹進行改進的算法,提出一種全新的二叉決策樹分類算法,具體如下:結合決策樹的ID3(Iterative Di-chotomiser)、C4.5和CART(Classification and Regression Trees)算法,提出改進的二叉決策樹分類算法(Improved Binary Decision Tree Classification Algorithm,IBDTCA)。并且為數(shù)據(jù)實驗結果更加準確,我們還對決策樹進行了剪枝,提出剪枝二叉決策樹分類算法(Pruning a Binary Decision Tree Classification Algorithm,PBDTCA)。
【關鍵詞】:生物信息學 特征選擇 決策樹分類算法
【學位授予單位】:東北師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:R73-3;O225
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-14
- 1.1 研究背景及目的8-9
- 1.1.1 生物信息學與人類基因組計劃8
- 1.1.2 研究目的8-9
- 1.2 特征選擇9-13
- 1.2.1 特征選擇的定義9
- 1.2.2 特征選擇的目的9-10
- 1.2.3 特征選擇的研究現(xiàn)狀10
- 1.2.4 特征選擇的方法10-13
- 1.3 論文的主要工作及意義13-14
- 1.3.1 論文的主要研究工作13
- 1.3.2 論文的理論意義與現(xiàn)實意義13-14
- 第二章 分類算法概述14-20
- 2.1 決策樹分類算法14-17
- 2.1.1 ID3 算法15-17
- 2.2 K-鄰近算法17
- 2.3 支持向量機17-18
- 2.4 Fisher線性判別分析方法18-19
- 2.5 本章小結19-20
- 第三章 改進決策樹算法20-26
- 3.1 改進二叉決策樹分類算法的概念20-21
- 3.1.1 信息增益20-21
- 3.1.2 增益率21
- 3.1.3 Gini索引21
- 3.2 改進的二叉決策樹分類算法21-22
- 3.3 修剪決策樹22-24
- 3.3.1 經(jīng)驗風險23
- 3.3.2 后修剪二叉決策算法23-24
- 3.4 決策樹的基因選擇24-25
- 3.5 本章小結25-26
- 第四章 實驗結果與分析26-35
- 4.1 實驗數(shù)據(jù)介紹26
- 4.2 數(shù)據(jù)處理26-27
- 4.2.1 空缺數(shù)據(jù)處理26-27
- 4.2.2 數(shù)據(jù)規(guī)范預處理27
- 4.3 數(shù)據(jù)實驗27-31
- 4.3.1 選擇基因27-30
- 4.3.2 基因選擇的分類準確率30-31
- 4.4 實驗結果對比31-33
- 4.5 討論33
- 4.6 本章小結33-35
- 第五章 總結與展望35-36
- 5.1 總結35
- 5.2 展望35-36
- 參考文獻36-39
- 致謝39
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 張麗新,王家^,
本文編號:825819
本文鏈接:http://sikaile.net/kejilunwen/yysx/825819.html
最近更新
教材專著