互信息去冗余與多種分類模型結合的癌癥分類問題研究
發(fā)布時間:2021-10-29 00:26
隨著癌癥發(fā)病率的提高以及癌癥的高死亡率,越來越多的研究者開始將關注點放在癌癥分類問題上。傳統(tǒng)的癌癥分類問題主要是基于形態(tài)學之上,主要依賴于經驗,診斷準確性不高;蛐酒夹g的出現(xiàn)使得大量的基因表達數(shù)據(jù)被測定,這使得從基因的層面對癌癥進行早期的診斷成為了可能。然而基因表達數(shù)據(jù)具有樣本少、維度高、數(shù)據(jù)分布不平衡等特點,如何對這些數(shù)據(jù)進行有效的預處理、通過特征選擇達到降維的目的、建立分類精度高的癌癥分類模型引起了廣大學者的關注。在癌癥分類問題中,本文首次提出互信息去冗與多種分類模型結合的分類方法。首先利用欠采樣的方法對數(shù)據(jù)進行預處理,從而防止樣本不平衡所帶來的數(shù)據(jù)碎片問題和不恰當?shù)臍w納偏置問題;然后通過信息增益的方法進行特征基因的選擇,從而降低數(shù)據(jù)維度,去除無關的特征所帶來的干擾和對性能的影響;進而使用互信息的方法進行冗余基因的去除;最后使用最終的特征基因集合用于癌癥分類模型的構建。本文將互信息去冗與多種分類模型結合的分類方法應用在基因表達譜類型數(shù)據(jù)的分類問題中,通過實驗和對比研究探索數(shù)據(jù)預處理、特征基因的選擇、冗余基因的去除、分類模型的構建。對KentRidge數(shù)據(jù)集和TCGA乳腺癌數(shù)據(jù)集...
【文章來源】:湖南大學湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 DNA微陣列技術
1.2.1 DNA微陣列技術原理
1.2.2 基因表達數(shù)據(jù)特點
1.3 國內外研究現(xiàn)狀
1.3.1 數(shù)據(jù)集的選擇
1.3.2 數(shù)據(jù)預處理
1.3.3 分類器的設計
1.3.4 特征選擇
1.4 研究內容
1.5 章節(jié)安排
第2章 癌癥分類問題概述
2.1 特征選擇
2.1.1 特征選擇的定義
2.1.2 特征選擇的方法及分類
2.2 信息增益與互信息
2.3 最近鄰算法
2.4 支持向量機
2.5 集成方法
2.6 貝葉斯分類器
2.7 本章小結
第3章 數(shù)據(jù)預處理和特征基因選擇
3.1 數(shù)據(jù)預處理
3.2 特征基因選擇方法
3.2.1 信息熵
3.2.2 信息增益
3.3 冗余基因剔除方法
3.3.1 互信息
3.4 LSSVM預測模型
3.5 本章小結
第4章 互信息去冗余與多種模型結合的分類模型構建
4.1 預測方法框架
4.2 數(shù)據(jù)預處理
4.3 特征基因選擇
4.4 冗余基因去除
4.5 分類模型的構建
4.5.1 最近鄰算法
4.5.2 支持向量機
4.6 本章小結
第5章 實驗研究與優(yōu)化
5.1 實驗
5.1.1 Anaconda介紹
5.1.2 實驗環(huán)境
5.2 實驗概況
5.2.1 數(shù)據(jù)集介紹
5.2.2 模型參數(shù)設置
5.2.3 分類性能評價指標
5.3 案例1:不同特征選擇方法與LSSVM組合實驗
5.4 案例2:不同特征選擇方法與多種分類器結合對比實驗
5.5 案例3:TCGA數(shù)據(jù)集對比實驗
5.6 案例4:與以往研究對比實驗
5.7 本章小結
結論
參考文獻
附錄A 攻讀學位期間所發(fā)表的學術論文
附錄B 攻讀學位期間參與的科研項目
致謝
【參考文獻】:
期刊論文
[1]癌癥基因表達數(shù)據(jù)的集成分類器設計與分析[J]. 宋年豐. 無線互聯(lián)科技. 2016(07)
[2]改進的多類支持向量機遞歸特征消除在癌癥多分類中的應用[J]. 黃曉娟,張莉. 計算機應用. 2015(10)
[3]基于過采樣技術和隨機森林的不平衡微陣列數(shù)據(jù)分類方法研究[J]. 于化龍,高尚,趙靖,秦斌. 計算機科學. 2012(05)
[4]基于DNA微陣列數(shù)據(jù)的癌癥分類問題研究進展[J]. 于化龍,顧國昌,趙靖,劉海波,沈晶. 計算機科學. 2010(10)
[5]腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J]. 王樹林,王戟,陳火旺,李樹濤,張波云. 計算機學報. 2008(04)
[6]基于支持向量機的腫瘤分類特征基因選取[J]. 李穎新,阮曉鋼. 計算機研究與發(fā)展. 2005(10)
碩士論文
[1]基于信息熵的改進k-TSP方法及其在癌癥分類中的應用[D]. 周純葆.吉林大學 2009
本文編號:3463605
【文章來源】:湖南大學湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 DNA微陣列技術
1.2.1 DNA微陣列技術原理
1.2.2 基因表達數(shù)據(jù)特點
1.3 國內外研究現(xiàn)狀
1.3.1 數(shù)據(jù)集的選擇
1.3.2 數(shù)據(jù)預處理
1.3.3 分類器的設計
1.3.4 特征選擇
1.4 研究內容
1.5 章節(jié)安排
第2章 癌癥分類問題概述
2.1 特征選擇
2.1.1 特征選擇的定義
2.1.2 特征選擇的方法及分類
2.2 信息增益與互信息
2.3 最近鄰算法
2.4 支持向量機
2.5 集成方法
2.6 貝葉斯分類器
2.7 本章小結
第3章 數(shù)據(jù)預處理和特征基因選擇
3.1 數(shù)據(jù)預處理
3.2 特征基因選擇方法
3.2.1 信息熵
3.2.2 信息增益
3.3 冗余基因剔除方法
3.3.1 互信息
3.4 LSSVM預測模型
3.5 本章小結
第4章 互信息去冗余與多種模型結合的分類模型構建
4.1 預測方法框架
4.2 數(shù)據(jù)預處理
4.3 特征基因選擇
4.4 冗余基因去除
4.5 分類模型的構建
4.5.1 最近鄰算法
4.5.2 支持向量機
4.6 本章小結
第5章 實驗研究與優(yōu)化
5.1 實驗
5.1.1 Anaconda介紹
5.1.2 實驗環(huán)境
5.2 實驗概況
5.2.1 數(shù)據(jù)集介紹
5.2.2 模型參數(shù)設置
5.2.3 分類性能評價指標
5.3 案例1:不同特征選擇方法與LSSVM組合實驗
5.4 案例2:不同特征選擇方法與多種分類器結合對比實驗
5.5 案例3:TCGA數(shù)據(jù)集對比實驗
5.6 案例4:與以往研究對比實驗
5.7 本章小結
結論
參考文獻
附錄A 攻讀學位期間所發(fā)表的學術論文
附錄B 攻讀學位期間參與的科研項目
致謝
【參考文獻】:
期刊論文
[1]癌癥基因表達數(shù)據(jù)的集成分類器設計與分析[J]. 宋年豐. 無線互聯(lián)科技. 2016(07)
[2]改進的多類支持向量機遞歸特征消除在癌癥多分類中的應用[J]. 黃曉娟,張莉. 計算機應用. 2015(10)
[3]基于過采樣技術和隨機森林的不平衡微陣列數(shù)據(jù)分類方法研究[J]. 于化龍,高尚,趙靖,秦斌. 計算機科學. 2012(05)
[4]基于DNA微陣列數(shù)據(jù)的癌癥分類問題研究進展[J]. 于化龍,顧國昌,趙靖,劉海波,沈晶. 計算機科學. 2010(10)
[5]腫瘤信息基因啟發(fā)式寬度優(yōu)先搜索算法研究[J]. 王樹林,王戟,陳火旺,李樹濤,張波云. 計算機學報. 2008(04)
[6]基于支持向量機的腫瘤分類特征基因選取[J]. 李穎新,阮曉鋼. 計算機研究與發(fā)展. 2005(10)
碩士論文
[1]基于信息熵的改進k-TSP方法及其在癌癥分類中的應用[D]. 周純葆.吉林大學 2009
本文編號:3463605
本文鏈接:http://sikaile.net/yixuelunwen/zlx/3463605.html
最近更新
教材專著