基于混合特征選擇算法的腫瘤基因表達(dá)譜數(shù)據(jù)分析
發(fā)布時間:2023-05-30 20:11
隨著人類基因組計劃的實施和不斷深入,產(chǎn)生了海量的生物數(shù)據(jù),同時促使了DNA芯片技術(shù)的出現(xiàn)。腫瘤基因表達(dá)譜數(shù)據(jù)作為DNA芯片技術(shù)的一個產(chǎn)物,是人們研究腫瘤的良好數(shù)據(jù)來源。而腫瘤基因表達(dá)譜數(shù)據(jù)具有小樣本、高維數(shù)、高噪聲和高冗余的特點,容易導(dǎo)致“維數(shù)災(zāi)難”和“過擬合”現(xiàn)象的出現(xiàn),這給數(shù)據(jù)處理帶來了極大的挑戰(zhàn)。從原始的特征集中選出最優(yōu)特征子集的技術(shù)(即特征選擇)是解決這一挑戰(zhàn)的有效途徑。但是常規(guī)的特征選擇算法已遠(yuǎn)遠(yuǎn)不能滿足需要,因此,更為高效的特征選擇算法顯得尤為重要。最大相關(guān)最小冗余(mRMR)算法的目的是在原始特征集合中找出與類別最相關(guān),而特征間具有最小冗余的特征子集,它是常被用于處理腫瘤基因表達(dá)譜數(shù)據(jù)的特征選擇算法之一。但是,當(dāng)給定的特征集維數(shù)較大時,該算法計算起來比較耗時。針對這一缺陷,本文提出改進(jìn)的mRMR算法,即mRMR-ChiMIC算法。該算法是將mRMR算法中度量相關(guān)性和冗余性的互信息(MI)用最大信息系數(shù)(MIC)來代替。目前特征選擇算法的分類較多,每類算法也都有各自的優(yōu)缺點。mRMR-ChiMIC算法作為典型的過濾型算法,同大多數(shù)過濾法一樣往往不能自動確定最優(yōu)特征子集的大小...
【文章頁數(shù)】:36 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究的主要內(nèi)容
1.4 論文章節(jié)安排
第二章 理論基礎(chǔ)
2.1 互信息的相關(guān)理論
2.2 基因表達(dá)譜數(shù)據(jù)簡介
2.3 特征選擇
2.4 腫瘤分類算法
2.4.1 支持向量機
2.4.2 K近鄰分類器
2.5 本章小結(jié)
第三章 腫瘤基因表達(dá)譜數(shù)據(jù)分析
3.1 基于mRMR的特征選擇算法
3.1.1 mRMR算法
3.1.2 改進(jìn)的mRMR特征選擇算法
3.2 Boruta算法
3.3 混合特征選擇算法
3.4 實驗與分析
3.4.1 實驗數(shù)據(jù)集
3.4.2 實驗參數(shù)設(shè)置
3.4.3 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 結(jié)論與展望
參考文獻(xiàn)
致謝
本文編號:3824957
【文章頁數(shù)】:36 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究的主要內(nèi)容
1.4 論文章節(jié)安排
第二章 理論基礎(chǔ)
2.1 互信息的相關(guān)理論
2.2 基因表達(dá)譜數(shù)據(jù)簡介
2.3 特征選擇
2.4 腫瘤分類算法
2.4.1 支持向量機
2.4.2 K近鄰分類器
2.5 本章小結(jié)
第三章 腫瘤基因表達(dá)譜數(shù)據(jù)分析
3.1 基于mRMR的特征選擇算法
3.1.1 mRMR算法
3.1.2 改進(jìn)的mRMR特征選擇算法
3.2 Boruta算法
3.3 混合特征選擇算法
3.4 實驗與分析
3.4.1 實驗數(shù)據(jù)集
3.4.2 實驗參數(shù)設(shè)置
3.4.3 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 結(jié)論與展望
參考文獻(xiàn)
致謝
本文編號:3824957
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3824957.html
最近更新
教材專著