面向基因表達(dá)譜數(shù)據(jù)分類的特征選擇方法研究
發(fā)布時間:2021-08-27 04:27
基因表達(dá)譜是大量基因表達(dá)水平信息的集合。研究表明,癌癥的發(fā)生在分子水平上通常表現(xiàn)為基因表達(dá)水平的改變。因此,利用基因表達(dá)譜來判別出與癌癥密切相關(guān)的少量基因,對癌癥的診斷和治療具有重要意義。而基因表達(dá)譜數(shù)據(jù)通常具有維度高樣本量低的特點,這給傳統(tǒng)機器學(xué)習(xí)方法帶來了挑戰(zhàn)。在判別少量致病基因之前,需要從成千上萬基因中去除大量無關(guān)基因,其中特征選擇是一種有效手段。本文以多個公共的基因表達(dá)譜數(shù)據(jù)集為基礎(chǔ),利用特征選擇方法篩選出在癌癥中具有差異性表達(dá)的基因,并由此指導(dǎo)后續(xù)的分類任務(wù),將最終的分類性能作為我們基因選擇方法的評價標(biāo)準(zhǔn)。圍繞基因表達(dá)譜數(shù)據(jù)分類的基因選擇問題,本文主要做了如下工作:1)基因表達(dá)譜數(shù)據(jù)的數(shù)值表征了基因的表達(dá)水平,相鄰數(shù)據(jù)之間不具有連續(xù)性,同時在數(shù)據(jù)采集的過程中經(jīng)常包含噪聲,基于此本文引入了離散化的數(shù)據(jù)預(yù)處理方式。通過與其他數(shù)據(jù)預(yù)處理方式對比,驗證了基因表達(dá)譜數(shù)據(jù)的離散化處理能夠帶來更優(yōu)的分類準(zhǔn)確率。2)對于具有高維小樣本特性的數(shù)據(jù),過濾式的特征選擇算法能夠快速且有效地得到在不同類別上具有差異表達(dá)的特征,但不同的過濾式方法得到的關(guān)鍵特征往往存在較大差異,分類穩(wěn)定性不高。因此本文利...
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.5支持向量機原理圖??
征選擇方法以及不同離散度的數(shù)據(jù)集組合進行實驗,可以更完整地檢驗方法的健??壯性。??本文實驗過程如圖3.1所示,因為本文最終是探究特征選擇方法,所以實驗??將原始數(shù)據(jù)集和A取不同值的離散化數(shù)據(jù)集分別作用于不同的特征選擇方法,分??別選。磦重要基因,隨后將選出的特征基因作用于不同的分類器,最終得到模??型的分類準(zhǔn)確率或錯誤率。實驗結(jié)果如圖3.2和圖3.3所示。??丨??_??'*1?—?_!參考??\?——飄參考??1?T-test??^?1-?-?|?T ̄test參考??5?'????W.?1?\??1C?I?\? ̄??_!?_?A.?-?-??????????_____?一[??1?\?/??1????VV?:??/??2?4?6?8?1C?12?14?16??圖3.2不同特征選擇方法的分類錯誤率隨離散化程度々變化圖,其中MI為互信??息方法,SNR為基于信噪比方法,T-test為T檢驗方法??26??
第三章基因表達(dá)譜數(shù)據(jù)預(yù)處理??圖3.2顯示了不同特征選擇方法下模型分類錯誤率隨離散化程度;t的變化關(guān)??系,需要注意的是每種特征選擇方法都對應(yīng)一組分類器的結(jié)果,所以此處的分類??錯誤率取該組分類器的平均值。圖中每種線型都對應(yīng)兩條線,其中一條是原始數(shù)??據(jù)集的分類結(jié)果作為參考,所以它是一條直線;而另一條無規(guī)則的曲線為特征選??擇方法跟隨數(shù)據(jù)離散化程度變化的分類錯誤率結(jié)果。??從圖中可以看到T-test方法下當(dāng)離散化程度A等于4,11和12時,以及MI??方法下〖等于2至5,10以及17時它們的結(jié)果稍比參考值來得差,其他總體上??任一特征選擇方法的分類錯誤率都比參考值來得低,特別是基于SNR的方法,??分類錯誤率普遍比參考值低2到3個百分點。??—SVM??—SVM#?考??2C?-?——酬??_?_峨N參考??2?15?-?乇???H????咪???:??^?10?-?^?-??\??2?4?6?3?1〇?12?14?16??圖3.3不同分類器的分類錯誤率隨離散化程度A變化圖,其中SVM、KNN和??NB分別表示支持向量機、K近鄰以及樸素貝葉斯分類器??圖3.3顯示了不同分類器作用下分類錯誤率與離散化程度A?的關(guān)系
【參考文獻】:
期刊論文
[1]基于SVM-RFE-BPSO算法的特征選擇方法[J]. 林俊,許露,劉龍. 小型微型計算機系統(tǒng). 2015(08)
[2]基于特征子集區(qū)分度與支持向量機的特征選擇算法[J]. 謝娟英,謝維信. 計算機學(xué)報. 2014(08)
[3]基于Relief和SVM-RFE的組合式SNP特征選擇[J]. 吳紅霞,吳悅,劉宗田,雷州. 計算機應(yīng)用研究. 2012(06)
[4]基于SVM-RFE-SFS的基因選擇方法[J]. 游偉,李樹濤,譚明奎. 中國生物醫(yī)學(xué)工程學(xué)報. 2010(01)
[5]腫瘤基因表達(dá)譜分類特征基因選取問題及分析方法研究[J]. 李穎新,李建更,阮曉鋼. 計算機學(xué)報. 2006(02)
[6]Accelerated Recursive Feature Elimination Based on Support Vector Machine for Key Variable Identification[J]. 毛勇,皮道映,劉育明,孫優(yōu)賢. Chinese Journal of Chemical Engineering. 2006(01)
本文編號:3365646
【文章來源】:廈門大學(xué)福建省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.5支持向量機原理圖??
征選擇方法以及不同離散度的數(shù)據(jù)集組合進行實驗,可以更完整地檢驗方法的健??壯性。??本文實驗過程如圖3.1所示,因為本文最終是探究特征選擇方法,所以實驗??將原始數(shù)據(jù)集和A取不同值的離散化數(shù)據(jù)集分別作用于不同的特征選擇方法,分??別選。磦重要基因,隨后將選出的特征基因作用于不同的分類器,最終得到模??型的分類準(zhǔn)確率或錯誤率。實驗結(jié)果如圖3.2和圖3.3所示。??丨??_??'*1?—?_!參考??\?——飄參考??1?T-test??^?1-?-?|?T ̄test參考??5?'????W.?1?\??1C?I?\? ̄??_!?_?A.?-?-??????????_____?一[??1?\?/??1????VV?:??/??2?4?6?8?1C?12?14?16??圖3.2不同特征選擇方法的分類錯誤率隨離散化程度々變化圖,其中MI為互信??息方法,SNR為基于信噪比方法,T-test為T檢驗方法??26??
第三章基因表達(dá)譜數(shù)據(jù)預(yù)處理??圖3.2顯示了不同特征選擇方法下模型分類錯誤率隨離散化程度;t的變化關(guān)??系,需要注意的是每種特征選擇方法都對應(yīng)一組分類器的結(jié)果,所以此處的分類??錯誤率取該組分類器的平均值。圖中每種線型都對應(yīng)兩條線,其中一條是原始數(shù)??據(jù)集的分類結(jié)果作為參考,所以它是一條直線;而另一條無規(guī)則的曲線為特征選??擇方法跟隨數(shù)據(jù)離散化程度變化的分類錯誤率結(jié)果。??從圖中可以看到T-test方法下當(dāng)離散化程度A等于4,11和12時,以及MI??方法下〖等于2至5,10以及17時它們的結(jié)果稍比參考值來得差,其他總體上??任一特征選擇方法的分類錯誤率都比參考值來得低,特別是基于SNR的方法,??分類錯誤率普遍比參考值低2到3個百分點。??—SVM??—SVM#?考??2C?-?——酬??_?_峨N參考??2?15?-?乇???H????咪???:??^?10?-?^?-??\??2?4?6?3?1〇?12?14?16??圖3.3不同分類器的分類錯誤率隨離散化程度A變化圖,其中SVM、KNN和??NB分別表示支持向量機、K近鄰以及樸素貝葉斯分類器??圖3.3顯示了不同分類器作用下分類錯誤率與離散化程度A?的關(guān)系
【參考文獻】:
期刊論文
[1]基于SVM-RFE-BPSO算法的特征選擇方法[J]. 林俊,許露,劉龍. 小型微型計算機系統(tǒng). 2015(08)
[2]基于特征子集區(qū)分度與支持向量機的特征選擇算法[J]. 謝娟英,謝維信. 計算機學(xué)報. 2014(08)
[3]基于Relief和SVM-RFE的組合式SNP特征選擇[J]. 吳紅霞,吳悅,劉宗田,雷州. 計算機應(yīng)用研究. 2012(06)
[4]基于SVM-RFE-SFS的基因選擇方法[J]. 游偉,李樹濤,譚明奎. 中國生物醫(yī)學(xué)工程學(xué)報. 2010(01)
[5]腫瘤基因表達(dá)譜分類特征基因選取問題及分析方法研究[J]. 李穎新,李建更,阮曉鋼. 計算機學(xué)報. 2006(02)
[6]Accelerated Recursive Feature Elimination Based on Support Vector Machine for Key Variable Identification[J]. 毛勇,皮道映,劉育明,孫優(yōu)賢. Chinese Journal of Chemical Engineering. 2006(01)
本文編號:3365646
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3365646.html
最近更新
教材專著