基于嵌入式稀疏特征選擇策略的降維算法研究
發(fā)布時間:2020-06-29 17:03
【摘要】:高通量生物技術(shù)的發(fā)展產(chǎn)生了大量的高維小樣本生物大數(shù)據(jù)。在生物醫(yī)學(xué)“大數(shù)據(jù)”領(lǐng)域中,特征選擇算法是解決維數(shù)災(zāi)難的有效方法之一,已被廣泛應(yīng)用于基因篩選、遺傳位點分析等具體問題。本文首先概述性地介紹了特征選擇算法及四種常用的分類器模型,然后圍繞嵌入式稀疏特征選擇策略的降維算法從以下兩個方面展開論述:一是聯(lián)合重抽樣技術(shù)與嵌入式特征選擇算法,構(gòu)造了一種基于統(tǒng)計顯著性水平的特征選擇與排序算法,可以對遺傳位點問題按等位基因可加效應(yīng)和雜合效應(yīng)模型編碼的數(shù)據(jù)進行關(guān)鍵致病位點選擇分析;二是結(jié)合特征排序算法和可固定用戶自定義特征子集的算法構(gòu)造了一種新的特征選擇算法。針對生物遺傳學(xué)中的遺傳位點分析問題,本文給出了基于Lasso懲罰估計的Logistic回歸模型以及基于重抽樣技術(shù)的Lasso懲罰回歸算法流程。在某疾病遺傳位點編碼數(shù)據(jù)上的實驗分析中,列出了挑選的特征集以及在5-折交叉驗證方式下四種分類器間分類性能的比較,同時我們還對排名前30的位點利用四種常用分類器進行了逐步增加特征個數(shù)的5-折交叉驗證,發(fā)現(xiàn)可以在最少利用27個位點的條件下對疾病分類準確性達到最高68.13%。最后,我們還按等位基因可加效應(yīng)和雜合效應(yīng)兩種編碼方式下的數(shù)據(jù)進行了關(guān)鍵致病位點選擇分析,并在GWAS研究數(shù)據(jù)庫GWAS Central中對挑選出的特征進行了生物學(xué)意義分析,發(fā)現(xiàn)其被報道與腫瘤,高血壓,肥胖等多種遺傳復(fù)雜疾病有密切聯(lián)系,從而進一步驗證了結(jié)果的可信度。針對特征排序算法在基因表達譜數(shù)據(jù)中選取的特征子集容易產(chǎn)生冗余特征的問題,論文結(jié)合t檢驗排序法與SubLasso算法提出了一種特征選擇算法。在與取排名靠前且特征個數(shù)相同的3個常見單特征排序算法比較時,新方法在15個常見基因表達譜數(shù)據(jù)集上分類表現(xiàn)占優(yōu);同時選出了具有非常好的分類性能的特征子集,在不同的分類器上取得了穩(wěn)健的分類效果。新算法固定t檢驗排序法挑選出的特征作為預(yù)定義特征,可以將某些在特征排序算法中排名較低,但與響應(yīng)變量統(tǒng)計顯著相關(guān)的特征選擇出來。
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:C81;F224
【圖文】:
均值結(jié)果如表 3.2 所示。4.2 分類準確性為了驗證我們所選特征分類能力的穩(wěn)健性,我們選用了 4 種常用分類器,貝葉斯(NBayes),支持向量機(SVM),K-近鄰(KNN)和決策樹(DTree)些分類器原理和方法各自有所不同,可以從不同的方面來檢驗我們所選特征別能力。表 3.3 給出了 14 個特征在 4 個分類器和 5-折交叉驗證方式下的分類率。表 3.3 Bootstrap Lasso 挑選特征在 5-折交叉驗證方式下的分類性能驗證方式 分類器 Se Sp Acc Avc5FCVSVM 68.53% 66.27% 67.40% 67.40%NBayes 68.20% 67.93% 68.07% 68.07%DTree 58.67% 53.93% 56.30% 56.30%KNN 56.53% 57.53% 57.03% 57.03%
本文編號:2734109
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:C81;F224
【圖文】:
均值結(jié)果如表 3.2 所示。4.2 分類準確性為了驗證我們所選特征分類能力的穩(wěn)健性,我們選用了 4 種常用分類器,貝葉斯(NBayes),支持向量機(SVM),K-近鄰(KNN)和決策樹(DTree)些分類器原理和方法各自有所不同,可以從不同的方面來檢驗我們所選特征別能力。表 3.3 給出了 14 個特征在 4 個分類器和 5-折交叉驗證方式下的分類率。表 3.3 Bootstrap Lasso 挑選特征在 5-折交叉驗證方式下的分類性能驗證方式 分類器 Se Sp Acc Avc5FCVSVM 68.53% 66.27% 67.40% 67.40%NBayes 68.20% 67.93% 68.07% 68.07%DTree 58.67% 53.93% 56.30% 56.30%KNN 56.53% 57.53% 57.03% 57.03%
【參考文獻】
相關(guān)期刊論文 前3條
1 李中秋;張汝飛;魯亞軍;;基于Group Bridge組變量選擇方法的血壓影響因素實證分析[J];數(shù)學(xué)的實踐與認識;2015年22期
2 胡小寧;何曉群;馬學(xué)俊;;基于Group MCP Logistic模型的個人信用評價分析[J];現(xiàn)代管理科學(xué);2015年08期
3 王小燕;方匡南;謝邦昌;;Logistic回歸的雙層變量選擇研究[J];統(tǒng)計研究;2014年09期
相關(guān)博士學(xué)位論文 前1條
1 黃東山;特征選擇及半監(jiān)督分類方法研究[D];華中科技大學(xué);2011年
相關(guān)碩士學(xué)位論文 前2條
1 溫學(xué)平;基于特征選擇的數(shù)據(jù)降維[D];華中科技大學(xué);2015年
2 周龍;基于樸素貝葉斯的分類方法研究[D];安徽大學(xué);2006年
本文編號:2734109
本文鏈接:http://sikaile.net/jingjilunwen/jingjiguanlilunwen/2734109.html
最近更新
教材專著