基因表達譜數(shù)據(jù)挖掘的特征提取方法研究
發(fā)布時間:2017-11-03 03:34
本文關(guān)鍵詞:基因表達譜數(shù)據(jù)挖掘的特征提取方法研究
更多相關(guān)文章: 基因表達譜 子模性質(zhì) 特征提取 局部保持投影
【摘要】:隨著新分子生物學技術(shù)和DNA微陣列技術(shù)的迅速發(fā)展,在生物樣本中可以同時定量測量數(shù)以萬計的基因表達水平,使用這一技術(shù)產(chǎn)生的基因表達譜數(shù)據(jù)能夠揭開隱含的、以前未知的生物學知識。近幾年來,研究學者利用統(tǒng)計學和模式識別等知識對微陣列基因表達譜數(shù)據(jù)進行分析,對致病的腫瘤基因進行有效的挖掘,從而對腫瘤的類型作出準確的診斷和分類預測。然而針對高維小樣本特點的腫瘤基因表達譜數(shù)據(jù)來說,傳統(tǒng)的數(shù)據(jù)處理方法在對腫瘤數(shù)據(jù)進行分析之前,普遍都是將高維度的腫瘤數(shù)據(jù)轉(zhuǎn)換為低維度之后再進行處理,在保證分類識別精度的同時提高學習方法的性能和計算效率。本文通過結(jié)合生物信息學和模式識別中的相關(guān)知識,對高維小樣本特點的腫瘤數(shù)據(jù)進行特征基因的提取,并對相應的實驗結(jié)果進行了有效性分析,其主要研究內(nèi)容如下:1.提出一種基于子模態(tài)性質(zhì)的特征基因選擇算法。首先,考慮到腫瘤基因表達譜數(shù)據(jù)基因之間相關(guān)性的特點,將獨立的基因?qū)傩赞D(zhuǎn)變?yōu)榫哂薪Y(jié)構(gòu)信息的鄰接圖;其次,對表征基因關(guān)系的鄰接矩陣構(gòu)建子模性質(zhì)的特征選擇目標函數(shù),然后使用貪心算法求解,獲得相應的特征基因子集;最后,將訓練樣本選取的特征子集運用到測試樣本分類中,使用KNN和SVM分類器進行分類識別,通過對實驗結(jié)果的分析說明了該方法的有效性。2.針對高維小樣本特點的腫瘤基因表達譜數(shù)據(jù),將局部保持投影降維方法應用于腫瘤基因表達譜特征基因提取中。該方法首先使用主成分分析口CA)對高維的原始數(shù)據(jù)進行降維和去噪,將處理后的數(shù)據(jù)通過保留99%的主成分作為對原始數(shù)據(jù)的表征;然后利用LPP能夠保持局部特征的優(yōu)點作降維約減,在腫瘤數(shù)據(jù)上對特征基因進行信息提;最后分別使用KNN分類器和SVM分類器對腫瘤數(shù)據(jù)進行有效分類,通過對三組公開的真實數(shù)據(jù)集進行實驗與結(jié)果分析,驗證了該方法的可行性和有效性。
【關(guān)鍵詞】:基因表達譜 子模性質(zhì) 特征提取 局部保持投影
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:R73-3;Q811.4;TP311.13
,
本文編號:1134499
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1134499.html
最近更新
教材專著