無監(jiān)督特征選擇算法及其在基因數(shù)據(jù)分析中的應(yīng)用
發(fā)布時間:2020-03-17 23:34
【摘要】:癌癥疾病作為困擾人類醫(yī)學(xué)的難題長期無法取得實質(zhì)性的突破,原因在于人類無法從成千上萬的致病基因中找到罪魁禍?zhǔn)?在科技飛速發(fā)展與數(shù)據(jù)爆發(fā)式增長的時代背景下,利用DNA微陣列的技術(shù)手段來突破該瓶頸迎來的新的契機。雖然通過基因芯片實驗采集的數(shù)據(jù)具有更加準(zhǔn)確和全面的優(yōu)良特性,但是相應(yīng)地也帶來了數(shù)據(jù)分析上的挑戰(zhàn),主要有以下兩個方面的因素:一是與特定疾病無關(guān)或冗余的信息占了較高比例,為數(shù)據(jù)處理帶來了較高的復(fù)雜度;二是由于某些疾病的有效樣本的數(shù)量偏少,為數(shù)據(jù)分析帶來了一定的障礙。基于基因表達譜數(shù)據(jù)具有的這些特性,本文應(yīng)用特征選擇算法對數(shù)據(jù)進行處理與分析,以最大程度地保證結(jié)果的準(zhǔn)確性與可靠性。特征選擇算法作為分類任務(wù)中預(yù)處理的重要方法成為了當(dāng)前的熱點領(lǐng)域之一,并被廣泛地應(yīng)用于醫(yī)療、圖像和文本數(shù)據(jù)處理領(lǐng)域。特征選擇算法有兩個大的分類,分別是有監(jiān)督型特征選擇算法以及無監(jiān)督型特征選擇算法,區(qū)別于兩者最大的標(biāo)志是有監(jiān)督型特征選擇算法具有與類標(biāo)信息的相關(guān)性,而無監(jiān)督型特征選擇算法則不具備這一特性。由于在實際問題中存在大量類標(biāo)信息缺失的數(shù)據(jù),本文將對無監(jiān)督型特征選擇算法展開如下研究:(1)將基于密度峰值的無監(jiān)督特征選擇算法應(yīng)用于基因數(shù)據(jù),首先對原始數(shù)據(jù)采用十折交叉驗證劃分?jǐn)?shù)據(jù)集,然后針對基因數(shù)據(jù)的高維特性,在訓(xùn)練集上進行基因排序并選擇,對預(yù)選擇后的基因用該算法挑選代表基因構(gòu)成被選基因子集,接著分別使用SVM和KNN分類器訓(xùn)練模型,在測試集上對所得基因子集進行質(zhì)量評價。由實驗結(jié)果表明,該算法對基因數(shù)據(jù)的處理具有良好的適用性。(2)由于被選基因子集的質(zhì)量與距離度量的選取方式直接相關(guān),本文將運用四種不同的距離度量標(biāo)準(zhǔn)來對第三章所提算法的基因代表性和區(qū)分度進行計算,并且提出了一種更注重基因代表性的基因重要性度量準(zhǔn)則。通過在三個數(shù)據(jù)集上比較這四種不同的距離度量方法下所選取的基因子集的平均準(zhǔn)確率、靈敏度、特異度等指標(biāo)表明這種基因重要性度量準(zhǔn)則是有效的。
【圖文】:
由最初線性可分的二類問題直至延伸到線性不可分問題和非線性回歸問題來進行逡逑建模。針對線性不可分的樣本,可以通過引進的核函數(shù),將輸入數(shù)據(jù)變換到一個逡逑高維空間,,如圖2-2所示[6G],在特征空間求解一個線性約束二次規(guī)劃,得到一個逡逑可以將樣本線性分割且具有最大間隔的分類超平面。逡逑/邋\逡逑*邋\逡逑t邐\逡逑/邐>逡逑I邐\逡逑?邐0邐A邐?逡逑1邋1邐I邐%逡逑0邋°邋#邋0邋\逡逑圖2-2核函數(shù)的高維映射原理逡逑Fig.2-2邋High邋dimensional邋mapping邋principle邋of邋kernel邋function逡逑支持向量機SFM分為線性和非線性SFM兩種。逡逑(1)線性支持向量機逡逑針對于線性可分的二分類問題,旨在尋找能夠?qū)深惒煌瑯颖痉蛛x且可逡逑以保證兩種分類間隔距離最大的分類超平面。給定線性可分的兩類數(shù)據(jù)集逡逑£)邋=邋{(;(:1,少1),(;(:2,}2),_..,(:<:,,乃)},且'<啊醲嶝嗑荊荊嗉輳鉖
本文編號:2587860
【圖文】:
由最初線性可分的二類問題直至延伸到線性不可分問題和非線性回歸問題來進行逡逑建模。針對線性不可分的樣本,可以通過引進的核函數(shù),將輸入數(shù)據(jù)變換到一個逡逑高維空間,,如圖2-2所示[6G],在特征空間求解一個線性約束二次規(guī)劃,得到一個逡逑可以將樣本線性分割且具有最大間隔的分類超平面。逡逑/邋\逡逑*邋\逡逑t邐\逡逑/邐>逡逑I邐\逡逑?邐0邐A邐?逡逑1邋1邐I邐%逡逑0邋°邋#邋0邋\逡逑圖2-2核函數(shù)的高維映射原理逡逑Fig.2-2邋High邋dimensional邋mapping邋principle邋of邋kernel邋function逡逑支持向量機SFM分為線性和非線性SFM兩種。逡逑(1)線性支持向量機逡逑針對于線性可分的二分類問題,旨在尋找能夠?qū)深惒煌瑯颖痉蛛x且可逡逑以保證兩種分類間隔距離最大的分類超平面。給定線性可分的兩類數(shù)據(jù)集逡逑£)邋=邋{(;(:1,少1),(;(:2,}2),_..,(:<:,,乃)},且'<啊醲嶝嗑荊荊嗉輳鉖
本文編號:2587860
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2587860.html
最近更新
教材專著