天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

無(wú)監(jiān)督特征選擇算法及其在基因數(shù)據(jù)分析中的應(yīng)用

發(fā)布時(shí)間:2020-03-17 23:34
【摘要】:癌癥疾病作為困擾人類醫(yī)學(xué)的難題長(zhǎng)期無(wú)法取得實(shí)質(zhì)性的突破,原因在于人類無(wú)法從成千上萬(wàn)的致病基因中找到罪魁禍?zhǔn)?在科技飛速發(fā)展與數(shù)據(jù)爆發(fā)式增長(zhǎng)的時(shí)代背景下,利用DNA微陣列的技術(shù)手段來(lái)突破該瓶頸迎來(lái)的新的契機(jī)。雖然通過(guò)基因芯片實(shí)驗(yàn)采集的數(shù)據(jù)具有更加準(zhǔn)確和全面的優(yōu)良特性,但是相應(yīng)地也帶來(lái)了數(shù)據(jù)分析上的挑戰(zhàn),主要有以下兩個(gè)方面的因素:一是與特定疾病無(wú)關(guān)或冗余的信息占了較高比例,為數(shù)據(jù)處理帶來(lái)了較高的復(fù)雜度;二是由于某些疾病的有效樣本的數(shù)量偏少,為數(shù)據(jù)分析帶來(lái)了一定的障礙;诨虮磉_(dá)譜數(shù)據(jù)具有的這些特性,本文應(yīng)用特征選擇算法對(duì)數(shù)據(jù)進(jìn)行處理與分析,以最大程度地保證結(jié)果的準(zhǔn)確性與可靠性。特征選擇算法作為分類任務(wù)中預(yù)處理的重要方法成為了當(dāng)前的熱點(diǎn)領(lǐng)域之一,并被廣泛地應(yīng)用于醫(yī)療、圖像和文本數(shù)據(jù)處理領(lǐng)域。特征選擇算法有兩個(gè)大的分類,分別是有監(jiān)督型特征選擇算法以及無(wú)監(jiān)督型特征選擇算法,區(qū)別于兩者最大的標(biāo)志是有監(jiān)督型特征選擇算法具有與類標(biāo)信息的相關(guān)性,而無(wú)監(jiān)督型特征選擇算法則不具備這一特性。由于在實(shí)際問(wèn)題中存在大量類標(biāo)信息缺失的數(shù)據(jù),本文將對(duì)無(wú)監(jiān)督型特征選擇算法展開(kāi)如下研究:(1)將基于密度峰值的無(wú)監(jiān)督特征選擇算法應(yīng)用于基因數(shù)據(jù),首先對(duì)原始數(shù)據(jù)采用十折交叉驗(yàn)證劃分?jǐn)?shù)據(jù)集,然后針對(duì)基因數(shù)據(jù)的高維特性,在訓(xùn)練集上進(jìn)行基因排序并選擇,對(duì)預(yù)選擇后的基因用該算法挑選代表基因構(gòu)成被選基因子集,接著分別使用SVM和KNN分類器訓(xùn)練模型,在測(cè)試集上對(duì)所得基因子集進(jìn)行質(zhì)量評(píng)價(jià)。由實(shí)驗(yàn)結(jié)果表明,該算法對(duì)基因數(shù)據(jù)的處理具有良好的適用性。(2)由于被選基因子集的質(zhì)量與距離度量的選取方式直接相關(guān),本文將運(yùn)用四種不同的距離度量標(biāo)準(zhǔn)來(lái)對(duì)第三章所提算法的基因代表性和區(qū)分度進(jìn)行計(jì)算,并且提出了一種更注重基因代表性的基因重要性度量準(zhǔn)則。通過(guò)在三個(gè)數(shù)據(jù)集上比較這四種不同的距離度量方法下所選取的基因子集的平均準(zhǔn)確率、靈敏度、特異度等指標(biāo)表明這種基因重要性度量準(zhǔn)則是有效的。
【圖文】:

原理圖,高維映射,核函數(shù),原理


由最初線性可分的二類問(wèn)題直至延伸到線性不可分問(wèn)題和非線性回歸問(wèn)題來(lái)進(jìn)行逡逑建模。針對(duì)線性不可分的樣本,可以通過(guò)引進(jìn)的核函數(shù),將輸入數(shù)據(jù)變換到一個(gè)逡逑高維空間,,如圖2-2所示[6G],在特征空間求解一個(gè)線性約束二次規(guī)劃,得到一個(gè)逡逑可以將樣本線性分割且具有最大間隔的分類超平面。逡逑/邋\逡逑*邋\逡逑t邐\逡逑/邐>逡逑I邐\逡逑?邐0邐A邐?逡逑1邋1邐I邐%逡逑0邋°邋#邋0邋\逡逑圖2-2核函數(shù)的高維映射原理逡逑Fig.2-2邋High邋dimensional邋mapping邋principle邋of邋kernel邋function逡逑支持向量機(jī)SFM分為線性和非線性SFM兩種。逡逑(1)線性支持向量機(jī)逡逑針對(duì)于線性可分的二分類問(wèn)題,旨在尋找能夠?qū)深惒煌瑯颖痉蛛x且可逡逑以保證兩種分類間隔距離最大的分類超平面。給定線性可分的兩類數(shù)據(jù)集逡逑£)邋=邋{(;(:1,少1),(;(:2,}2),_..,(:<:,,乃)},且'<啊醲嶝嗑荊荊嗉輳鉖

本文編號(hào):2587860

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2587860.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶14fcf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com