基于多正則約束低秩矩陣分解的基因特征提取
發(fā)布時(shí)間:2021-02-15 09:42
基因表達(dá)譜現(xiàn)代醫(yī)學(xué)的重要研究?jī)?nèi)容之一,通過對(duì)相關(guān)數(shù)據(jù)的處理和分析,可以快速了解患者的病情,為后續(xù)的治療提供有效參考。與常規(guī)數(shù)據(jù)不同,基因數(shù)據(jù)有兩大特性:一、原始數(shù)據(jù)一般是高維數(shù)據(jù),序列中伴隨著大量的噪聲和冗余特征;二是可供研究利用的樣本數(shù)量非常少;這些特性給基因數(shù)據(jù)的處理和分析帶來了巨大的挑戰(zhàn)。矩陣的秩是數(shù)據(jù)信息復(fù)雜程度的數(shù)學(xué)表示,低秩矩陣分解是模式識(shí)別中常用的模型,由于其良好的數(shù)據(jù)恢復(fù)能力被廣泛用于子空間恢復(fù)和分類。針對(duì)基因數(shù)據(jù)分析處理的技術(shù)難題,本文借鑒傳統(tǒng)的低秩矩陣分解模型和流形學(xué)習(xí)中的經(jīng)典理論,做了如下工作:1.基因表達(dá)譜研究現(xiàn)狀與相關(guān)理論分析。介紹了基因表達(dá)譜的相關(guān)概念、常規(guī)處理步驟及相關(guān)特征提取方法,詳細(xì)闡述了低秩矩陣分解和流形學(xué)習(xí)的相關(guān)理論,介紹了一些分類器的分類原理。2.針對(duì)基因表達(dá)譜數(shù)據(jù)的高維度、高噪聲特點(diǎn),提出了一種基于多正則約束非負(fù)矩陣分解的維數(shù)約簡(jiǎn)模型。借鑒非負(fù)矩陣分解模型在數(shù)據(jù)維數(shù)約簡(jiǎn)方面的獨(dú)特優(yōu)勢(shì),在該模型基礎(chǔ)上引入低秩稀疏約束和流形正則約束。利用非負(fù)矩陣分解實(shí)現(xiàn)高維數(shù)據(jù)的低維特征提取,利用流形正則約束保持原始數(shù)據(jù)的近鄰空間結(jié)構(gòu),同時(shí)用低秩稀疏約束去除噪聲污...
【文章來源】:江西理工大學(xué)江西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NMF原理示意圖
平均值 69.41 78.84 85.99從表 3.2~3.5 的測(cè)試結(jié)果可以發(fā)現(xiàn),特征提取維度 r 對(duì)特征識(shí)別效果有較大影響。維度過低時(shí),測(cè)試結(jié)果表現(xiàn)一般。在一定限度內(nèi),隨著提取維度的增大,識(shí)別效果也隨之優(yōu)化,證明特征提取的效果越好。對(duì)于不同的算法而言,都存在一個(gè)相對(duì)最優(yōu)維度,以上述測(cè)試數(shù)據(jù)為例,最優(yōu)特征提取維度在 15 至 20 左右,超過最優(yōu)維度以后,算法識(shí)別效果逐漸下降,這是由于冗余和干擾導(dǎo)致的。不難發(fā)現(xiàn),特征提取維度 r 變化時(shí),三種算法的識(shí)別精度波動(dòng)較大,反映了特征提取效果的差別較大。在上述四組基因數(shù)據(jù)的實(shí)驗(yàn)測(cè)試過程中,MRCNMF 所表現(xiàn)的識(shí)別效果和穩(wěn)定性均優(yōu)于 NMF 和 GNMF。3.5.3 k 近鄰取值對(duì)識(shí)別精度的影響特征提取后的維度是影響分類準(zhǔn)確率的主要因素,除此之外,KNN 算法的近鄰k 值的選取對(duì)最后的準(zhǔn)確率也有著較大影響。為了驗(yàn)證近鄰值 對(duì)實(shí)驗(yàn)結(jié)果的影響程度,本文選取 NHL 數(shù)據(jù)集和 Leucocythemia 數(shù)據(jù)集,測(cè)試了 NMF、GNMF 和 MRCNMF 三種算法在不同近鄰數(shù) 情況下的分類效果,測(cè)試結(jié)果如圖 3.3 所示。
一般選擇奇數(shù)k值。從圖 3.3 的兩組測(cè)試結(jié)果可以發(fā)現(xiàn),選取的兩個(gè)數(shù)據(jù)集均存在一個(gè)相對(duì)最優(yōu) 值;超過最優(yōu)值以后,隨著 的增加分類器的效果呈現(xiàn)下降趨勢(shì)。對(duì)于不同的基因測(cè)試集,最優(yōu)近鄰 值一般會(huì)有所區(qū)別。由于基因數(shù)據(jù)本身樣本數(shù)目較少的特點(diǎn), 的取值應(yīng)該較小,不宜超過整體測(cè)試樣本的類別數(shù)目。每組測(cè)試數(shù)據(jù)都包含多個(gè)類別的樣本信息,但每個(gè)類別的樣本數(shù)目一般都是不均衡的,尤其當(dāng)同一組測(cè)試數(shù)據(jù)中有某一類的基因樣本測(cè)試數(shù)目過少時(shí), 的取值不應(yīng)過大,否則容易導(dǎo)致整體的分類結(jié)果產(chǎn)生較大程度的下滑。3.5.4 流形正則系數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響GNMF 和 MRCNMF 都涉及到圖正則鄰接矩陣的構(gòu)造過程,低秩圖對(duì)特征提取后的內(nèi)部空間結(jié)構(gòu)保持具有重要意義,表 3.2~3.5 和圖 3.3 的實(shí)驗(yàn)結(jié)果也證明了圖正則約束對(duì)特征提取的效果具有優(yōu)化作用。為了更加直觀說明低秩圖對(duì)特征提取的作用,本文測(cè)試了 GNMF 和 MRCNMF 在不同圖正則系數(shù) 下對(duì)識(shí)別效果的影響,實(shí)驗(yàn)結(jié)果如圖 3.4所示。b
【參考文獻(xiàn)】:
期刊論文
[1]精準(zhǔn)醫(yī)學(xué)背景下腫瘤精準(zhǔn)護(hù)理的應(yīng)用現(xiàn)狀與挑戰(zhàn)[J]. 張穎婷,吳傅蕾,劉歡,袁長(zhǎng)蓉. 解放軍護(hù)理雜志. 2017(19)
[2]基于迭代對(duì)數(shù)閾值的加權(quán)RPCA非局部圖像去噪[J]. 楊國(guó)亮,魯海榮,唐俊,王艷芳. 江西理工大學(xué)學(xué)報(bào). 2016(01)
博士論文
[1]葉酸受體介導(dǎo)的磁性納米給藥系統(tǒng)的構(gòu)建及用于腫瘤診治的實(shí)驗(yàn)研究[D]. 杜若鴻.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]數(shù)據(jù)降維算法研究及其應(yīng)用[D]. 張?zhí)镪?上海交通大學(xué) 2008
碩士論文
[1]基于流形學(xué)習(xí)的中文Web文本分類算法研究[D]. 李金釗.河北工業(yè)大學(xué) 2011
本文編號(hào):3034606
【文章來源】:江西理工大學(xué)江西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NMF原理示意圖
平均值 69.41 78.84 85.99從表 3.2~3.5 的測(cè)試結(jié)果可以發(fā)現(xiàn),特征提取維度 r 對(duì)特征識(shí)別效果有較大影響。維度過低時(shí),測(cè)試結(jié)果表現(xiàn)一般。在一定限度內(nèi),隨著提取維度的增大,識(shí)別效果也隨之優(yōu)化,證明特征提取的效果越好。對(duì)于不同的算法而言,都存在一個(gè)相對(duì)最優(yōu)維度,以上述測(cè)試數(shù)據(jù)為例,最優(yōu)特征提取維度在 15 至 20 左右,超過最優(yōu)維度以后,算法識(shí)別效果逐漸下降,這是由于冗余和干擾導(dǎo)致的。不難發(fā)現(xiàn),特征提取維度 r 變化時(shí),三種算法的識(shí)別精度波動(dòng)較大,反映了特征提取效果的差別較大。在上述四組基因數(shù)據(jù)的實(shí)驗(yàn)測(cè)試過程中,MRCNMF 所表現(xiàn)的識(shí)別效果和穩(wěn)定性均優(yōu)于 NMF 和 GNMF。3.5.3 k 近鄰取值對(duì)識(shí)別精度的影響特征提取后的維度是影響分類準(zhǔn)確率的主要因素,除此之外,KNN 算法的近鄰k 值的選取對(duì)最后的準(zhǔn)確率也有著較大影響。為了驗(yàn)證近鄰值 對(duì)實(shí)驗(yàn)結(jié)果的影響程度,本文選取 NHL 數(shù)據(jù)集和 Leucocythemia 數(shù)據(jù)集,測(cè)試了 NMF、GNMF 和 MRCNMF 三種算法在不同近鄰數(shù) 情況下的分類效果,測(cè)試結(jié)果如圖 3.3 所示。
一般選擇奇數(shù)k值。從圖 3.3 的兩組測(cè)試結(jié)果可以發(fā)現(xiàn),選取的兩個(gè)數(shù)據(jù)集均存在一個(gè)相對(duì)最優(yōu) 值;超過最優(yōu)值以后,隨著 的增加分類器的效果呈現(xiàn)下降趨勢(shì)。對(duì)于不同的基因測(cè)試集,最優(yōu)近鄰 值一般會(huì)有所區(qū)別。由于基因數(shù)據(jù)本身樣本數(shù)目較少的特點(diǎn), 的取值應(yīng)該較小,不宜超過整體測(cè)試樣本的類別數(shù)目。每組測(cè)試數(shù)據(jù)都包含多個(gè)類別的樣本信息,但每個(gè)類別的樣本數(shù)目一般都是不均衡的,尤其當(dāng)同一組測(cè)試數(shù)據(jù)中有某一類的基因樣本測(cè)試數(shù)目過少時(shí), 的取值不應(yīng)過大,否則容易導(dǎo)致整體的分類結(jié)果產(chǎn)生較大程度的下滑。3.5.4 流形正則系數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響GNMF 和 MRCNMF 都涉及到圖正則鄰接矩陣的構(gòu)造過程,低秩圖對(duì)特征提取后的內(nèi)部空間結(jié)構(gòu)保持具有重要意義,表 3.2~3.5 和圖 3.3 的實(shí)驗(yàn)結(jié)果也證明了圖正則約束對(duì)特征提取的效果具有優(yōu)化作用。為了更加直觀說明低秩圖對(duì)特征提取的作用,本文測(cè)試了 GNMF 和 MRCNMF 在不同圖正則系數(shù) 下對(duì)識(shí)別效果的影響,實(shí)驗(yàn)結(jié)果如圖 3.4所示。b
【參考文獻(xiàn)】:
期刊論文
[1]精準(zhǔn)醫(yī)學(xué)背景下腫瘤精準(zhǔn)護(hù)理的應(yīng)用現(xiàn)狀與挑戰(zhàn)[J]. 張穎婷,吳傅蕾,劉歡,袁長(zhǎng)蓉. 解放軍護(hù)理雜志. 2017(19)
[2]基于迭代對(duì)數(shù)閾值的加權(quán)RPCA非局部圖像去噪[J]. 楊國(guó)亮,魯海榮,唐俊,王艷芳. 江西理工大學(xué)學(xué)報(bào). 2016(01)
博士論文
[1]葉酸受體介導(dǎo)的磁性納米給藥系統(tǒng)的構(gòu)建及用于腫瘤診治的實(shí)驗(yàn)研究[D]. 杜若鴻.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]數(shù)據(jù)降維算法研究及其應(yīng)用[D]. 張?zhí)镪?上海交通大學(xué) 2008
碩士論文
[1]基于流形學(xué)習(xí)的中文Web文本分類算法研究[D]. 李金釗.河北工業(yè)大學(xué) 2011
本文編號(hào):3034606
本文鏈接:http://sikaile.net/xiyixuelunwen/3034606.html
最近更新
教材專著