非負矩陣分解模型選擇及其在生物數(shù)據(jù)挖掘中的應(yīng)用
發(fā)布時間:2020-08-22 12:27
【摘要】:機器學習中很多重要方法都離不開模型選擇。模型選擇在數(shù)據(jù)聚類、復雜網(wǎng)絡(luò)社團發(fā)現(xiàn)及數(shù)據(jù)降維等方面應(yīng)用廣泛。如何準確地進行模型選擇,從而選擇出合理的目標維度,進而引導出具有可解釋性的分析方案,挖掘出隱含在數(shù)據(jù)中的潛在信息是機器學習中模型選擇所面臨的一個挑戰(zhàn)。矩陣低秩分解是目前應(yīng)用廣泛的數(shù)據(jù)降維和數(shù)據(jù)表示方法,其中非負矩陣分解是最具有代表性的矩陣低秩分解方法。非負矩陣分解(Nonnegative Matrix Factorization,NMF)作為一種矩陣的低秩逼近方法,它分解的矩陣和最終得到的結(jié)果矩陣的數(shù)值都是非負的。非負矩陣分解能將高維數(shù)據(jù)降至低維,一個合理的維度能引導更為理想的分解,使得分解之后的低維矩陣能最大限度的保留原始數(shù)據(jù)的特性。圍繞非負矩陣分解的維度選擇即模型選擇問題,本文做了以下研究工作:第一、提出基于同趨性的模型選擇方法(Tendency Drive Nonnegative Matrix Factorization,TDNMF)。不同于其他在分解過程中進行模型選擇的方法,該方法從數(shù)據(jù)分解前后的結(jié)構(gòu)保持情況出發(fā),基于數(shù)據(jù)點之間的相關(guān)性關(guān)系,提出樣本同趨性概念,并采用重采樣的方法解決了在樣本容量不一致的情況下比較樣本相關(guān)性的問題。得益于這兩種數(shù)據(jù)處理技巧,基于同趨性的模型選擇方法(TDNMF)具有較小的時間復雜度。第二、提出基于信息均衡的模型選擇方法(Entropy Balanced Nonnegative Matrix Factorization,EBNMF),該方法結(jié)合了非負矩陣的可伸縮分解特性以及高效穩(wěn)定的維數(shù)選擇標準,在多個模擬數(shù)據(jù)上體現(xiàn)了良好的性能。在此基礎(chǔ)上,本文進一步地在真實生物數(shù)據(jù)集包括果蠅基因表達數(shù)據(jù)和人類微生物組數(shù)據(jù)集上對提出的方法進行了驗證,表明了 EBNMF方法的穩(wěn)定性和可解釋性。EBNMF能在信息分解過程中進行很好的模型選擇,并能有效提取具有噪聲的生物數(shù)據(jù)的有效特征。非負矩陣分解模型符合整體是由局部組成這一客觀規(guī)律而被廣泛應(yīng)用于多個領(lǐng)域,但其模型選擇仍然是一個難題。本文提出了兩種非負矩陣分解的模型選擇方法,分別在計算復雜度和準確性上具有一定的優(yōu)勢,可適用于不同級別的數(shù)據(jù)集。
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O151.21;TP311.13
【圖文】:
察2.丨節(jié)所述幾種矩陣分解方法,我們可以看出,LR分解陣,這在實際情況下有著非常大的局限性。SVD分解和P能,SVD在某種程度上甚至可以成為PCA分解的工具。但負,缺乏物理上的可解釋性。另外,在人臉識別鄰域,PCA”都包含臉的整體輪廓,這在需要進行臉部局部細節(jié)的分而非負矩陣分解算法,能夠很好的解決上述問題。逡逑矩陣分解過程中,樣本由典型組分的非負組合表示。NMF廣泛應(yīng)用于數(shù)據(jù)降維、信號處理、圖像工程和計算機視覺數(shù)k,NMF用兩個非負矩陣(Fxk的矩陣W和k矩陣的目(假設(shè)矩陣的行表示樣本,列表示生物數(shù)據(jù)的值)來逼X.換句話說,在將X近似為低維k時,X的行和列特征己N個屬性降至k個特征)。也就是說,NMF在這里將F類為k個組。逡逑(?)邋r逡逑h邋X(fat)邐 ̄邐,#c)邋^逡逑
碩士學位論文逡逑MASTER'S邋THESIS逡逑識,NMF將MX邋N維的高維數(shù)據(jù)X降至遠小于原始維度的k維和列的特征進行提取,輸出具有M邋x邋k維的結(jié)果矩陣W和具有H,即原本的M行和N列都被表示成k個特征維度。換言之,維屬性的數(shù)據(jù)集,可以聚類成k個具有不同特征的類。具體
個隨機變量隨著另一個隨機變量的增加而增加。也可以是負值,它表示一個隨機變逡逑量隨著另一個隨機變量的增加而減少。PCC中r的取值介于-1與1之間,越接近-1逡逑表示負相關(guān)性越強,越接近1表示正相關(guān)性越強。圖3.1給出了不同的相關(guān)系數(shù)對逡逑應(yīng)的數(shù)據(jù)點分布情況。逡逑1邋00邐C9C邐0?邐0.70邐060邐060邐040逡逑0?邐-c20邐-010邐ooo邐aio邐020邐030逡逑0邋,丨《邐a邋5邋0邋c,邐相關(guān)性從-1到1之間,逡逑tYj零,舞拿'S貌五問蕕惴植煎義希埃矗板危板澹擔板危希櫻襄危板澹罰板危埃ぃ板危埃梗板危卞澹埃板義蟂茫海#埽#保##保義弦灰誨澹桑擼咤澹蹋咤澹保五義賢跡常輩煌校茫彌刀雜Φ氖蕕闃淶南咝怨叵靛義希保跺義
本文編號:2800686
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O151.21;TP311.13
【圖文】:
察2.丨節(jié)所述幾種矩陣分解方法,我們可以看出,LR分解陣,這在實際情況下有著非常大的局限性。SVD分解和P能,SVD在某種程度上甚至可以成為PCA分解的工具。但負,缺乏物理上的可解釋性。另外,在人臉識別鄰域,PCA”都包含臉的整體輪廓,這在需要進行臉部局部細節(jié)的分而非負矩陣分解算法,能夠很好的解決上述問題。逡逑矩陣分解過程中,樣本由典型組分的非負組合表示。NMF廣泛應(yīng)用于數(shù)據(jù)降維、信號處理、圖像工程和計算機視覺數(shù)k,NMF用兩個非負矩陣(Fxk的矩陣W和k矩陣的目(假設(shè)矩陣的行表示樣本,列表示生物數(shù)據(jù)的值)來逼X.換句話說,在將X近似為低維k時,X的行和列特征己N個屬性降至k個特征)。也就是說,NMF在這里將F類為k個組。逡逑(?)邋r逡逑h邋X(fat)邐 ̄邐,#c)邋^逡逑
碩士學位論文逡逑MASTER'S邋THESIS逡逑識,NMF將MX邋N維的高維數(shù)據(jù)X降至遠小于原始維度的k維和列的特征進行提取,輸出具有M邋x邋k維的結(jié)果矩陣W和具有H,即原本的M行和N列都被表示成k個特征維度。換言之,維屬性的數(shù)據(jù)集,可以聚類成k個具有不同特征的類。具體
個隨機變量隨著另一個隨機變量的增加而增加。也可以是負值,它表示一個隨機變逡逑量隨著另一個隨機變量的增加而減少。PCC中r的取值介于-1與1之間,越接近-1逡逑表示負相關(guān)性越強,越接近1表示正相關(guān)性越強。圖3.1給出了不同的相關(guān)系數(shù)對逡逑應(yīng)的數(shù)據(jù)點分布情況。逡逑1邋00邐C9C邐0?邐0.70邐060邐060邐040逡逑0?邐-c20邐-010邐ooo邐aio邐020邐030逡逑0邋,丨《邐a邋5邋0邋c,邐相關(guān)性從-1到1之間,逡逑tYj零,舞拿'S貌五問蕕惴植煎義希埃矗板危板澹擔板危希櫻襄危板澹罰板危埃ぃ板危埃梗板危卞澹埃板義蟂茫海#埽#保##保義弦灰誨澹桑擼咤澹蹋咤澹保五義賢跡常輩煌校茫彌刀雜Φ氖蕕闃淶南咝怨叵靛義希保跺義
本文編號:2800686
本文鏈接:http://sikaile.net/kejilunwen/yysx/2800686.html
最近更新
教材專著