深度子空間聚類算法研究
發(fā)布時(shí)間:2021-10-23 12:12
傳統(tǒng)聚類算法無法有效處理高維數(shù)據(jù)并且具有較高的計(jì)算復(fù)雜度,基于這兩個(gè)問題提出了子空間聚類算法,但是子空間聚類算法在處理非線性數(shù)據(jù)上效果具有限制,盡管已經(jīng)引入了內(nèi)核技巧,但是并沒有足夠的理由確定內(nèi)核相對應(yīng)的隱式特征空間是適合子空間聚類的。由于深度學(xué)習(xí)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的聚類方法由于具有很高的表示能力,能夠有效進(jìn)行特征處理,本文對深度子空間聚類算法進(jìn)行了研究,具體研究內(nèi)容如下:(1)研究了基于去噪自編碼器的深度子空間聚類算法。我們引入去噪自編碼器使學(xué)習(xí)到的表示更有魯棒性,通過網(wǎng)絡(luò)分層堆疊的非線性變換學(xué)習(xí)潛在空間,在潛在空間用自表示層學(xué)習(xí)用于子空間聚類的相似度矩陣,之后采用譜聚類完成聚類。所提出的方法由于非線性表示能力而具有更好的泛化性能,特別適用于具有顯著相關(guān)性的高維數(shù)據(jù)的情況,實(shí)驗(yàn)結(jié)果證明,該模型對于子空間聚類具有有效性。(2)研究了一種改進(jìn)的深度子空間聚類算法。該方法基于深度子空間聚類網(wǎng)絡(luò)(DSC),并針對其特征損失過大從而影響聚類結(jié)果問題進(jìn)行改進(jìn),有效改善特征提取問題。該模型在卷積自編碼器的編碼器與解碼器部分分別加入完全連接層作為下采樣層與上采樣層,使之能進(jìn)一步整合有效特征以及...
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?DACEC模型結(jié)構(gòu)??Figure?1-1?DACEC’s?model?structure??
?Jpli?士.???^練??*?*??圖2-1?_于倉編碼器的聚類結(jié)構(gòu)??Figure?2-1?Clustering?structure?based?on?auto-encoder??(5)?GAN&VAE??生成對抗網(wǎng)絡(luò)(GAN)和變分自動(dòng)編碼器(VAE)是深度生成學(xué)習(xí)的最強(qiáng)大??框架。生成對抗網(wǎng)絡(luò)的目標(biāo)是在生成器和鑒別器之間達(dá)到平衡,而變分ft動(dòng)編碼??器則試圖最大化對數(shù)似然的下界。目前已經(jīng)為GAN和VAE開發(fā)了系列模型??擴(kuò)展,此外,它們還已經(jīng)應(yīng)用于處理聚類任務(wù)。??生成對抗網(wǎng)絡(luò)是近年來流行的一種深度生成模型,GAN框架在神經(jīng)網(wǎng)絡(luò)之??時(shí)建立了最。畲髮共┺模阂粋(gè)生成網(wǎng)絡(luò)G和一個(gè)判別網(wǎng)絡(luò)D。該生成網(wǎng)絡(luò)??嘗試將樣本z從先前分布p〇)映射到數(shù)據(jù)雙間》而判別網(wǎng)絡(luò)嘗試根據(jù)數(shù)據(jù)分布計(jì)??算輸入是真實(shí)樣本而不是生成網(wǎng)絡(luò)生產(chǎn)數(shù)據(jù)的概率,優(yōu)化目標(biāo)如下面公式(2-3)??所示,可以交替使用SGD優(yōu)化生成器G和判別器GAN提供了一種對抗性的??解決方案,可以將數(shù)據(jù)或其表示的分布與任意先驗(yàn)分布進(jìn)行匹配。近年來,已經(jīng)??提出了許多塞于GAN的聚類算法,其中一些算法特定于聚類任務(wù),而另一些僅??以聚類為特例;冢牵粒蔚纳疃染垲愃惴ň哂校牵粒蜗嗤膯栴},例如難以收??斂和模式崩潰。??minmaxEx^Pdata[logD(x)]?+?Ez^p(z)[log(l?-?D(G(z)))]?(2-3)??變分自動(dòng)編碼器可以看成是ft動(dòng)編碼器的變體,它要求自動(dòng)編碼器的潛在部??分必須遵循_種預(yù)定義的分布,它將變分貝葉斯方法與神經(jīng)網(wǎng)絡(luò)的靈活性和可擴(kuò)??展性結(jié)合在一起,使得神經(jīng)網(wǎng)絡(luò)能適應(yīng)條件后驗(yàn),可以通過隨機(jī)梯度下降和標(biāo)準(zhǔn)?
?3基于去噪_編碼器的鋅度于g間聚類:算袪???如下面圖3-1所示,其中x是原始數(shù)據(jù),2是破壞以后的數(shù)據(jù),/是編碼部分,設(shè)是??解碼部分,L是損失函數(shù)。??★?????L(x,xr)??圖3-1去噪自編碼器??Figure?3-1?Denoising?Autoencoder??如前所述,通過最小化訓(xùn)練集上的平均重建誤差LH(X,Z)?=H(SX||SZ)來訓(xùn)??練參數(shù),使Z盡可能接近未損壞的輸入X,降噪自編碼器最關(guān)鍵的區(qū)別在于z現(xiàn)在??是無的確定函數(shù),而不是x的,因此是x隨機(jī)映射的結(jié)果。根據(jù)如下面公式(3-13)??所示的來定義聯(lián)合分布,其中,Hu共v時(shí),心〇)的值為〇,園此r是尤的確定函??數(shù),qQ〇,兄r)的參數(shù)為0,通過隨機(jī)梯度下降最小化的目標(biāo)函數(shù)變?yōu)橄旅婀??(3-14)所示。??q°(X,X,Y)?=?q°(X)qD(X\X)8fgm(Y)?(3-13)??arg?min?Eq〇{x^?[LH{X,?ge>(fg(X)))]?(3-14)??因此從隨機(jī)梯度下降算法的角度來看,除了從訓(xùn)練集中選取輸入樣本外,降??噪自動(dòng)編碼器還將生成一個(gè)隨機(jī)的損壞樣本,并采取梯度步驟從損壞樣本中重建??未損壞樣本,這種方式與基本的自動(dòng)編碼器不同,因此需要消除了d'<d的約束??或需要專門進(jìn)行正則化來避免這種瑣碎解決方案的約束。??3.?1.3逐層初始化和微調(diào)??墓本的自動(dòng)編碼器已被用作構(gòu)建和訓(xùn)練深度網(wǎng)絡(luò),第k眉的輸入用作第k+1??層的輸出,訓(xùn)練第k+1層的時(shí)候前面k層都已訓(xùn)練過,在訓(xùn)練了幾層之后,將參??數(shù)用作針對監(jiān)督訓(xùn)練標(biāo)準(zhǔn)進(jìn)行優(yōu)化的網(wǎng)絡(luò)的初始化。已經(jīng)證明,這種貪婪的逐層??過程比深度網(wǎng)絡(luò)的隨機(jī)初始化產(chǎn)
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)綜述[J]. 趙德宇. 中國新通信. 2019(15)
[2]自編碼神經(jīng)網(wǎng)絡(luò)理論及應(yīng)用綜述[J]. 袁非牛,章琳,史勁亭,夏雪,李鋼. 計(jì)算機(jī)學(xué)報(bào). 2019(01)
[3]深度卷積自編碼圖像聚類算法[J]. 謝娟英,侯琦,曹嘉文. 計(jì)算機(jī)科學(xué)與探索. 2019(04)
本文編號:3453163
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?DACEC模型結(jié)構(gòu)??Figure?1-1?DACEC’s?model?structure??
?Jpli?士.???^練??*?*??圖2-1?_于倉編碼器的聚類結(jié)構(gòu)??Figure?2-1?Clustering?structure?based?on?auto-encoder??(5)?GAN&VAE??生成對抗網(wǎng)絡(luò)(GAN)和變分自動(dòng)編碼器(VAE)是深度生成學(xué)習(xí)的最強(qiáng)大??框架。生成對抗網(wǎng)絡(luò)的目標(biāo)是在生成器和鑒別器之間達(dá)到平衡,而變分ft動(dòng)編碼??器則試圖最大化對數(shù)似然的下界。目前已經(jīng)為GAN和VAE開發(fā)了系列模型??擴(kuò)展,此外,它們還已經(jīng)應(yīng)用于處理聚類任務(wù)。??生成對抗網(wǎng)絡(luò)是近年來流行的一種深度生成模型,GAN框架在神經(jīng)網(wǎng)絡(luò)之??時(shí)建立了最。畲髮共┺模阂粋(gè)生成網(wǎng)絡(luò)G和一個(gè)判別網(wǎng)絡(luò)D。該生成網(wǎng)絡(luò)??嘗試將樣本z從先前分布p〇)映射到數(shù)據(jù)雙間》而判別網(wǎng)絡(luò)嘗試根據(jù)數(shù)據(jù)分布計(jì)??算輸入是真實(shí)樣本而不是生成網(wǎng)絡(luò)生產(chǎn)數(shù)據(jù)的概率,優(yōu)化目標(biāo)如下面公式(2-3)??所示,可以交替使用SGD優(yōu)化生成器G和判別器GAN提供了一種對抗性的??解決方案,可以將數(shù)據(jù)或其表示的分布與任意先驗(yàn)分布進(jìn)行匹配。近年來,已經(jīng)??提出了許多塞于GAN的聚類算法,其中一些算法特定于聚類任務(wù),而另一些僅??以聚類為特例;冢牵粒蔚纳疃染垲愃惴ň哂校牵粒蜗嗤膯栴},例如難以收??斂和模式崩潰。??minmaxEx^Pdata[logD(x)]?+?Ez^p(z)[log(l?-?D(G(z)))]?(2-3)??變分自動(dòng)編碼器可以看成是ft動(dòng)編碼器的變體,它要求自動(dòng)編碼器的潛在部??分必須遵循_種預(yù)定義的分布,它將變分貝葉斯方法與神經(jīng)網(wǎng)絡(luò)的靈活性和可擴(kuò)??展性結(jié)合在一起,使得神經(jīng)網(wǎng)絡(luò)能適應(yīng)條件后驗(yàn),可以通過隨機(jī)梯度下降和標(biāo)準(zhǔn)?
?3基于去噪_編碼器的鋅度于g間聚類:算袪???如下面圖3-1所示,其中x是原始數(shù)據(jù),2是破壞以后的數(shù)據(jù),/是編碼部分,設(shè)是??解碼部分,L是損失函數(shù)。??★?????L(x,xr)??圖3-1去噪自編碼器??Figure?3-1?Denoising?Autoencoder??如前所述,通過最小化訓(xùn)練集上的平均重建誤差LH(X,Z)?=H(SX||SZ)來訓(xùn)??練參數(shù),使Z盡可能接近未損壞的輸入X,降噪自編碼器最關(guān)鍵的區(qū)別在于z現(xiàn)在??是無的確定函數(shù),而不是x的,因此是x隨機(jī)映射的結(jié)果。根據(jù)如下面公式(3-13)??所示的來定義聯(lián)合分布,其中,Hu共v時(shí),心〇)的值為〇,園此r是尤的確定函??數(shù),qQ〇,兄r)的參數(shù)為0,通過隨機(jī)梯度下降最小化的目標(biāo)函數(shù)變?yōu)橄旅婀??(3-14)所示。??q°(X,X,Y)?=?q°(X)qD(X\X)8fgm(Y)?(3-13)??arg?min?Eq〇{x^?[LH{X,?ge>(fg(X)))]?(3-14)??因此從隨機(jī)梯度下降算法的角度來看,除了從訓(xùn)練集中選取輸入樣本外,降??噪自動(dòng)編碼器還將生成一個(gè)隨機(jī)的損壞樣本,并采取梯度步驟從損壞樣本中重建??未損壞樣本,這種方式與基本的自動(dòng)編碼器不同,因此需要消除了d'<d的約束??或需要專門進(jìn)行正則化來避免這種瑣碎解決方案的約束。??3.?1.3逐層初始化和微調(diào)??墓本的自動(dòng)編碼器已被用作構(gòu)建和訓(xùn)練深度網(wǎng)絡(luò),第k眉的輸入用作第k+1??層的輸出,訓(xùn)練第k+1層的時(shí)候前面k層都已訓(xùn)練過,在訓(xùn)練了幾層之后,將參??數(shù)用作針對監(jiān)督訓(xùn)練標(biāo)準(zhǔn)進(jìn)行優(yōu)化的網(wǎng)絡(luò)的初始化。已經(jīng)證明,這種貪婪的逐層??過程比深度網(wǎng)絡(luò)的隨機(jī)初始化產(chǎn)
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)綜述[J]. 趙德宇. 中國新通信. 2019(15)
[2]自編碼神經(jīng)網(wǎng)絡(luò)理論及應(yīng)用綜述[J]. 袁非牛,章琳,史勁亭,夏雪,李鋼. 計(jì)算機(jī)學(xué)報(bào). 2019(01)
[3]深度卷積自編碼圖像聚類算法[J]. 謝娟英,侯琦,曹嘉文. 計(jì)算機(jī)科學(xué)與探索. 2019(04)
本文編號:3453163
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3453163.html
最近更新
教材專著