基于圖學(xué)習(xí)的屬性選擇與譜聚類算法改進(jìn)研究
發(fā)布時間:2021-03-26 00:54
圖方法因其可以計(jì)算和保持?jǐn)?shù)據(jù)內(nèi)在關(guān)系的特性相較于原始數(shù)據(jù)可以展現(xiàn)出更強(qiáng)的表達(dá)能力,所以被廣泛應(yīng)用到不同的領(lǐng)域中。尤其是在機(jī)器學(xué)習(xí)領(lǐng)域中,圖的結(jié)構(gòu)保持性質(zhì)可以保證在學(xué)習(xí)過程中獲取更多有效信息的情況下保持?jǐn)?shù)據(jù)的原始結(jié)構(gòu)不變。而在不同的圖結(jié)構(gòu)保持方法中,圖的局部近鄰關(guān)系保持方法已經(jīng)在譜屬性選擇算法和譜聚類算法中得到應(yīng)用。不過,先前圖局部鄰域關(guān)系保持方法的局部結(jié)構(gòu)構(gòu)造方式僅依賴歐式距離來衡量空間中樣本相似關(guān)系,一旦數(shù)據(jù)中存在噪音或冗余則會影響建立后的圖矩陣的質(zhì)量從而進(jìn)一步影響最終的機(jī)器學(xué)習(xí)模型學(xué)習(xí)效果。因此,本文將針對現(xiàn)有圖學(xué)習(xí)存在的問題,利用兩種不同的改進(jìn)策略來分別提出兩種能夠建立更高質(zhì)量圖矩陣的方法并利用這兩種新方法分別提出更加有效的基于圖學(xué)習(xí)的機(jī)器學(xué)習(xí)算法。論文的主體部分為下述內(nèi)容:(1)基于局部協(xié)方差和正則化的譜聚類算法(LCSC算法)。LCSC算法將結(jié)合圖學(xué)習(xí)、局部協(xié)方差和數(shù)據(jù)正則化來提出一種高效的譜聚類學(xué)習(xí)模型。此算法通過引入樣本的局部協(xié)方差矩陣來解決單一歐式距離度量可能帶來的簇交叉問題,并使用正則化方法歸一化樣本的相似性量級從而達(dá)到提升聚類算法準(zhǔn)確率的目的。具體地,LCSC首先在...
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:46 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)稀疏圖
廣西師范大學(xué)碩士學(xué)位論文26(a1)數(shù)據(jù)集Hill-Valley(b1)數(shù)據(jù)集Palmdata(c1)數(shù)據(jù)集Newsgroup(d1)數(shù)據(jù)集Isolet(e1)數(shù)據(jù)集Orl(f1)數(shù)據(jù)集Coil圖4.1不同參數(shù)下所有算法的聚類準(zhǔn)確率結(jié)果圖4.1展示了所提出目標(biāo)函數(shù)中參數(shù)對最終屬性選擇結(jié)果的影響。其中,參數(shù)用來調(diào)整擬合回歸項(xiàng)2||||FYXWR和圖學(xué)習(xí)項(xiàng)||||2FXWSXW之間的量級平衡;參數(shù)是用來控制投影矩陣系數(shù)的稀疏程度。從圖中可以看出,算法DFS-SR在數(shù)據(jù)集Hill-Valley和Newsgroup上且當(dāng)設(shè)定參數(shù)103=和=103時,方法均獲得了最佳的聚類表現(xiàn);而當(dāng)在數(shù)據(jù)集Palmdata上時且當(dāng)102=和=103獲得最優(yōu)的結(jié)果。這說明本章提出的算法DFS-SR對于參數(shù)是敏感的,通過調(diào)節(jié)參數(shù)可以獲得更優(yōu)秀的屬性選擇效果。圖4.2展示出了算法DFS-SR在不同數(shù)據(jù)
不同迭代次數(shù)下目標(biāo)函數(shù)值變化
本文編號:3100633
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:46 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)稀疏圖
廣西師范大學(xué)碩士學(xué)位論文26(a1)數(shù)據(jù)集Hill-Valley(b1)數(shù)據(jù)集Palmdata(c1)數(shù)據(jù)集Newsgroup(d1)數(shù)據(jù)集Isolet(e1)數(shù)據(jù)集Orl(f1)數(shù)據(jù)集Coil圖4.1不同參數(shù)下所有算法的聚類準(zhǔn)確率結(jié)果圖4.1展示了所提出目標(biāo)函數(shù)中參數(shù)對最終屬性選擇結(jié)果的影響。其中,參數(shù)用來調(diào)整擬合回歸項(xiàng)2||||FYXWR和圖學(xué)習(xí)項(xiàng)||||2FXWSXW之間的量級平衡;參數(shù)是用來控制投影矩陣系數(shù)的稀疏程度。從圖中可以看出,算法DFS-SR在數(shù)據(jù)集Hill-Valley和Newsgroup上且當(dāng)設(shè)定參數(shù)103=和=103時,方法均獲得了最佳的聚類表現(xiàn);而當(dāng)在數(shù)據(jù)集Palmdata上時且當(dāng)102=和=103獲得最優(yōu)的結(jié)果。這說明本章提出的算法DFS-SR對于參數(shù)是敏感的,通過調(diào)節(jié)參數(shù)可以獲得更優(yōu)秀的屬性選擇效果。圖4.2展示出了算法DFS-SR在不同數(shù)據(jù)
不同迭代次數(shù)下目標(biāo)函數(shù)值變化
本文編號:3100633
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3100633.html
最近更新
教材專著