集成聚類算法及其在個性化推薦中的應(yīng)用研究
發(fā)布時(shí)間:2021-01-28 05:43
聚類是數(shù)據(jù)學(xué)習(xí)中一項(xiàng)關(guān)鍵技術(shù),以無監(jiān)督的形式進(jìn)行分類。通俗地講,聚類就是將數(shù)據(jù)劃分出不一樣的類簇,同一類簇中的相似度盡可能的大,而不在同類簇中的相似度盡可能的小。近年來,聚類出現(xiàn)在很多新的技術(shù)研究領(lǐng)域,如:個性化推薦。個性化推薦是依據(jù)用戶數(shù)據(jù)和喜好習(xí)慣向用戶推送符合偏好的信息,挖掘用戶的潛在需求,這在很大程度上減少了查找信息的時(shí)間,提高了網(wǎng)絡(luò)平臺的效率。協(xié)同過濾算法面對龐雜數(shù)據(jù)進(jìn)行推薦時(shí),算法推薦效率會降低。利用聚類算法數(shù)據(jù)分類的特點(diǎn)來解決推薦中的弊端,不僅能降低計(jì)算量,還提升了推薦效率。聚類算法在個性化推薦技術(shù)中應(yīng)用時(shí),如何實(shí)現(xiàn)快速、高效率的推薦是研究的重難點(diǎn)。本文針對經(jīng)典聚類算法自身的不足和推薦算法存在的問題缺點(diǎn)等進(jìn)行分析研究,工作具體如下:(1)針對K-means算法隨機(jī)生成初始中心對結(jié)果干擾大以及容易陷入局部最優(yōu)的缺點(diǎn),先提出了依靠密度峰值優(yōu)化K-means初始中心的F-KMs聚類算法,再提出名為N-FK的集成算法:不僅可以快速得到最佳初始中心并且利用譜聚類的算法特點(diǎn)解決了F-KMs無法處理任意密度形狀的數(shù)據(jù)的不足。(2)針對在處理大規(guī)模數(shù)據(jù)時(shí),近鄰傳播(AP)算法復(fù)雜度高且需...
【文章來源】:西北師范大學(xué)甘肅省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策圖
第3章基于密度峰值優(yōu)化的N-FK聚類算法研究13而為了方便觀察且算法便于計(jì)算、存儲將局部密度和距離以乘積的形式展現(xiàn),設(shè)定了一個變量:iiiSiI(3-4)將局部密度和距離以乘積的形式展現(xiàn),很明顯當(dāng)與的值越大,乘積越大,由此可以得到最佳的聚類中心的備選點(diǎn)。如圖3-3所示。圖3-3γ值的降序排列圖但是,F(xiàn)DP也存在一些自身缺點(diǎn):(1)乘積值大,并不能說明與都大,所以依據(jù)此判斷對于一些密度不均的數(shù)據(jù),就無法得到最佳聚類中心和個數(shù);(2)對非類中心點(diǎn)的劃分,忽略點(diǎn)之間的內(nèi)在聯(lián)系,可能存在密度高的不一定是臨近點(diǎn),就造成部分點(diǎn)劃分錯誤;(3)參數(shù)對結(jié)果影響大。3.1.2NJW譜聚類譜聚類[46]算法原理是將聚類轉(zhuǎn)變成圖的劃分問題,本質(zhì)上就是將數(shù)據(jù)點(diǎn)都當(dāng)成頂點(diǎn),把頂點(diǎn)通過帶權(quán)值的邊鏈接,權(quán)值即是頂點(diǎn)間的相似度,那么聚類就看作分切這些帶權(quán)的邊。通過這一步轉(zhuǎn)化,就可以解決傳統(tǒng)聚類方式無法聚類任意形狀數(shù)據(jù)的弊端。最具代表性的譜聚類就是多路譜聚類的一種—NJW算法[47],其本質(zhì)就是構(gòu)造數(shù)據(jù)點(diǎn)的相似度矩陣(圖),獲取矩陣的特征向量,轉(zhuǎn)化成將特征向量劃分成K個類(即將圖切割成K個子圖),圖內(nèi)的相似度盡可能大,子圖間的相似度最弱[46]。構(gòu)造相似度矩陣?yán)玫母咚购撕瘮?shù)如下式(3-5):2exp2ijijdA(3-5)公式中,ijd表示點(diǎn)ix與jx之間的距離,是尺度參數(shù)。參數(shù)的取值對算法
西北師范大學(xué)碩士學(xué)位論文20具體N-FK算法步驟如下:算法3.2N-FK聚類算法輸入:含n個樣本的數(shù)據(jù)集X{x1,x2,xn},所要劃分的類個數(shù)K。輸出:數(shù)據(jù)集X中所有點(diǎn)的劃分結(jié)果。Step1:構(gòu)造集合X的相似度矩陣A,計(jì)算得到拉氏矩陣L;Step2:求各個點(diǎn)的局部密度和距離的值,根據(jù)式(3-6)、(3-7)排除異常點(diǎn)后求=*的值,并對乘積的值降序排列;Step3:取值最大的前K個點(diǎn)作為初始中心;Step4:計(jì)算拉氏矩陣L的特征值和特征向量,并選取最大的K個特征值的特征向量構(gòu)成矩陣Xx1,x2xKRnK;Step5:將矩陣X的行向量標(biāo)準(zhǔn)化為單位向量,得到矩陣Y;Step6:選用F-KMs算法對n個特征點(diǎn)(Y的每一行就是一個特征點(diǎn))聚類,獲得K個類。Step7:輸出結(jié)果及類中心。在上述3.12節(jié)NJW算法介紹中有提到關(guān)于參數(shù)選擇的重要性,目前流行的交叉驗(yàn)證方法需要經(jīng)過多次驗(yàn)證取性能最好的值,這就需要多次的實(shí)驗(yàn)跟經(jīng)驗(yàn)選擇,耗時(shí)耗力,取值結(jié)果還可能不合適。本文選擇了文獻(xiàn)[56]提出的一種參照核函數(shù)自身性質(zhì)和幾何距離的兩方面來選擇,且利用高斯核函數(shù)的麥克勞林展開解決了參數(shù)的優(yōu)化選擇,選擇希爾伯特空間距離的平方作為衡量指標(biāo),將參數(shù)的確定轉(zhuǎn)化為最優(yōu)求解的問題[56]。3.5實(shí)驗(yàn)結(jié)果與分析在3.3節(jié)文章已經(jīng)對關(guān)于密度峰值優(yōu)化下選取初始中心點(diǎn)的性能效果做了實(shí)驗(yàn)分析,結(jié)果表明要比隨機(jī)選取初始中點(diǎn)的性能有提升,此處就不在多加測評。此小節(jié)實(shí)驗(yàn)將K-means算法、FDP算法、F-KMs算法以及N-FK分別對不同形狀性質(zhì)的二維數(shù)據(jù)聚類結(jié)果做了對比,以結(jié)果導(dǎo)入MATLAB中可視化數(shù)據(jù)結(jié)果,以分類結(jié)果圖展示如下:(a)k-means算法(b)FDP算法(c)F-KMs算法(d)N-FK算法圖3-6含兩個球形類簇的140-2數(shù)據(jù)集
本文編號:3004456
【文章來源】:西北師范大學(xué)甘肅省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
決策圖
第3章基于密度峰值優(yōu)化的N-FK聚類算法研究13而為了方便觀察且算法便于計(jì)算、存儲將局部密度和距離以乘積的形式展現(xiàn),設(shè)定了一個變量:iiiSiI(3-4)將局部密度和距離以乘積的形式展現(xiàn),很明顯當(dāng)與的值越大,乘積越大,由此可以得到最佳的聚類中心的備選點(diǎn)。如圖3-3所示。圖3-3γ值的降序排列圖但是,F(xiàn)DP也存在一些自身缺點(diǎn):(1)乘積值大,并不能說明與都大,所以依據(jù)此判斷對于一些密度不均的數(shù)據(jù),就無法得到最佳聚類中心和個數(shù);(2)對非類中心點(diǎn)的劃分,忽略點(diǎn)之間的內(nèi)在聯(lián)系,可能存在密度高的不一定是臨近點(diǎn),就造成部分點(diǎn)劃分錯誤;(3)參數(shù)對結(jié)果影響大。3.1.2NJW譜聚類譜聚類[46]算法原理是將聚類轉(zhuǎn)變成圖的劃分問題,本質(zhì)上就是將數(shù)據(jù)點(diǎn)都當(dāng)成頂點(diǎn),把頂點(diǎn)通過帶權(quán)值的邊鏈接,權(quán)值即是頂點(diǎn)間的相似度,那么聚類就看作分切這些帶權(quán)的邊。通過這一步轉(zhuǎn)化,就可以解決傳統(tǒng)聚類方式無法聚類任意形狀數(shù)據(jù)的弊端。最具代表性的譜聚類就是多路譜聚類的一種—NJW算法[47],其本質(zhì)就是構(gòu)造數(shù)據(jù)點(diǎn)的相似度矩陣(圖),獲取矩陣的特征向量,轉(zhuǎn)化成將特征向量劃分成K個類(即將圖切割成K個子圖),圖內(nèi)的相似度盡可能大,子圖間的相似度最弱[46]。構(gòu)造相似度矩陣?yán)玫母咚购撕瘮?shù)如下式(3-5):2exp2ijijdA(3-5)公式中,ijd表示點(diǎn)ix與jx之間的距離,是尺度參數(shù)。參數(shù)的取值對算法
西北師范大學(xué)碩士學(xué)位論文20具體N-FK算法步驟如下:算法3.2N-FK聚類算法輸入:含n個樣本的數(shù)據(jù)集X{x1,x2,xn},所要劃分的類個數(shù)K。輸出:數(shù)據(jù)集X中所有點(diǎn)的劃分結(jié)果。Step1:構(gòu)造集合X的相似度矩陣A,計(jì)算得到拉氏矩陣L;Step2:求各個點(diǎn)的局部密度和距離的值,根據(jù)式(3-6)、(3-7)排除異常點(diǎn)后求=*的值,并對乘積的值降序排列;Step3:取值最大的前K個點(diǎn)作為初始中心;Step4:計(jì)算拉氏矩陣L的特征值和特征向量,并選取最大的K個特征值的特征向量構(gòu)成矩陣Xx1,x2xKRnK;Step5:將矩陣X的行向量標(biāo)準(zhǔn)化為單位向量,得到矩陣Y;Step6:選用F-KMs算法對n個特征點(diǎn)(Y的每一行就是一個特征點(diǎn))聚類,獲得K個類。Step7:輸出結(jié)果及類中心。在上述3.12節(jié)NJW算法介紹中有提到關(guān)于參數(shù)選擇的重要性,目前流行的交叉驗(yàn)證方法需要經(jīng)過多次驗(yàn)證取性能最好的值,這就需要多次的實(shí)驗(yàn)跟經(jīng)驗(yàn)選擇,耗時(shí)耗力,取值結(jié)果還可能不合適。本文選擇了文獻(xiàn)[56]提出的一種參照核函數(shù)自身性質(zhì)和幾何距離的兩方面來選擇,且利用高斯核函數(shù)的麥克勞林展開解決了參數(shù)的優(yōu)化選擇,選擇希爾伯特空間距離的平方作為衡量指標(biāo),將參數(shù)的確定轉(zhuǎn)化為最優(yōu)求解的問題[56]。3.5實(shí)驗(yàn)結(jié)果與分析在3.3節(jié)文章已經(jīng)對關(guān)于密度峰值優(yōu)化下選取初始中心點(diǎn)的性能效果做了實(shí)驗(yàn)分析,結(jié)果表明要比隨機(jī)選取初始中點(diǎn)的性能有提升,此處就不在多加測評。此小節(jié)實(shí)驗(yàn)將K-means算法、FDP算法、F-KMs算法以及N-FK分別對不同形狀性質(zhì)的二維數(shù)據(jù)聚類結(jié)果做了對比,以結(jié)果導(dǎo)入MATLAB中可視化數(shù)據(jù)結(jié)果,以分類結(jié)果圖展示如下:(a)k-means算法(b)FDP算法(c)F-KMs算法(d)N-FK算法圖3-6含兩個球形類簇的140-2數(shù)據(jù)集
本文編號:3004456
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3004456.html
最近更新
教材專著