聚類分析的新方法研究
發(fā)布時間:2020-12-20 14:42
聚類分析是一種無監(jiān)督學(xué)習(xí),旨在根據(jù)特定的準(zhǔn)則將數(shù)據(jù)集劃分成若干個互不相交的簇(或“類”),從而發(fā)掘數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)信息。本文研究內(nèi)容主要集中于:(1)為提高聚類魯棒性,提出了一種改進(jìn)的模糊C-Means算法;(2)提出一種新的半監(jiān)督避開鞍點的聚類方法。對提出的兩個新聚類方法,通過實驗結(jié)果對比,說明了它們的有效性!耙环N魯棒的模糊聚類方法”:模糊C-Means聚類(Fuzzy C-Means,FCM)未考慮噪音和野值點對聚類的影響,故FCM是欠魯棒的。為了增強(qiáng)魯棒性,將FCM中的光滑距離度量改變?yōu)榉枪饣嚯x度量。由此提出了一種魯棒的模糊聚類方法(Robust FCM,RFCM)。為了求解RFCM對應(yīng)的非光滑優(yōu)化問題,本文采用了MM(Majorization-Minimization,MM)框架。通過在多個數(shù)據(jù)集上的實驗,將RFCM與傳統(tǒng)FCM算法進(jìn)行對比,表明RFCM比FCM具有更好的聚類效果!耙环N新的半監(jiān)督避開鞍點聚類方法”:將成對約束作為弱半監(jiān)督信息引入譜聚類模型中,由此提出了一種新的半監(jiān)督避開鞍點聚類方法(Semi-Supervised Negative Curvature Cl...
【文章來源】:云南師范大學(xué)云南省
【文章頁數(shù)】:40 頁
【學(xué)位級別】:碩士
【部分圖文】:
偏差的平方增長示意圖
第2章一種魯棒的模糊聚類方法102.4.2魯棒性分析FCM聚類模型中的度量距離是歐氏距離的平方,故由噪音點或野值點[23]導(dǎo)致的偏差會按“平方”幅度被放大,從而使得FCM缺乏魯棒性。在模型(2.5)中,若ix是一個野值點,則它到聚類中心jv的偏差按平方“2jivx”增長得很大,從而統(tǒng)治了非野值點對應(yīng)的項。雖然“距離平方”帶來FCM的光滑性,方便了后續(xù)的求導(dǎo)運算,但這也將造成FCM對野值點很敏感,缺乏魯棒性。圖1是“平方”增長示意圖。由圖可知,隨著偏差的增大,“偏差平方”也隨之增長而且增長幅度和坡度越來越大。故當(dāng)野值點離中心相對較遠(yuǎn)時,F(xiàn)CM算法中的距離平方“2jivx”會嚴(yán)重影響聚類的魯棒性,使得類中心朝著野值點偏離。即一個遠(yuǎn)離中心的野值點能對聚類中心的先擇造成很大影響,甚至偏離該類中大部分點所在的區(qū)域,很明顯這是我們在實際中要避免的情形。圖2.1偏差的平方增長示意圖2.5RFCM:一種魯棒的FCM模型2.5.1模型建立為了解決FCM缺少魯棒性的不足,本文提出用距離jiijvxd來替換目標(biāo)函數(shù)(2.5)式中的2jiijvxd,從而來降低野值點對聚類中心的干擾。當(dāng)野值點或噪聲離類中心jv相對較遠(yuǎn)時,相比FCM中的“平方”距離2jiijvxd選勸非平方”距離jiijvxd會使得模型的魯棒性更好。圖2對比了“平方”和“非平方”距離對偏差的放大示意圖。從中可知“非平方”距離對偏差的放大幅度遠(yuǎn)小于“平方”距離,這說明“非平方”距離更具有魯棒性。圖2.2“平方”和“非平方”距離比較示意圖
第2章一種魯棒的模糊聚類方法16圖2.3RFCM和FCM在四種數(shù)據(jù)集上不同模糊指數(shù)m下的聚類純度2.9本章小結(jié)為了提高聚類效果,本文提出了基于“非平方”距離的FCM聚類算法RFCM。在RFCM中,我們將FCM的目標(biāo)函數(shù)中度量樣本到類(簇)中心的“平方”距離,替換成一般的“非平方”距離,其作用很大程度縮短了樣本中噪音或野值點到類中心的距離,從而降低了野值點對類中心的影響,有更好的魯棒性。通過實驗結(jié)果可得出,RFCM方法比FCM具有更高的聚類純度和更好的魯棒性。
【參考文獻(xiàn)】:
期刊論文
[1]AGNES算法在K-means算法中的應(yīng)用[J]. 周愛武,潘勇,崔丹丹,肖云. 微型機(jī)與應(yīng)用. 2011(23)
[2]遺傳+模糊C-均值混合聚類算法[J]. 陳金山,韋崗. 電子與信息學(xué)報. 2002(02)
本文編號:2928046
【文章來源】:云南師范大學(xué)云南省
【文章頁數(shù)】:40 頁
【學(xué)位級別】:碩士
【部分圖文】:
偏差的平方增長示意圖
第2章一種魯棒的模糊聚類方法102.4.2魯棒性分析FCM聚類模型中的度量距離是歐氏距離的平方,故由噪音點或野值點[23]導(dǎo)致的偏差會按“平方”幅度被放大,從而使得FCM缺乏魯棒性。在模型(2.5)中,若ix是一個野值點,則它到聚類中心jv的偏差按平方“2jivx”增長得很大,從而統(tǒng)治了非野值點對應(yīng)的項。雖然“距離平方”帶來FCM的光滑性,方便了后續(xù)的求導(dǎo)運算,但這也將造成FCM對野值點很敏感,缺乏魯棒性。圖1是“平方”增長示意圖。由圖可知,隨著偏差的增大,“偏差平方”也隨之增長而且增長幅度和坡度越來越大。故當(dāng)野值點離中心相對較遠(yuǎn)時,F(xiàn)CM算法中的距離平方“2jivx”會嚴(yán)重影響聚類的魯棒性,使得類中心朝著野值點偏離。即一個遠(yuǎn)離中心的野值點能對聚類中心的先擇造成很大影響,甚至偏離該類中大部分點所在的區(qū)域,很明顯這是我們在實際中要避免的情形。圖2.1偏差的平方增長示意圖2.5RFCM:一種魯棒的FCM模型2.5.1模型建立為了解決FCM缺少魯棒性的不足,本文提出用距離jiijvxd來替換目標(biāo)函數(shù)(2.5)式中的2jiijvxd,從而來降低野值點對聚類中心的干擾。當(dāng)野值點或噪聲離類中心jv相對較遠(yuǎn)時,相比FCM中的“平方”距離2jiijvxd選勸非平方”距離jiijvxd會使得模型的魯棒性更好。圖2對比了“平方”和“非平方”距離對偏差的放大示意圖。從中可知“非平方”距離對偏差的放大幅度遠(yuǎn)小于“平方”距離,這說明“非平方”距離更具有魯棒性。圖2.2“平方”和“非平方”距離比較示意圖
第2章一種魯棒的模糊聚類方法16圖2.3RFCM和FCM在四種數(shù)據(jù)集上不同模糊指數(shù)m下的聚類純度2.9本章小結(jié)為了提高聚類效果,本文提出了基于“非平方”距離的FCM聚類算法RFCM。在RFCM中,我們將FCM的目標(biāo)函數(shù)中度量樣本到類(簇)中心的“平方”距離,替換成一般的“非平方”距離,其作用很大程度縮短了樣本中噪音或野值點到類中心的距離,從而降低了野值點對類中心的影響,有更好的魯棒性。通過實驗結(jié)果可得出,RFCM方法比FCM具有更高的聚類純度和更好的魯棒性。
【參考文獻(xiàn)】:
期刊論文
[1]AGNES算法在K-means算法中的應(yīng)用[J]. 周愛武,潘勇,崔丹丹,肖云. 微型機(jī)與應(yīng)用. 2011(23)
[2]遺傳+模糊C-均值混合聚類算法[J]. 陳金山,韋崗. 電子與信息學(xué)報. 2002(02)
本文編號:2928046
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2928046.html
最近更新
教材專著