聚類分析是數(shù)據(jù)挖掘的主流技術(shù)之一,它在人工智能領(lǐng)域有著廣泛應(yīng)用。簇的定義和聚類方法的雙重多樣性致使數(shù)據(jù)科學(xué)發(fā)展過程中聚類算法擁有“數(shù)量龐大”“類型多樣”等特點。一般而言,能將無標(biāo)簽的樣本點聚為若干個簇的算法都可以稱為聚類算法,人們常根據(jù)這些算法的基本思想或基本假設(shè)將其分為幾個常見的類型:分割聚類法、層次聚類法、密度聚類法、網(wǎng)格聚類法、模型聚類法等。該文提出了一類基于局部中心量度的聚類算法,其創(chuàng)造性成果主要體現(xiàn)在:1)首創(chuàng)性地提出了局部中心量度的概念。局部中心量度是衡量空間中任意點的局部中心程度的量,聚類過程中區(qū)分中心區(qū)域的點和邊緣區(qū)域的點有賴于正確估計出樣本點的局部中心程度。該文認(rèn)為,密度聚類算法中選用的樣本點密度起著局部中心量度的作用:密度高于預(yù)先設(shè)定的閾值的樣本點被劃分為核心區(qū)域的點,而密度低于閾值的樣本點被劃分為邊緣區(qū)域的點,它們之間相互連接形成最終的聚類結(jié)果。經(jīng)驗上,樣本點密度較大的區(qū)域通常是簇中心區(qū)域,而樣本點密度較小的區(qū)域通常是簇邊緣區(qū)域。因而,有著完善的數(shù)學(xué)理論基礎(chǔ)的樣本點密度最先成為局部中心量度被廣泛應(yīng)用。然而,樣本點密度作為局部中心量度存在著缺陷:密度閾值難以先于經(jīng)驗給出,這將導(dǎo)致以樣本點密度為局部中心量度的聚類算法對參數(shù)敏感;不同的簇可能有著相差較大的最佳閾值,這將導(dǎo)致以樣本點密度為局部中心量度的聚類算法難以處理不平衡問題。因此,人們需要設(shè)計新的局部中心量度。2)設(shè)計了多個局部中心量度。局部中心量度的準(zhǔn)確性直接影響到聚類結(jié)果的正確性,一個良好的局部中心量度除了能夠正確反映樣本點的真實局部中心程度外還需要考慮:局部中心量度的穩(wěn)定性,即不論應(yīng)用于何種分布的數(shù)據(jù),區(qū)分中心區(qū)域和邊緣區(qū)域的樣本點的閾值相對穩(wěn)定,易于算法參數(shù)的選取,降低算法對參數(shù)的敏感度;局部中心量度的健壯性,即計算結(jié)果不易受數(shù)據(jù)分布的不平衡性影響。該文分別從mean shift和局部引力模型出發(fā),設(shè)計了穩(wěn)定性和健壯性更強的局部中心量度。3)提出了局部引力模型和新的聚類算法;诰植恳δP,該文借助不同的局部中心量度間的多樣性,同時使用多個局部中心量度,提出了LGC算法和CLA算法。新提出的聚類算法具有易于調(diào)參,結(jié)果準(zhǔn)確等特點。4)設(shè)計了適用于多性能指標(biāo)體系下的非參數(shù)檢驗方法。衡量聚類算法性能的指標(biāo)較多,常見的有RI、ARI、NMI等。多種指標(biāo)之間的數(shù)值相互直接比較是沒有意義的,如就算法甲的RI值和算法乙的NMI值進(jìn)行直接比較是沒有意義的。該文采用秩轉(zhuǎn)化的方法,提出了三種不同的計算秩的方法,將不同的性能指標(biāo)對應(yīng)的具體數(shù)值轉(zhuǎn)化為秩值,通過對秩值進(jìn)行統(tǒng)計檢驗完成多性能指標(biāo)的融合。
【學(xué)位單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馮振華;錢雪忠;趙娜娜;;Greedy DBSCAN:一種針對多密度聚類的DBSCAN改進(jìn)算法[J];計算機應(yīng)用研究;2016年09期
2 ;A generalized mean shift tracking algorithm[J];Science China(Information Sciences);2011年11期
3 王爽;夏玉;焦李成;;基于均值漂移的自適應(yīng)紋理圖像分割方法[J];軟件學(xué)報;2010年06期
4 嚴(yán)太生;張彥霞;趙永恒;李冀;;基于自動聚類算法(AutoClass)的恒星/星系分類[J];中國科學(xué)(G輯:物理學(xué) 力學(xué) 天文學(xué));2009年12期
5 趙玉艷;郭景峰;鄭麗珍;李晶;;一種改進(jìn)的BIRCH分層聚類算法[J];計算機科學(xué);2008年03期
6 蔣盛益,李慶華;一種基于引力的聚類方法[J];計算機應(yīng)用;2005年02期
7 蔡穎琨,謝昆青,馬修軍;屏蔽了輸入?yún)?shù)敏感性的DBSCAN改進(jìn)算法[J];北京大學(xué)學(xué)報(自然科學(xué)版);2004年03期
8 許少華,何新貴,李盼池;自組織過程神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計算機研究與發(fā)展;2003年11期
9 王莉,王正歐;TGSOM:一種用于數(shù)據(jù)聚類的動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)[J];電子與信息學(xué)報;2003年03期
10 吳郢,閻平凡;結(jié)構(gòu)自適應(yīng)自組織神經(jīng)網(wǎng)絡(luò)的研究[J];電子學(xué)報;1999年07期
本文編號:
2808987
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2808987.html