基于密度聚類算法的若干改進及應用研究
發(fā)布時間:2024-05-07 22:58
隨著大數(shù)據(jù)時代的到來和人工智能的逐漸成熟,尋求分析和利用大規(guī)模原始數(shù)據(jù)并從中發(fā)掘價值信息的方式是學術界的研究重點。聚類技術在數(shù)據(jù)挖掘中占據(jù)重要地位,由海量數(shù)據(jù)中獲取數(shù)據(jù)潛在內(nèi)部結(jié)構(gòu)是當下人工智能領域的重點研究任務。截至目前,無監(jiān)督學習領域主要包括兩類最具競爭力聚類技術,一是密度峰值聚類(Clustering by Fast Search and Find of Density Peaks,DPC)算法,二是基于密度帶有噪聲的空間聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法。但上述算法依然有一定不足:(1)采取密度峰值聚類算法時必須通過手動設置截斷距離參數(shù);(2)密度峰值聚類算法需手動圈出聚類中心點;(3)基于密度帶有噪聲的空間聚類算法存在全局參數(shù)聚類半徑Eps需人工設定的問題。結(jié)合以上問題,對其提出針對性整改意見:(1)采取基于密度帶有噪聲的空間聚類算法時,必須通過人工設定獲取全局參數(shù)聚類半徑Eps,對于該問題提出一種改進的基于密度帶有噪聲空間聚類(Improved Density-Ba...
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3967116
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
圖2.2決策圖中聚類中心數(shù)難以確定的例子在ρ、δ中挑選樣本較大者作為聚類中心,并聚類余下樣本,即將其列入密
2.2決策圖中聚類中心數(shù)難以確定樣本較大者作為聚類中心,并聚類近距離更近的樣本所在的類中,直取一步分配策略后,效率得到顯圖,該算法達到了通過二維平面呈
圖2.3γ數(shù)值變化情況
圖2.3γ數(shù)值變化情況代表指標集,縱軸代表γ數(shù)值:γ數(shù)值由非聚類中心轉(zhuǎn)至聚類中心時出現(xiàn)跳
圖3.1spiral數(shù)據(jù)集k-dist圖
圖3.1spiral數(shù)據(jù)集k-dist圖DBSCAN算法能夠運用繪制降序k-dist圖的可視想”值無限接近;不過仍會因為細小差距,導致ts以后,通過以下方式對DBSCAN算法在輸入?yún)?/span>
圖3.2聚類結(jié)果對比
(c)aggregation數(shù)據(jù)集聚類結(jié)果(d)flame數(shù)據(jù)集聚類結(jié)果圖3.2聚類結(jié)果對比通過對UCI數(shù)據(jù)集聚類,從上述四組聚類結(jié)果可以清晰看出,DBSCAN算法和DPC算法對一些數(shù)據(jù)集無法得到合理的結(jié)果,而CS-DBSCAN算法在測試的數(shù)據(jù)集上得到的聚類結(jié)果,基本反映數(shù)據(jù)的....
本文編號:3967116
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3967116.html
最近更新
教材專著