密度聚類算法性能優(yōu)化和參數(shù)選取研究
發(fā)布時間:2021-11-12 09:55
DBSCAN是密度聚類的代表性算法,是當下科研人員的研究熱點,本文針對DBSCAN算法進行了深入研究,并針對其性能和參數(shù)選取等方面存在的不足進行了改進。論文工作主要包含以下幾點:(1)密度聚類算法代表算法DBSCAN是本文深入的研究的重點。聚類包含多種算法,目前還沒有哪一種算法能夠針對各類數(shù)據(jù)集做出完美的聚類,每種算法都存在著自身的優(yōu)勢和適用的數(shù)據(jù)類型,也都存在著各自的不足。密度聚類是聚類算法中的一種,同時密度聚類也包含多種算法。本文對密度聚類的代表性算法DBSCAN進行了深入分析,闡述了DBSCAN算法的基本原理和算法設(shè)計流程,分析了近幾年針對DBSCAN算法的相關(guān)改進,在已有研究基礎(chǔ)上針對算法性能和參數(shù)選取提出了相關(guān)的解決方案。(2)針對密度聚類算法DBSCAN對數(shù)據(jù)量大的數(shù)據(jù)集聚類效率低下的不足,提出一種方形鄰域快速網(wǎng)格密度聚類算法。首先給出方形鄰域密度聚類定義,利用方形鄰域代替圓形鄰域,無需距離計算,極大的降低了算法的時間復雜度;其次提出方形鄰域密度聚類的4)(9概念,使得高密度區(qū)域內(nèi)的核心點能夠被快速確定、數(shù)據(jù)點之間的密度關(guān)系也能夠被快速確定,利用密度間的關(guān)系,遍歷數(shù)據(jù)集的次...
【文章來源】:江西理工大學江西省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
聚類示意圖
第二章基于密度的聚類算法綜述12距離分析理論:CBSCAN將數(shù)據(jù)集中的對象劃分至邊長為2√2的網(wǎng)格中,每個網(wǎng)格稱之為。如圖2.3所示,點無論在其的左上角(藍點)還是在其右下角(紅點),其附近9個網(wǎng)格內(nèi)的鄰居點的數(shù)量只需要計數(shù)即可,無需進行距離的計算即可確定網(wǎng)格中的點是p的鄰居點。之后,再統(tǒng)計剩下的36個網(wǎng)格中是否有p的鄰居點,這一步需要計算這些網(wǎng)格中的點與p點之間的距離。圖2.3CBSCANCell在上面的計算中,如果點附近9個網(wǎng)格內(nèi)的鄰居點的數(shù)量就已經(jīng)大于了,則可以確定所在網(wǎng)格內(nèi)的所有點都是核心點。如果附近9個網(wǎng)格內(nèi)的鄰居點無法確定是否是核心點,則最多需要再檢查36個網(wǎng)格即可確定是否為核心點。如果36個網(wǎng)格內(nèi)的數(shù)據(jù)點數(shù)量小于,則可以確定,所在網(wǎng)格內(nèi)沒有核心點。CBSCAN給出了基于的密度簇概念,與距離分析理論相結(jié)合,只需要少量的距離計算,即可將處于高密度的核心點快速找出,本來需要的距離計算被大量剪枝,所以快速的排除掉了低密度的核心點。CBSCAN算法具有較高的性能,不足之處是只能針對2維數(shù)據(jù)進行聚類。2.4常用的參數(shù)選取算法每個數(shù)據(jù)挖掘任務都有參數(shù)問題。每個參數(shù)對算法都會有影響,正確的選取算法的參數(shù)是至關(guān)重要的。對于DBSCAN,需要參數(shù)和,參數(shù)必須由使用者指
【參考文獻】:
期刊論文
[1]基于K-均值聚類的彩色圖像質(zhì)量評價及優(yōu)化[J]. 吳明明,陳勇,房昊. 計算機應用研究. 2019(10)
[2]基于聚類和流量傳播圖的P2P流量識別方法[J]. 蘇陽陽,孫冬璞,李丹丹,孫廣路. 計算機應用研究. 2019(11)
[3]一種基于密度的分布式聚類方法[J]. 王巖,彭濤,韓佳育,劉露. 軟件學報. 2017(11)
[4]面向位置大數(shù)據(jù)的快速密度聚類算法[J]. 于彥偉,賈召飛,曹磊,趙金東,劉兆偉,劉驚雷. 軟件學報. 2018(08)
[5]自動確定聚類中心的密度峰值算法[J]. 王洋,張桂珠. 計算機工程與應用. 2018(08)
[6]基于路網(wǎng)的LBSN用戶移動軌跡聚類挖掘方法[J]. 鄒永貴,萬建斌,夏英. 計算機應用研究. 2013(08)
[7]“古典概型”的魅力[J]. 華銳. 調(diào)研世界. 2012(07)
[8]一種有效的蛋白質(zhì)序列聚類分析方法[J]. 唐東明,朱清新,楊凡,陳科. 軟件學報. 2011(08)
本文編號:3490676
【文章來源】:江西理工大學江西省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
聚類示意圖
第二章基于密度的聚類算法綜述12距離分析理論:CBSCAN將數(shù)據(jù)集中的對象劃分至邊長為2√2的網(wǎng)格中,每個網(wǎng)格稱之為。如圖2.3所示,點無論在其的左上角(藍點)還是在其右下角(紅點),其附近9個網(wǎng)格內(nèi)的鄰居點的數(shù)量只需要計數(shù)即可,無需進行距離的計算即可確定網(wǎng)格中的點是p的鄰居點。之后,再統(tǒng)計剩下的36個網(wǎng)格中是否有p的鄰居點,這一步需要計算這些網(wǎng)格中的點與p點之間的距離。圖2.3CBSCANCell在上面的計算中,如果點附近9個網(wǎng)格內(nèi)的鄰居點的數(shù)量就已經(jīng)大于了,則可以確定所在網(wǎng)格內(nèi)的所有點都是核心點。如果附近9個網(wǎng)格內(nèi)的鄰居點無法確定是否是核心點,則最多需要再檢查36個網(wǎng)格即可確定是否為核心點。如果36個網(wǎng)格內(nèi)的數(shù)據(jù)點數(shù)量小于,則可以確定,所在網(wǎng)格內(nèi)沒有核心點。CBSCAN給出了基于的密度簇概念,與距離分析理論相結(jié)合,只需要少量的距離計算,即可將處于高密度的核心點快速找出,本來需要的距離計算被大量剪枝,所以快速的排除掉了低密度的核心點。CBSCAN算法具有較高的性能,不足之處是只能針對2維數(shù)據(jù)進行聚類。2.4常用的參數(shù)選取算法每個數(shù)據(jù)挖掘任務都有參數(shù)問題。每個參數(shù)對算法都會有影響,正確的選取算法的參數(shù)是至關(guān)重要的。對于DBSCAN,需要參數(shù)和,參數(shù)必須由使用者指
【參考文獻】:
期刊論文
[1]基于K-均值聚類的彩色圖像質(zhì)量評價及優(yōu)化[J]. 吳明明,陳勇,房昊. 計算機應用研究. 2019(10)
[2]基于聚類和流量傳播圖的P2P流量識別方法[J]. 蘇陽陽,孫冬璞,李丹丹,孫廣路. 計算機應用研究. 2019(11)
[3]一種基于密度的分布式聚類方法[J]. 王巖,彭濤,韓佳育,劉露. 軟件學報. 2017(11)
[4]面向位置大數(shù)據(jù)的快速密度聚類算法[J]. 于彥偉,賈召飛,曹磊,趙金東,劉兆偉,劉驚雷. 軟件學報. 2018(08)
[5]自動確定聚類中心的密度峰值算法[J]. 王洋,張桂珠. 計算機工程與應用. 2018(08)
[6]基于路網(wǎng)的LBSN用戶移動軌跡聚類挖掘方法[J]. 鄒永貴,萬建斌,夏英. 計算機應用研究. 2013(08)
[7]“古典概型”的魅力[J]. 華銳. 調(diào)研世界. 2012(07)
[8]一種有效的蛋白質(zhì)序列聚類分析方法[J]. 唐東明,朱清新,楊凡,陳科. 軟件學報. 2011(08)
本文編號:3490676
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3490676.html
最近更新
教材專著