天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于快速搜索和發(fā)現(xiàn)的密度峰值聚類算法研究與應(yīng)用

發(fā)布時(shí)間:2021-08-23 18:59
  近些年來(lái),互聯(lián)網(wǎng)飛速發(fā)展,人們?cè)诟餍懈鳂I(yè)產(chǎn)生了海量數(shù)據(jù),使得人們慢慢進(jìn)入了真正意義的新時(shí)代—數(shù)據(jù)時(shí)代。因此,如何從存儲(chǔ)的數(shù)據(jù)中挖掘其潛在的價(jià)值,以便能夠更好地推動(dòng)工業(yè)、商業(yè)、交通和醫(yī)療等領(lǐng)域的發(fā)展,為人類社會(huì)進(jìn)步做出貢獻(xiàn),數(shù)據(jù)挖掘算法的研究成為了當(dāng)代研究學(xué)者熱門研究課題。聚類分析算法是在數(shù)據(jù)挖據(jù)領(lǐng)域中眾多熱門研究課題之一,它隸屬于機(jī)器學(xué)習(xí)中無(wú)監(jiān)督學(xué)習(xí)模塊。在2014年,Alex Rodriguez和Alessandro Laio在Science雜志上發(fā)表了一篇名為通過(guò)快速搜索和發(fā)現(xiàn)的密度峰值聚類算法(Clustering by fast search and find of density peaks,CFSFDP)的文章,該方法在聚類算法領(lǐng)域另辟蹊徑,克服了之前聚類算法只能識(shí)別和發(fā)現(xiàn)基于距離的圓形簇的缺陷,還可以對(duì)不同形狀的簇聚類,而且對(duì)噪聲不敏感。本文主要在以下幾個(gè)方面進(jìn)行改進(jìn):(1)首先,針對(duì)CFSFDP算法在確定聚類中心時(shí),總是受人為主觀因素的制約,使得聚類缺乏科學(xué)性和準(zhǔn)確性,本文提出了一種基于正序迭代選擇策略的密度峰值聚類算法。首先,對(duì)于決策函數(shù)中變量分布不均勻的情形,進(jìn)行了... 

【文章來(lái)源】:浙江工業(yè)大學(xué)浙江省

【文章頁(yè)數(shù)】:74 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于快速搜索和發(fā)現(xiàn)的密度峰值聚類算法研究與應(yīng)用


樣本點(diǎn)二維圖

決策圖


地排除了之前所述情況的發(fā)生?梢宰畲蟪潭鹊乇WC不同的數(shù)據(jù)點(diǎn)擁有不同的局部密度(重合數(shù)據(jù)點(diǎn)的局部密度除外)。公式 2-3 中數(shù)據(jù)點(diǎn) i 的局部密度 ρi同樣可以反映距離比截?cái)嗑嚯x更近的點(diǎn)數(shù)[44]。dij為數(shù)據(jù)點(diǎn)ix 與數(shù)據(jù)點(diǎn)jx 相互間的歐式距離,用以表示數(shù)據(jù)點(diǎn)之間的相似度。對(duì)于距離,這里采用文獻(xiàn)[28]距離的計(jì)算方式。距離反映的是對(duì)每一個(gè)數(shù)據(jù)點(diǎn)i 與局部密度值比之大,且距離 dij最小的數(shù)據(jù)點(diǎn) j 之間的距離,其中密度最大值點(diǎn)取 i j ij max d。定義 2 歸一化決策函數(shù):min minmax min max min*i i (2-4)為了尋找到最佳聚類中心數(shù),首先定義一個(gè)對(duì)局部密度和距離度量函數(shù),并且為了避免局部密度和距離的分布不均勻而導(dǎo)致的決策函數(shù)受單一變量影響較大的情況發(fā)生,對(duì)決策函數(shù)進(jìn)行歸一化處理,對(duì)每一個(gè)變量進(jìn)行單位縮放,這里稱為決策函數(shù) γ。決策圖如圖 2-4 所示。

效果圖,聚類中心,效果圖


而△mc為聚類樣本數(shù)的增量,其中1=c cm m m , mc為當(dāng)聚類中心數(shù)為 c時(shí)的 m 值。拐點(diǎn)方法(elbow method)是聚類分析里面的一個(gè)方法,旨在幫助找到數(shù)據(jù)集中簇的適當(dāng)數(shù)量[70]。它通常是通過(guò)計(jì)算簇內(nèi)誤方差(SSE)作為目標(biāo)函數(shù)來(lái)劃分簇,不同的簇?cái)?shù)有不同的 SSE 值,根據(jù) SSE 的變化規(guī)律選擇最佳聚類中心數(shù)。(a) 3 個(gè)聚類中心 (b) 4 個(gè)聚類中心

【參考文獻(xiàn)】:
期刊論文
[1]基于正序迭代選擇策略的聚類中心自動(dòng)選擇方法[J]. 王萬(wàn)良,呂闖,趙燕偉,高楠,楊小涵,張兆娟.  模式識(shí)別與人工智能. 2019(02)
[2]基于MapReduce的CTK加權(quán)聚類改進(jìn)算法[J]. 王萬(wàn)良,胡禹.  微電子學(xué)與計(jì)算機(jī). 2018(12)
[3]基于Spark并行的密度峰值聚類算法[J]. 孫偉鵬,吳錫生,孟斌.  計(jì)算機(jī)應(yīng)用研究. 2020(01)
[4]基于網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量的重疊社區(qū)發(fā)現(xiàn)算法[J]. 杜航原,王文劍,白亮.  計(jì)算機(jī)研究與發(fā)展. 2018(08)
[5]大數(shù)據(jù)技術(shù)在配電網(wǎng)中的應(yīng)用綜述[J]. 費(fèi)思源.  中國(guó)電機(jī)工程學(xué)報(bào). 2018(01)
[6]一種基于相對(duì)密度和決策圖的聚類算法[J]. 周世波,徐維祥.  控制與決策. 2018(11)
[7]密度峰值聚類相關(guān)問(wèn)題的研究[J]. 楊潔,王國(guó)胤,龐紫玲.  南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2017(04)
[8]水利大數(shù)據(jù)研究綜述[J]. 陳軍飛,鄧夢(mèng)華,王慧敏.  水科學(xué)進(jìn)展. 2017(04)
[9]一種改進(jìn)的搜索密度峰值的聚類算法[J]. 淦文燕,劉沖.  智能系統(tǒng)學(xué)報(bào). 2017(02)
[10]一種基于簇邊界的密度峰值點(diǎn)快速搜索聚類算法[J]. 賈培靈,樊建聰,彭延軍.  南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2017(02)

碩士論文
[1]大數(shù)據(jù)實(shí)時(shí)流式聚類處理框架研究[D]. 李子柳.中山大學(xué) 2013



本文編號(hào):3358416

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3358416.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4c34***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com