基于層次和密度的任意形狀聚類算法研究
本文關(guān)鍵詞: 層次聚類 密度聚類 任意形狀聚類 子簇合并 密度峰值點 邊界區(qū)域密度 出處:《河南理工大學》2016年碩士論文 論文類型:學位論文
【摘要】:聚類技術(shù)作為數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向,可以有效地幫助人們了解數(shù)據(jù)的分布和特征,以便作進一步研究分析。雖然已有的聚類算法很多,但聚類技術(shù)依然存在很多問題和挑戰(zhàn)。結(jié)合層次聚類算法和密度聚類算法,本文提出一種新的任意形狀聚類算法。該算法在層次聚類技術(shù)的框架下,使用基于密度聚類的思想來定義子簇和子簇合并方法,論文的主要工作如下:(1)針對目前層次聚類算法的計算時間復(fù)雜度較高,并且需要人為輸入聚類個數(shù)或者閾值參數(shù)作為聚類終止條件的問題,本文提出了一種新穎的基于密度的子簇合并方法,將簇間邊界區(qū)域密度大于等于其中任何一個簇平均密度的相鄰子簇進行合并。該子簇合并準則使用動態(tài)模型的方法,能夠自動適應(yīng)被合并簇之間的內(nèi)部特征屬性,可自動確定聚類個數(shù)和聚類終止點,從而發(fā)現(xiàn)任意形狀的聚類。(2)針對密度聚類算法容易忽略密度稀疏區(qū)域中的密度峰值點的問題,本文找出距離其他高密度點距離較遠的點作為密度峰值點,放寬了對密度峰值點的選擇范圍。然后,根據(jù)這些密度峰值點將數(shù)據(jù)集切分為大量初始子簇,而且得到的子簇比較正確。(3)針對密度聚類方法使用全局統(tǒng)一的距離參數(shù),不利于密度差異較大數(shù)據(jù)集的問題,本文通過將低密度數(shù)據(jù)集與高密度數(shù)據(jù)集分層,將低密度子簇篩選出來,設(shè)置合適的距離參數(shù)進行聚類來解決上述問題。在測試數(shù)據(jù)集以及真實數(shù)據(jù)集上的對比實驗表明,本文算法具有能自動確定聚類個數(shù),能夠有效地發(fā)現(xiàn)任意形狀、大小的聚類,對輸入?yún)?shù)的選擇具有魯棒性,并且適用于密度分布不均勻的數(shù)據(jù)集等優(yōu)點。
[Abstract]:As an important research direction in the field of data mining, clustering technology can effectively help people to understand the distribution and characteristics of data for further research and analysis, although there are many existing clustering algorithms. However, there are still many problems and challenges in clustering technology. Combined with hierarchical clustering algorithm and density clustering algorithm, this paper proposes a new arbitrary shape clustering algorithm, which is based on hierarchical clustering technology. Using the idea of density clustering to define subclusters and sub-cluster merging, the main work of this paper is as follows: 1) the computational time complexity of hierarchical clustering algorithm is high. In addition, it is necessary to input the number of clusters or threshold parameters as the termination condition. In this paper, a novel density-based subcluster merging method is proposed. The adjacent subclusters whose boundary region density is greater than or equal to the average density of any of the clusters are merged. The merging criterion of the subclusters uses the method of dynamic model. It can automatically adapt to the internal characteristic attributes between the merged clusters, and can automatically determine the number of clusters and the cluster termination points. Thus it is found that arbitrary shape clustering algorithm is easy to ignore the density peak point in the sparse density region. In this paper, we find the point which is far away from other high density points as the density peak point. Then, the data set is cut into a large number of initial subclusters according to these density peaks. Moreover, the obtained subcluster is more correct. 3) the global uniform distance parameter is used for the density clustering method, which is not conducive to the problem of large density difference data sets. In this paper, the low density subclusters are filtered out by stratifying the low density data sets and the high density data sets. Set the appropriate distance parameters to cluster to solve the above problem. The experimental results on the test data set and the real data set show that the algorithm can automatically determine the number of clustering. It can find the clustering of arbitrary shape and size effectively and is robust to the selection of input parameters. It is also suitable for data sets with uneven density distribution and so on.
【學位授予單位】:河南理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 朱永紅;;覆蓋聚類算法的應(yīng)用研究[J];計算機技術(shù)與發(fā)展;2007年01期
2 蔡元萃;陳立潮;;聚類算法研究綜述[J];科技情報開發(fā)與經(jīng)濟;2007年01期
3 楊博;劉大有;金弟;馬海賓;;復(fù)雜網(wǎng)絡(luò)聚類方法[J];軟件學報;2009年01期
4 陳梅蘭;基于網(wǎng)格和密度聚類算法研究[J];計算機與現(xiàn)代化;2005年02期
5 聞?chuàng)P,苑春法,黃昌寧;基于搭配對的漢語形容詞-名詞聚類[J];中文信息學報;2000年06期
6 王偉東,蘆金嬋,張講社;基于視覺原理的密度聚類算法[J];工程數(shù)學學報;2005年02期
7 彭京;唐常杰;程溫泉;石葆梅;喬少杰;;一種基于層次距離計算的聚類算法[J];計算機學報;2007年05期
8 陳鋼,馮志勇,金輝;基于GT編碼的零件聚類樹的建立[J];中國制造業(yè)信息化;2003年06期
9 曹慧;;一種基于聚類的多數(shù)據(jù)庫分類方法設(shè)計[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年06期
10 劉芳,何飛;一種基于聚類樹的增量式數(shù)據(jù)清洗算法[J];華中科技大學學報(自然科學版);2005年03期
相關(guān)會議論文 前10條
1 錢衛(wèi)寧;錢海蕾;周傲英;;構(gòu)造準確的多粒度聚類樹:一種交互式的方法[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2000年
2 錢衛(wèi)寧;錢海蕾;周傲英;;聚類樹合并——聚類超大規(guī)模數(shù)據(jù)庫[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
3 萬代紅;齊明;萬曉紅;;分類技術(shù)DSCM聚類算法的C語言實現(xiàn)[A];增強自主創(chuàng)新能力 促進吉林經(jīng)濟發(fā)展——啟明杯·吉林省第四屆科學技術(shù)學術(shù)年會論文集(上冊)[C];2006年
4 錢海蕾;錢衛(wèi)寧;周傲英;;對于聚合聚類終止條件的研究[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
5 任家東;孟麗麗;張冬梅;;一種基于網(wǎng)格的改進的K-Means聚類算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
6 馬曉艷;唐雁;;層次聚類算法研究[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
7 周皓峰;袁晴晴;程尊平;施伯樂;;PHC:一個基于分層的快速聚類算法[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年
8 饒金通;董槐林;姜青山;;基于孤立因子的層次聚類算法與應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
9 王仲君;莫春玲;;視覺原理的FCM聚類算法在復(fù)雜網(wǎng)絡(luò)中的應(yīng)用[A];2006全國復(fù)雜網(wǎng)絡(luò)學術(shù)會議論文集[C];2006年
10 吳楠楠;史亮;饒金通;姜青山;董槐林;;一種改進的高效層次聚類算法[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2005年
相關(guān)博士學位論文 前5條
1 晏華;交易數(shù)據(jù)的聚類分析[D];電子科技大學;2008年
2 王娜;基于客觀聚類的模糊建模方法研究[D];上海交通大學;2009年
3 羅會蘭;聚類集成關(guān)鍵技術(shù)研究[D];浙江大學;2007年
4 陳遠浩;非監(jiān)督的結(jié)構(gòu)學習及其應(yīng)用[D];中國科學技術(shù)大學;2008年
5 肖宇;聚類分析及其在圖像處理中的應(yīng)用[D];北京交通大學;2012年
相關(guān)碩士學位論文 前10條
1 牛麗君;基于層次和密度的任意形狀聚類算法研究[D];河南理工大學;2016年
2 賀勇;基于染色傳播的關(guān)鍵詞聚類算法研究[D];華南理工大學;2015年
3 伍藝;面向大數(shù)據(jù)集的遞增聚類方法研究[D];北京理工大學;2015年
4 黃燕勤;有關(guān)基于頻譜和聚類方法定位故障的實證研究[D];南京大學;2015年
5 楊志;基于粒子群的粗糙聚類算法分析與研究[D];長沙理工大學;2014年
6 梁堯;分布式海量指紋識別系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學;2015年
7 王喜梅;基于多語言話題發(fā)現(xiàn)的聚類算法改進[D];蘭州大學;2016年
8 程祥;基于負荷量測數(shù)據(jù)的電力負荷聚類方法研究[D];浙江大學;2017年
9 陳衡岳;聚類分析及聚類結(jié)果評估算法研究[D];東北大學;2006年
10 陳武;多類標聚類樹分類方法優(yōu)化及并行化實現(xiàn)[D];哈爾濱工業(yè)大學;2013年
,本文編號:1460436
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1460436.html