挖掘任意形狀簇的聚類算法研究
本文關鍵詞:挖掘任意形狀簇的聚類算法研究
更多相關文章: 任意形狀簇 聚類 空間數(shù)據(jù) 相似性度量
【摘要】:數(shù)據(jù)挖掘是一個能從大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)知識的強大技術。聚類分析作為數(shù)據(jù)挖掘中的一個基礎工具,已經(jīng)被廣泛應用于模式識別、圖像處理、空間數(shù)據(jù)分析、文本分類和信息檢索、市場分析等眾多領域。隨著計算機的普及和互聯(lián)網(wǎng)的不斷發(fā)展,數(shù)據(jù)量越來越大,數(shù)據(jù)的空間分布中大多包含多種不規(guī)則形狀的簇,比如地理信息數(shù)據(jù)、醫(yī)學圖像數(shù)據(jù)、農(nóng)業(yè)科學數(shù)據(jù)等,這對聚類分析提出了挑戰(zhàn)。傳統(tǒng)的聚類算法通常不能很好地挖掘任意形狀的簇,近年來,挖掘任意形狀簇的研究成為聚類分析領域的一個研究熱點。為了更有效地對包含有任意形狀簇的數(shù)據(jù)進行聚類,本文對現(xiàn)有的聚類算法進行分析和研究,提出了兩個能挖掘任意形狀簇的聚類算法CMSPC、CFDPm。本文提出的CMSPC算法是為了提高在包含任意形狀簇的數(shù)據(jù)集上的聚類質量。CMSPC算法基于點與簇內多點的相似性,對于距離在截斷距離之內的兩個對象,考慮其中一個對象關于另外一個對象所在簇的歸屬度,對滿足一定歸屬度的臨時簇進行合并。CMSPC算法基于點與簇內多點相似的特點使得聚類結果與簇形狀無關,同時能夠提取出異常點。本文提出的另外一個聚類算法CFDPm是新型聚類算法CFDP算法的一種改進算法。在多峰簇數(shù)據(jù)集中,CFDP算法會因簇中心點的選取不準確而導致聚類質量的下降。本文通過綜合考慮聚類結果中簇之間的距離、簇內距離、合并兩簇后對于整體內部評價指標DBI的影響來有條件地對簇進行合并,從而改善因選擇簇中心點失效而帶來的聚類質量下降的問題。為了驗證本文提出的兩種聚類算法的有效性,我們在多個基準數(shù)據(jù)集上進行了聚類實驗。實驗結果表明兩點:一、CMSPC算法可以對包含任意形狀簇的數(shù)據(jù)進行較好的聚類,同時識別出異常點,具有較高的聚類質量。二、CFDPm算法能夠克服CFDP算法因簇中心選取不準確而導致的聚類質量下降的問題。
【關鍵詞】:任意形狀簇 聚類 空間數(shù)據(jù) 相似性度量
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-13
- 1.1 研究背景及意義8-10
- 1.2 國內外研究現(xiàn)狀10-11
- 1.3 本文的主要研究內容11-12
- 1.4 論文的組織框架12-13
- 第二章 聚類分析概述13-22
- 2.1 聚類的相關概念和定義13-15
- 2.2 聚類中的距離度量15-17
- 2.2.1 對象間的距離15-16
- 2.2.2 簇間距離16-17
- 2.3 聚類方法17-18
- 2.3.1 基于距離的聚類方法17-18
- 2.3.2 基于密度的聚類18
- 2.4 聚類評價指標18-21
- 2.4.1 外部評價指標19-21
- 2.4.2 內部評價指標Davies-Bouldin21
- 2.5 本章小結21-22
- 第三章 基于點與簇內多點相似的聚類算法22-37
- 3.1 基于點與簇內多點相似算法的提出22-24
- 3.2 基于點與簇內多點相似的聚類算法CMSPC24-28
- 3.2.1 相關概念及定義24-26
- 3.2.2 基于點與簇內多點相似的聚類算法CMSPC26-28
- 3.2.3 復雜度分析28
- 3.3 實驗及結果分析28-36
- 3.3.1 實驗環(huán)境及對比算法參數(shù)設置28-29
- 3.3.2 實驗所用數(shù)據(jù)集29-31
- 3.3.3 CMSPC聚類算法實驗31-36
- 3.4 本章小結36-37
- 第四章 改進的聚類算法CFDPm37-49
- 4.1 CFDP算法介紹37-38
- 4.2 CFDPm算法38-42
- 4.2.1 CFDP算法在多峰簇數(shù)據(jù)集上的聚類結果分析39-40
- 4.2.2 CFDPm算法思想40
- 4.2.3 相關定義及概念40
- 4.2.4 CFDPm算法詳細描述40-42
- 4.3 實驗及結果分析42-48
- 4.3.1 實驗數(shù)據(jù)集42-43
- 4.3.2 CFDPm算法實驗43-48
- 4.4 本章小結48-49
- 第五章 總結與展望49-51
- 5.1 本文工作總結49
- 5.2 未來工作展望49-51
- 參考文獻51-54
- 在學期間的研究成果54-55
- 致謝55
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 榮波;夏正友;;基于聚類的BBS成員交互網(wǎng)絡特性研究[J];重慶科技學院學報(自然科學版);2009年06期
2 靳華中;;基于云模型的聚類特性分析[J];湖北農(nóng)機化;2011年02期
3 淦文燕,李家福,李德毅;高維聚類中的一種特征篩選方法[J];解放軍理工大學學報(自然科學版);2003年06期
4 孫志偉;;一種能發(fā)現(xiàn)自然聚類的聚類算法[J];計算機應用研究;2009年08期
5 陳濤;陳啟買;張瑋;郭小林;;聚類算法在學分制下高校專業(yè)自動分類中的應用[J];計算機應用與軟件;2007年05期
6 孟海東;宋飛燕;宋宇辰;;面向復雜簇的聚類算法研究與實現(xiàn)[J];計算機應用與軟件;2008年10期
7 宋宇辰;宋飛燕;孟海東;;基于密度復雜簇聚類算法研究與實現(xiàn)[J];計算機工程與應用;2007年35期
8 孟海東;宋飛燕;郝永寬;;基于密度與劃分方法的聚類算法設計與實現(xiàn)[J];計算機工程與應用;2007年27期
9 夏勝平;呂小軍;劉建軍;袁振濤;郁文賢;;基于集群的并行分布式聚類及其應用(英文)[J];鄭州大學學報(理學版);2006年04期
10 姚天任,王大有;自組織特征映射神經(jīng)網(wǎng)絡的聚類特性在語音矢量量化快速搜索中的應用[J];通信學報;1992年05期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 陸君安;張勇;陳娟;呂金虎;吳曉群;;聚類環(huán)(鏈)基于同步的尺度可變性分析[A];中國自動化學會控制理論專業(yè)委員會B卷[C];2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 曹佩佩;蟻群覓食模型在共現(xiàn)網(wǎng)絡聚類中的應用[D];大連理工大學;2015年
2 王博;挖掘任意形狀簇的聚類算法研究[D];蘭州大學;2016年
3 朱萌;基于模糊矩陣的聚類融合[D];南京理工大學;2008年
4 侯娟;聚類融合算法及其應用研究[D];中南大學;2010年
5 于智航;改進的密度聚類算法研究[D];大連理工大學;2007年
6 宋佳;基于熵的聚類算法在蛋白質網(wǎng)絡模塊檢測中的應用[D];西安電子科技大學;2011年
7 陽斌;密度影響因子相關的網(wǎng)格聚類算法研究[D];浙江理工大學;2014年
8 趙慧;基于網(wǎng)絡方法的聚類算法研究[D];山東師范大學;2010年
9 譚穎;文本挖掘中的聚類算法研究[D];吉林大學;2009年
10 劉敏娟;基于網(wǎng)格的聚類算法分析與研究[D];鄭州大學;2007年
,本文編號:947725
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/947725.html