基于數(shù)據(jù)場的聚類系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2017-03-25 01:14
本文關(guān)鍵詞:基于數(shù)據(jù)場的聚類系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)給人們的生活和工作都帶來了極大的便利,同時也產(chǎn)生了大量的電子數(shù)據(jù)。這些數(shù)據(jù)的大小和類型各不相同,導(dǎo)致人們難以按照已有的經(jīng)驗對其進行分類整理,這里就需要運用聚類分析的方法進行處理,提取其中有價值的信息;跀(shù)據(jù)勢場拓撲的層次聚類算法是一種新型的聚類算法,該算法可以發(fā)現(xiàn)任意形狀的類簇,能有效地過濾數(shù)據(jù)集中的噪聲點,而且算法本身不需要輸入任何參數(shù),有較高的實用價值。但是,該算法聚類過程復(fù)雜,而且無法完成基于路徑類簇數(shù)據(jù)集和高維數(shù)據(jù)集的聚類分析任務(wù),故有必要對其進行優(yōu)化改造。鑒于上述情況,本文在借鑒數(shù)據(jù)勢場拓撲層次聚類算法聚類思想的基礎(chǔ)上,提出了一種新的基于數(shù)據(jù)勢場的聚類算法,成功解決了前者的缺陷。總結(jié)本文主要工作如下:1、本文在數(shù)據(jù)勢場思想的基礎(chǔ)上,提出了一種新的聚類劃分方法。創(chuàng)造性的將數(shù)據(jù)點之間的勢能差與距離結(jié)合起來,找到了一條易于理解的且效果良好的聚類方法。以距離最近的高勢能點作為聚類方向,將整個數(shù)據(jù)集聯(lián)系到一起,并通過合理的類簇劃分方法,將整個數(shù)據(jù)集根據(jù)自身分布特性劃分為多個聚類。2、本文在4個聚類算法常用數(shù)據(jù)集上驗證了本文聚類算法發(fā)現(xiàn)復(fù)雜形狀類簇的能力,并與經(jīng)典聚類算法Kmeans和Dbscan算法聚類結(jié)果進行對比,證實了本文聚類算法無論在聚類質(zhì)量和運行效率上都有不弱于上述兩種算法的能力。3、本文研究了聚類算法的噪聲點處理方法,在數(shù)據(jù)勢場的基礎(chǔ)上,提出了一種有效的噪聲點識別方法。4、為驗證本文聚類算法在實際應(yīng)用中的效果,本文將該算法在一個人臉圖像數(shù)據(jù)集上與密度峰值聚類算法進行了聚類效果的對比,證明了本文算法在該數(shù)據(jù)集上識別不同人臉的能力要強于后者。
【關(guān)鍵詞】:數(shù)據(jù)場 聚類算法 數(shù)據(jù)挖掘 噪聲點過濾
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- abstract6-11
- 第1章 緒論11-17
- 1.1 研究背景和意義11-12
- 1.2 研究現(xiàn)狀及發(fā)展趨勢12-13
- 1.3 論文主要研究內(nèi)容13-15
- 1.4 論文組織結(jié)構(gòu)15-16
- 1.5 本章小結(jié)16-17
- 第2章 聚類分析概述17-29
- 2.1 聚類分析的含義和處理步驟17-18
- 2.2 常用聚類算法介紹18-23
- 2.2.1 基于層次的聚類18-19
- 2.2.2 基于劃分的聚類19-20
- 2.2.3 基于密度的聚類20-21
- 2.2.4 基于網(wǎng)格的聚類21-22
- 2.2.5 基于模型的聚類22-23
- 2.3 對象間相似度度量23-25
- 2.3.1 距離度量23-24
- 2.3.2 相似度量24-25
- 2.4 聚類算法的評價標準25-28
- 2.4.1 外部評價法26
- 2.4.2 內(nèi)部評價法26-27
- 2.4.3 相對評價法27-28
- 2.5 本章小結(jié)28-29
- 第3章 數(shù)據(jù)場概述29-38
- 3.1 數(shù)據(jù)場的引入29-30
- 3.2 數(shù)據(jù)勢場30-34
- 3.2.1 數(shù)據(jù)場勢函數(shù)公式30-31
- 3.2.2 影響因子d與勢函數(shù)31-32
- 3.2.3 影響因子d與數(shù)據(jù)勢場32-34
- 3.3 基于數(shù)據(jù)勢場拓撲的層次聚類算法34-36
- 3.4 基于數(shù)據(jù)勢場拓撲的層次聚類的缺陷36-37
- 3.5 本章小結(jié)37-38
- 第4章 基于數(shù)據(jù)場聚類算法的設(shè)計38-48
- 4.1 算法的聚類思想38-39
- 4.2 聚類中心點選取39-40
- 4.3 噪聲點的處理40-42
- 4.4 參數(shù)sigma的討論42-44
- 4.4.1 一種基于經(jīng)驗的sigma選取方法42-43
- 4.4.2 基于信息熵的sigma優(yōu)選方法43-44
- 4.5 算法的主要步驟44-47
- 4.5.1 sigma的優(yōu)選算法44-45
- 4.5.2 數(shù)據(jù)勢場層次類譜結(jié)構(gòu)45-46
- 4.5.3 數(shù)據(jù)點類簇的劃分46-47
- 4.6 本章小結(jié)47-48
- 第5章 基于數(shù)據(jù)場聚類算法的實驗與分析48-59
- 5.1 復(fù)雜形狀聚類實驗結(jié)果與分析48-53
- 5.1.1 復(fù)雜形狀聚類實驗聚類質(zhì)量分析49-52
- 5.1.2 復(fù)雜形狀聚類實驗運行時間分析52-53
- 5.1.3 復(fù)雜形狀聚類實驗小結(jié)53
- 5.2 噪聲點過濾實驗結(jié)果與分析53-56
- 5.3 人臉識別實驗結(jié)果與分析56-58
- 5.4 本章小結(jié)58-59
- 結(jié)論59-61
- 參考文獻61-65
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單65-66
- 致謝66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 淦文燕;赫南;李德毅;王建民;;一種基于拓撲勢的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法[J];軟件學(xué)報;2009年08期
2 楊燕;靳蕃;KAMEL Mohamed;;聚類有效性評價綜述[J];計算機應(yīng)用研究;2008年06期
3 于洪濤;段軍義;杜照豐;;一種基于聚類技術(shù)的個性化信息檢索方法[J];計算機工程與應(yīng)用;2008年08期
4 岳峰;孫亮;王寬全;王永吉;左旺孟;;基因表達數(shù)據(jù)的聚類分析研究進展[J];自動化學(xué)報;2008年02期
5 沈航;鄒平;;可拓聚類預(yù)測方法預(yù)測卷煙銷售量[J];昆明理工大學(xué)學(xué)報(理工版);2006年03期
本文關(guān)鍵詞:基于數(shù)據(jù)場的聚類系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:266460
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/266460.html
最近更新
教材專著