高維數(shù)據(jù)下基于密度聚類方法的研究與應(yīng)用
發(fā)布時(shí)間:2017-09-07 09:20
本文關(guān)鍵詞:高維數(shù)據(jù)下基于密度聚類方法的研究與應(yīng)用
更多相關(guān)文章: 基于密度聚類 降維方法 硬閾值函數(shù) 高維數(shù)據(jù)
【摘要】:Alex和Anlessandro于2014年提出的快速搜索聚類方法(FSC)是基于聚類中心的密度要高于其鄰域點(diǎn)并且與其它密度較高的點(diǎn)有一個(gè)相對(duì)較大的距離的思想,通過對(duì)觀測(cè)值的密度和相對(duì)距離加以度量來展開聚類的.FSC不需要進(jìn)行迭代運(yùn)算,可以高效地識(shí)別集群個(gè)數(shù)和聚類中心.但是FSC方法對(duì)于高維數(shù)據(jù)的聚類并不是很理想,這主要是由于高維數(shù)據(jù)的“維數(shù)災(zāi)難”引起的.考慮如何能更有效地處理高維數(shù)據(jù),本文針對(duì)FSC方法提出了更能適應(yīng)于高維數(shù)據(jù)的改進(jìn)方法,分別是基于主成分分析(PCA)的快速搜索聚類方法(FSCP)和基于硬閾值(Hard thresholding)的快速搜索聚類方法(HT-FSC)其中FSCP方法在FSC的基礎(chǔ)上加入了PCA的思想,對(duì)滿足一定區(qū)間限制的主成分生成的較低維數(shù)據(jù)集逐一作聚類分析并輸出最優(yōu)的一組聚類結(jié)果HT-FSC方法的核心思想同樣是對(duì)數(shù)據(jù)做降維的預(yù)處理,基于硬閾值的思想,度量相似性距離矩陣時(shí)在度量函數(shù)上加入硬閾值函數(shù),選定合適的閾值,只讓滿足閾值條件的變量加入距離的計(jì)算.本文結(jié)合幾組模擬數(shù)據(jù)和Face、Iris和Wine等三組真實(shí)數(shù)據(jù)對(duì)兩種改進(jìn)方法加以實(shí)現(xiàn),并以FSC等方法作對(duì)比,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的方法對(duì)于處理高維數(shù)據(jù)的聚類有更好的效果.
【關(guān)鍵詞】:基于密度聚類 降維方法 硬閾值函數(shù) 高維數(shù)據(jù)
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:C81
【目錄】:
- 中文摘要3-4
- Abstract4-7
- 第一章 引言7-12
- 1.1 研究背景7-8
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀8-10
- 1.3 本文結(jié)構(gòu)10-12
- 第二章 聚類方法綜述12-17
- 2.1 傳統(tǒng)的聚類方法12-15
- 2.2 聚類方法判別標(biāo)準(zhǔn)15-17
- 第三章 集群個(gè)數(shù)的計(jì)算與研究17-19
- 3.1 gap估計(jì)方法17-18
- 3.2 快速搜索估計(jì)方法18-19
- 第四章 快速搜索聚類方法以及改進(jìn)19-26
- 4.1 快速搜索聚類方法19-21
- 4.2 基于主成分分析的FSC方法21-23
- 4.3 基于硬閾值的FSC方法23-26
- 第五章 方法實(shí)現(xiàn)26-40
- 5.1 數(shù)據(jù)模擬26-33
- 5.2 實(shí)證分析33-40
- 第六章 總結(jié)及展望40-42
- 6.1 總結(jié)40-41
- 6.2 展望41-42
- 參考文獻(xiàn)42-45
- 致謝45
本文編號(hào):808697
本文鏈接:http://sikaile.net/shekelunwen/shgj/808697.html
最近更新
教材專著