K-Modes聚類(lèi)算法優(yōu)化研究
發(fā)布時(shí)間:2024-02-29 04:17
聚類(lèi)算法可以用于將整個(gè)樣本集合劃分為多個(gè)群落,從而發(fā)現(xiàn)有意義的樣本群體。因此作為一種高效的數(shù)據(jù)分析工具,聚類(lèi)算法早已成為國(guó)內(nèi)外學(xué)者廣泛研究的熱點(diǎn)技術(shù)之一。Huang提出的K-Modes聚類(lèi)算法使用屬性匹配度量公式拓展了K-Means聚類(lèi)算法,使其可以對(duì)無(wú)序型分類(lèi)屬性數(shù)據(jù)執(zhí)行聚類(lèi)分析。該算法使用的0-1簡(jiǎn)單匹配相異度度量方法弱化了類(lèi)內(nèi)同一維度屬性下屬性值之間的相似性,忽略了不同維度屬性之間的差異性。單一屬性值的聚類(lèi)中心Modes忽視了某一維度屬性可能存在多屬性值組合,且算法受初始中心點(diǎn)影響很大。以上問(wèn)題都有可能導(dǎo)致分類(lèi)數(shù)據(jù)的聚類(lèi)效果較差。此外由于數(shù)據(jù)的爆炸式增長(zhǎng),串行執(zhí)行的傳統(tǒng)算法難以在有效時(shí)間內(nèi)處理超大規(guī)模的數(shù)據(jù)集和超高維度的數(shù)據(jù)模型。Spark作為最新的大數(shù)據(jù)平臺(tái)善于執(zhí)行海量數(shù)據(jù)的分析任務(wù),然而Spark現(xiàn)有的機(jī)器學(xué)習(xí)算法庫(kù)中缺少分類(lèi)數(shù)據(jù)的聚類(lèi)算法,導(dǎo)致無(wú)法有效利用Spark平臺(tái)處理海量分類(lèi)數(shù)據(jù)的聚類(lèi)問(wèn)題。針對(duì)以上問(wèn)題本文首先提出了一種MAV-K-Modes聚類(lèi)算法,使用基于預(yù)聚類(lèi)的多屬性值聚類(lèi)中心Modes初始化方法和基于多屬性值聚類(lèi)中心Modes的相異度度量方法。其次本文在改進(jìn)后...
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 屬性數(shù)據(jù)分類(lèi)及K-Modes聚類(lèi)算法的研究意義
1.1.2 大數(shù)據(jù)背景下K-Modes聚類(lèi)算法面臨的挑戰(zhàn)
1.2 國(guó)內(nèi)外相關(guān)工作分析
1.2.1 面向準(zhǔn)確率的聚類(lèi)算法優(yōu)化
1.2.2 面向執(zhí)行效率的聚類(lèi)算法優(yōu)化
1.3 本文的研究?jī)?nèi)容
1.4 本文的章節(jié)安排
第2章 相關(guān)技術(shù)背景
2.1 聚類(lèi)算法介紹
2.1.1 聚類(lèi)算法概述
2.1.2 聚類(lèi)算法分類(lèi)
2.1.3 相異度度量公式
2.1.4 性能評(píng)價(jià)指標(biāo)
2.2 大數(shù)據(jù)平臺(tái)介紹
2.2.1 Hadoop平臺(tái)介紹
2.2.2 Spark平臺(tái)介紹
2.2.3 Spark和 Hadoop的對(duì)比
2.3 本章小結(jié)
第3章 基于多屬性值Modes的 MAV-K-Modes算法
3.1 傳統(tǒng)K-Modes聚類(lèi)算法
3.2 基于多屬性值Modes的 MAV-K-Modes算法
3.2.1 信息熵理論
3.2.2 基于多屬性值Modes相異度度量公式
3.2.3 基于預(yù)聚類(lèi)的初始選點(diǎn)方法
3.2.4 算法核心流程
3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
第4章 基于Spark的 MAV-K-Modes算法
4.1 基于Spark的并行MAV-K-Modes聚類(lèi)算法
4.1.1 并行優(yōu)化思路
4.1.2 并行算法設(shè)計(jì)
4.2 基于Spark的增量MAV-K-Modes聚類(lèi)算法
4.2.1 增量?jī)?yōu)化思路
4.2.2 增量算法設(shè)計(jì)
4.3 實(shí)驗(yàn)分析
4.3.1 Spark集群環(huán)境
4.3.2 并行MAV-K-Modes算法實(shí)驗(yàn)
4.3.3 增量MAV-K-Modes算法實(shí)驗(yàn)
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間獲得的科研成果
致謝
本文編號(hào):3914483
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.1.1 屬性數(shù)據(jù)分類(lèi)及K-Modes聚類(lèi)算法的研究意義
1.1.2 大數(shù)據(jù)背景下K-Modes聚類(lèi)算法面臨的挑戰(zhàn)
1.2 國(guó)內(nèi)外相關(guān)工作分析
1.2.1 面向準(zhǔn)確率的聚類(lèi)算法優(yōu)化
1.2.2 面向執(zhí)行效率的聚類(lèi)算法優(yōu)化
1.3 本文的研究?jī)?nèi)容
1.4 本文的章節(jié)安排
第2章 相關(guān)技術(shù)背景
2.1 聚類(lèi)算法介紹
2.1.1 聚類(lèi)算法概述
2.1.2 聚類(lèi)算法分類(lèi)
2.1.3 相異度度量公式
2.1.4 性能評(píng)價(jià)指標(biāo)
2.2 大數(shù)據(jù)平臺(tái)介紹
2.2.1 Hadoop平臺(tái)介紹
2.2.2 Spark平臺(tái)介紹
2.2.3 Spark和 Hadoop的對(duì)比
2.3 本章小結(jié)
第3章 基于多屬性值Modes的 MAV-K-Modes算法
3.1 傳統(tǒng)K-Modes聚類(lèi)算法
3.2 基于多屬性值Modes的 MAV-K-Modes算法
3.2.1 信息熵理論
3.2.2 基于多屬性值Modes相異度度量公式
3.2.3 基于預(yù)聚類(lèi)的初始選點(diǎn)方法
3.2.4 算法核心流程
3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
第4章 基于Spark的 MAV-K-Modes算法
4.1 基于Spark的并行MAV-K-Modes聚類(lèi)算法
4.1.1 并行優(yōu)化思路
4.1.2 并行算法設(shè)計(jì)
4.2 基于Spark的增量MAV-K-Modes聚類(lèi)算法
4.2.1 增量?jī)?yōu)化思路
4.2.2 增量算法設(shè)計(jì)
4.3 實(shí)驗(yàn)分析
4.3.1 Spark集群環(huán)境
4.3.2 并行MAV-K-Modes算法實(shí)驗(yàn)
4.3.3 增量MAV-K-Modes算法實(shí)驗(yàn)
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間獲得的科研成果
致謝
本文編號(hào):3914483
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3914483.html
最近更新
教材專(zhuān)著