基于Spark平臺(tái)的改進(jìn)DBSCAN算法研究
發(fā)布時(shí)間:2023-05-19 03:05
隨著新時(shí)代下信息技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,互聯(lián)網(wǎng)服務(wù)正在影響著人們的生產(chǎn)生活方式,海量的數(shù)據(jù)也隨之產(chǎn)生,這使得利用數(shù)據(jù)挖掘工具從冗雜的原始數(shù)據(jù)中篩選出有價(jià)值的信息指導(dǎo)社會(huì)生產(chǎn)和生活變得越來(lái)越重要。DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法作為應(yīng)用廣泛的密度聚類算法之一,具有能夠發(fā)現(xiàn)任意形狀的簇并且聚類效果不受噪聲點(diǎn)影響等優(yōu)點(diǎn),是重要的數(shù)據(jù)挖掘方法。然而,該算法也存在一些缺陷:當(dāng)數(shù)據(jù)規(guī)模較大時(shí)其對(duì)內(nèi)存的需求過(guò)高;聚類結(jié)果對(duì)輸入?yún)?shù)敏感,算法參數(shù)設(shè)置是其難點(diǎn)之一;此外,面對(duì)分布不均勻的數(shù)據(jù)其難以取得較好的聚類效果。針對(duì)上述不足之處,本文提出了結(jié)合閃電連接過(guò)程優(yōu)化算法(Lightning Attachment Procedure Optimization Algorithm,LAPO)的改進(jìn)DBSCAN算法,并在新一代大規(guī)模數(shù)據(jù)處理框架Spark下進(jìn)行算法的并行化策略研究。本文的主要研究?jī)?nèi)容概括如下:(1)提出了一種基于LAPO算法的聚類中心獲取方法。K-means聚類算法具有對(duì)數(shù)據(jù)集依賴度高和對(duì)初...
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究的背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)概述
2.1 聚類算法相關(guān)概述
2.1.1 聚類分析
2.1.2 聚類算法的類型
2.1.3 聚類算法中的相似度度量方法
2.2 閃電連接過(guò)程優(yōu)化算法(LAPO)概述
2.2.1 LAPO算法思想的起源
2.2.2 LAPO算法的原理
2.2.3 LAPO算法的流程
2.3 分布式計(jì)算框架相關(guān)技術(shù)概述
2.3.1 HDFS分布式文件系統(tǒng)
2.3.2 Yarn資源管理和任務(wù)調(diào)度器
2.3.3 Spark并行計(jì)算框架
2.4 本章小結(jié)
第3章 基于LAPO算法的聚類中心獲取方法
3.1 K-means聚類方法簡(jiǎn)介
3.2 基于LAPO算法的聚類中心獲取方法
3.3 實(shí)驗(yàn)驗(yàn)證和分析
3.3.1 數(shù)據(jù)集及實(shí)驗(yàn)說(shuō)明
3.3.2 實(shí)驗(yàn)結(jié)果及其分析
3.4 本章小結(jié)
第4章 結(jié)合LAPO的改進(jìn)DBSCAN算法
4.1 DBSCAN密度聚類算法
4.1.1 算法相關(guān)概念
4.1.2 算法局限性分析
4.2 LAPO-DBSCAN算法
4.2.1 結(jié)合LAPO算法的數(shù)據(jù)空間的劃分
4.2.2 局部聚類
4.2.3 聚類結(jié)果合并
4.3 實(shí)驗(yàn)及其分析
4.3.1 實(shí)驗(yàn)說(shuō)明
4.3.2 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第5章 LAPO-DBSCAN算法的并行化
5.1 Spark平臺(tái)下的LAPO-DBSCAN算法研究
5.2 Spark平臺(tái)的并行算法優(yōu)化
5.3 并行化LAPO-DBSCAN算法實(shí)驗(yàn)及性能分析
5.3.1 實(shí)驗(yàn)說(shuō)明
5.3.2 實(shí)驗(yàn)結(jié)果及其分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3819529
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究的背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)概述
2.1 聚類算法相關(guān)概述
2.1.1 聚類分析
2.1.2 聚類算法的類型
2.1.3 聚類算法中的相似度度量方法
2.2 閃電連接過(guò)程優(yōu)化算法(LAPO)概述
2.2.1 LAPO算法思想的起源
2.2.2 LAPO算法的原理
2.2.3 LAPO算法的流程
2.3 分布式計(jì)算框架相關(guān)技術(shù)概述
2.3.1 HDFS分布式文件系統(tǒng)
2.3.2 Yarn資源管理和任務(wù)調(diào)度器
2.3.3 Spark并行計(jì)算框架
2.4 本章小結(jié)
第3章 基于LAPO算法的聚類中心獲取方法
3.1 K-means聚類方法簡(jiǎn)介
3.2 基于LAPO算法的聚類中心獲取方法
3.3 實(shí)驗(yàn)驗(yàn)證和分析
3.3.1 數(shù)據(jù)集及實(shí)驗(yàn)說(shuō)明
3.3.2 實(shí)驗(yàn)結(jié)果及其分析
3.4 本章小結(jié)
第4章 結(jié)合LAPO的改進(jìn)DBSCAN算法
4.1 DBSCAN密度聚類算法
4.1.1 算法相關(guān)概念
4.1.2 算法局限性分析
4.2 LAPO-DBSCAN算法
4.2.1 結(jié)合LAPO算法的數(shù)據(jù)空間的劃分
4.2.2 局部聚類
4.2.3 聚類結(jié)果合并
4.3 實(shí)驗(yàn)及其分析
4.3.1 實(shí)驗(yàn)說(shuō)明
4.3.2 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第5章 LAPO-DBSCAN算法的并行化
5.1 Spark平臺(tái)下的LAPO-DBSCAN算法研究
5.2 Spark平臺(tái)的并行算法優(yōu)化
5.3 并行化LAPO-DBSCAN算法實(shí)驗(yàn)及性能分析
5.3.1 實(shí)驗(yàn)說(shuō)明
5.3.2 實(shí)驗(yàn)結(jié)果及其分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3819529
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3819529.html
最近更新
教材專著