基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析
發(fā)布時間:2017-05-12 19:07
本文關(guān)鍵詞:基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)應(yīng)用的普及和深入,其所產(chǎn)生的數(shù)據(jù)急劇膨脹,且其中許多數(shù)據(jù)都是動態(tài)的流式數(shù)據(jù),需要及時處理和分析。對于流數(shù)據(jù)的聚類分析,國內(nèi)外學(xué)者已進(jìn)行了許多探索和研究,目前已存在一些可用的流數(shù)據(jù)聚類算法,但這些算法仍然普遍存在諸多問題,例如,不能反映流數(shù)據(jù)的演化過程、無法識別任意形狀的聚簇、對海量數(shù)據(jù)的聚類效率不理想等等。近年來,隨著各種新型并行計算平臺的出現(xiàn)和不斷完善,聚類分析在并行計算平臺上的實現(xiàn)得到了廣泛的關(guān)注和認(rèn)可,為提高聚類效率提供了新的有效的途徑。例如,Spark平臺上的K-Means Streaming流數(shù)據(jù)聚類分析算法。但是,由于Spark平臺的發(fā)展歷史相對較短,其上的流數(shù)據(jù)聚類分析算法的實現(xiàn)尚不多見,我們僅發(fā)現(xiàn)上述一例。本文對經(jīng)典的基于密度的聚類算法DBSCAN算法作了改進(jìn),提出了基于網(wǎng)格思想的聚類算法GDBSCAN,在保留DBSCAN算法可以挖掘任意形狀聚簇的特性的前提之下,降低了其時間復(fù)雜度。其次,通過數(shù)據(jù)點有效時間的概念反映流數(shù)據(jù)的演化過程,結(jié)合Spark的RDD內(nèi)存計算的優(yōu)勢,給出了GDBSCAN算法的Spark并行化實現(xiàn)RDDGD-Stream,用于實時高效地對流數(shù)據(jù)進(jìn)行聚類分析。此外,為了進(jìn)一步提高算法的效率,RDDGD-Stream算法還設(shè)計了基于網(wǎng)格數(shù)據(jù)點數(shù)目的重分區(qū)方法,平衡集群各節(jié)點的計算負(fù)載。為了檢驗GDBSCAN和RDDGD-Stream算法的有效性,我們設(shè)計了多組實驗,從聚類效率(運行時間和加速比)、演化性、聚類質(zhì)量等多個方面加以考察。實驗結(jié)果表明GDBSCAN和RDDGD-Stream算法的執(zhí)行效率有明顯的提高,聚類質(zhì)量也有一定程度的提高。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 流數(shù)據(jù) 聚類 DBSCAN Spark
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要6-7
- ABSTRACT7-12
- 第1章 緒論12-16
- 1.1 研究背景12
- 1.2 流數(shù)據(jù)挖掘的研究現(xiàn)狀12-14
- 1.2.1 研究成果12-13
- 1.2.2 存在的問題13-14
- 1.3 本文的主要研究內(nèi)容14-15
- 1.4 本文結(jié)構(gòu)15-16
- 第2章 聚類分析概述16-27
- 2.1 數(shù)據(jù)挖掘技術(shù)16-18
- 2.1.1 數(shù)據(jù)挖掘的概念16
- 2.1.2 數(shù)據(jù)挖掘的過程16-18
- 2.2 流數(shù)據(jù)挖掘18-19
- 2.2.1 流數(shù)據(jù)的定義及特點18
- 2.2.2 流數(shù)據(jù)挖掘的特點18-19
- 2.3 一般聚類分析概述19-22
- 2.3.1 聚類分析的概念20
- 2.3.2 聚類分析算法20-22
- 2.4 流數(shù)據(jù)聚類分析22-26
- 2.4.1 流數(shù)據(jù)聚類分析的要求22-23
- 2.4.2 流數(shù)據(jù)聚類分析算法23-26
- 2.5 本章小結(jié)26-27
- 第3章 Spark計算平臺27-38
- 3.1 云計算概述27-29
- 3.1.1 云計算的概念27
- 3.1.2 云計算的核心技術(shù)27-28
- 3.1.3 MapReduce編程模型28-29
- 3.2 Spark分布式計算平臺29-37
- 3.2.1 Spark框架概述30-31
- 3.2.2 彈性分布式數(shù)據(jù)集(Resilient Distributed dataset,RDD)31-33
- 3.2.3 Spark工作機(jī)制詳解33-36
- 3.2.4 Shuffle機(jī)制36-37
- 3.3 本章小結(jié)37-38
- 第4章 RDDGD-Stream算法的設(shè)計與實現(xiàn)38-56
- 4.1 網(wǎng)格和密度38-40
- 4.2 RDDGD-Stream算法的總體框架40-41
- 4.3 數(shù)據(jù)空間的初始劃分41-43
- 4.3.1 初始劃分的基本思路41-42
- 4.3.2 初始劃分的實現(xiàn)42-43
- 4.4 基于有效時間的數(shù)據(jù)淘汰算法43-46
- 4.4.1 算法思路44-45
- 4.4.2 算法實現(xiàn)45-46
- 4.5 基于網(wǎng)格數(shù)據(jù)點數(shù)目的重分區(qū)算法46-47
- 4.5.1 重分區(qū)算法的基本思路46
- 4.5.2 重分區(qū)算法的實現(xiàn)46-47
- 4.6 DBSCAN算法的優(yōu)化47-55
- 4.6.1 DBSCAN算法分析48-50
- 4.6.2 基于網(wǎng)格的DBSCAN算法——GDBSCAN50-52
- 4.6.3 GDBSCAN算法的并行化思路52-53
- 4.6.4 GDBSCAN算法的并行化實現(xiàn)53-55
- 4.7 本章小結(jié)55-56
- 第5章 實驗與實驗結(jié)果分析56-67
- 5.1 GDBSCAN算法的實驗設(shè)計與結(jié)果分析56-59
- 5.1.1 實驗環(huán)境與數(shù)據(jù)準(zhǔn)備56
- 5.1.2 等分倍數(shù)分析56-57
- 5.1.3 加速比分析57-59
- 5.2 RDDGD-Stream算法的實驗設(shè)計與結(jié)果分析59-66
- 5.2.1 實驗環(huán)境與數(shù)據(jù)準(zhǔn)備59-63
- 5.2.2 演化性測試63-64
- 5.2.3 聚類質(zhì)量對比測試64
- 5.2.4 聚類效率對比測試64-66
- 5.3 本章小結(jié)66-67
- 第6章 總結(jié)與展望67-69
- 6.1 總結(jié)67-68
- 6.2 展望68-69
- 參考文獻(xiàn)69-72
- 攻讀碩士學(xué)位期間發(fā)表的論文72-73
- 致謝73
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 李敏;李英梅;;數(shù)據(jù)流聚類算法研究[J];智能計算機(jī)與應(yīng)用;2014年01期
本文關(guān)鍵詞:基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析,由筆耕文化傳播整理發(fā)布。
本文編號:360584
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/360584.html
最近更新
教材專著