基于Spark的聚類算法實現(xiàn)與應(yīng)用

發(fā)布時間：2025-01-04 03:25

　　近年來,如何在數(shù)據(jù)汪洋中高效挖掘出具有潛在價值的信息一直是數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究熱點。聚類分析是數(shù)據(jù)挖掘研究領(lǐng)域中的熱門研究課題之一,DBSCAN算法是聚類分析中較為重要的一種基于密度的算法,具有速度快、有效處理“噪聲”點和發(fā)現(xiàn)任意形狀的簇等優(yōu)點,但是面對大數(shù)據(jù)的挖掘,其時效性不夠好。Apache Spark是當(dāng)今主流的大數(shù)據(jù)處理框架,它對廣泛使用的MapReduce計算模型進行了擴展,提供了基于內(nèi)存的并行計算框架,通過將中間結(jié)果緩存在內(nèi)存中減少了磁盤I/O操作,能夠更高效的支持交互式查詢、迭代式計算等多種計算需求。為了提高DBSCAN算法對大數(shù)據(jù)的聚類挖掘效率,本文對如何在Spark平臺上高效地運行DBSCAN算法進行了研究,設(shè)計了基于Spark的DBSCAN算法并行化方案。該方案通過合理利用RDD和設(shè)計Sample算子、map函數(shù)、collectAsMap算子、reduceByKey算子,實現(xiàn)了對尋找核心對象的密度可達數(shù)據(jù)點的過程的并行化;在Spark平臺上運用并行化DBSCAN算法對UCI的Wine數(shù)據(jù)集、Car Evaluation數(shù)據(jù)集和Adult數(shù)據(jù)集的聚類結(jié)果表明,并行化...

【文章頁數(shù)】：57 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2.1Hadoop生態(tài)系統(tǒng)

.4.1Hadoop計算框架分析（1）Hadoop概況Hadoop是由Apache基金會受GoogleLab的Map/Reduce和GFS（GoogleFileSyste啟發(fā)所開發(fā)的，允許用戶在事先不了解分布式底層詳細結(jié)構(gòu)的基礎(chǔ)上開發(fā)分布式應(yīng)用程以通過....

圖2.2Spark計算模型

是多個dataset片段，它們分別運行在不同的集群節(jié)點上可被同時并行處理。實際上Spark并行框架計算流程就是通過待處理數(shù)據(jù)創(chuàng)建RDD、轉(zhuǎn)化成新的RDD和調(diào)用RDD行動操作求值得到結(jié)果[47]。RDD支持兩種操作類型：轉(zhuǎn)化（transformation）和行動....

圖3.1核心對象示例

高密度相連的點的最大集合。該算法能夠?qū)⒏呙茉肼暋钡臄?shù)據(jù)集中識別出任意形狀的聚類[51]。對于引，DBSCAN的計算復(fù)雜度是O(nlogn)；否則其到的定義如下：以x為圓心的半徑Eps內(nèi)的球形區(qū)域稱為該點x意一點x的Eps鄰域內(nèi)包含大于或等于最小數(shù)目3.....

圖3.2密度連接示例

專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于Spark的密度聚類算法并行直接密度可達數(shù)據(jù)集D，如果點y在點x的Eps鄰域中而且點x是核心對象，則稱點yEps和MinPts直接密度可達的[52]。密度可達半徑Eps和MinPts的數(shù)據(jù)集D中，存....

本文編號：4022834

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/4022834.html

上一篇：恒豐銀行微山支行經(jīng)營模式轉(zhuǎn)型研究
下一篇：新時期電力營銷創(chuàng)新策略

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的聚類算法實現(xiàn)與應(yīng)用