天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 營銷論文 >

基于Spark的聚類算法實現(xiàn)與應(yīng)用

發(fā)布時間:2025-01-04 03:25
  近年來,如何在數(shù)據(jù)汪洋中高效挖掘出具有潛在價值的信息一直是數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究熱點。聚類分析是數(shù)據(jù)挖掘研究領(lǐng)域中的熱門研究課題之一,DBSCAN算法是聚類分析中較為重要的一種基于密度的算法,具有速度快、有效處理“噪聲”點和發(fā)現(xiàn)任意形狀的簇等優(yōu)點,但是面對大數(shù)據(jù)的挖掘,其時效性不夠好。Apache Spark是當(dāng)今主流的大數(shù)據(jù)處理框架,它對廣泛使用的MapReduce計算模型進行了擴展,提供了基于內(nèi)存的并行計算框架,通過將中間結(jié)果緩存在內(nèi)存中減少了磁盤I/O操作,能夠更高效的支持交互式查詢、迭代式計算等多種計算需求。為了提高DBSCAN算法對大數(shù)據(jù)的聚類挖掘效率,本文對如何在Spark平臺上高效地運行DBSCAN算法進行了研究,設(shè)計了基于Spark的DBSCAN算法并行化方案。該方案通過合理利用RDD和設(shè)計Sample算子、map函數(shù)、collectAsMap算子、reduceByKey算子,實現(xiàn)了對尋找核心對象的密度可達數(shù)據(jù)點的過程的并行化;在Spark平臺上運用并行化DBSCAN算法對UCI的Wine數(shù)據(jù)集、Car Evaluation數(shù)據(jù)集和Adult數(shù)據(jù)集的聚類結(jié)果表明,并行化...

【文章頁數(shù)】:57 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2.1Hadoop生態(tài)系統(tǒng)

圖2.1Hadoop生態(tài)系統(tǒng)

.4.1Hadoop計算框架分析(1)Hadoop概況Hadoop是由Apache基金會受GoogleLab的Map/Reduce和GFS(GoogleFileSyste啟發(fā)所開發(fā)的,允許用戶在事先不了解分布式底層詳細結(jié)構(gòu)的基礎(chǔ)上開發(fā)分布式應(yīng)用程以通過....


圖2.2Spark計算模型

圖2.2Spark計算模型

是多個dataset片段,它們分別運行在不同的集群節(jié)點上可被同時并行處理。實際上Spark并行框架計算流程就是通過待處理數(shù)據(jù)創(chuàng)建RDD、轉(zhuǎn)化成新的RDD和調(diào)用RDD行動操作求值得到結(jié)果[47]。RDD支持兩種操作類型:轉(zhuǎn)化(transformation)和行動....


圖3.1核心對象示例

圖3.1核心對象示例

高密度相連的點的最大集合。該算法能夠?qū)⒏呙茉肼暋钡臄?shù)據(jù)集中識別出任意形狀的聚類[51]。對于引,DBSCAN的計算復(fù)雜度是O(nlogn);否則其到的定義如下:以x為圓心的半徑Eps內(nèi)的球形區(qū)域稱為該點x意一點x的Eps鄰域內(nèi)包含大于或等于最小數(shù)目3.....


圖3.2密度連接示例

圖3.2密度連接示例

專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于Spark的密度聚類算法并行直接密度可達數(shù)據(jù)集D,如果點y在點x的Eps鄰域中而且點x是核心對象,則稱點yEps和MinPts直接密度可達的[52]。密度可達半徑Eps和MinPts的數(shù)據(jù)集D中,存....



本文編號:4022834

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/4022834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e263a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com