基于Spark的聚類算法實現(xiàn)與應(yīng)用
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1Hadoop生態(tài)系統(tǒng)
.4.1Hadoop計算框架分析(1)Hadoop概況Hadoop是由Apache基金會受GoogleLab的Map/Reduce和GFS(GoogleFileSyste啟發(fā)所開發(fā)的,允許用戶在事先不了解分布式底層詳細結(jié)構(gòu)的基礎(chǔ)上開發(fā)分布式應(yīng)用程以通過....
圖2.2Spark計算模型
是多個dataset片段,它們分別運行在不同的集群節(jié)點上可被同時并行處理。實際上Spark并行框架計算流程就是通過待處理數(shù)據(jù)創(chuàng)建RDD、轉(zhuǎn)化成新的RDD和調(diào)用RDD行動操作求值得到結(jié)果[47]。RDD支持兩種操作類型:轉(zhuǎn)化(transformation)和行動....
圖3.1核心對象示例
高密度相連的點的最大集合。該算法能夠?qū)⒏呙茉肼暋钡臄?shù)據(jù)集中識別出任意形狀的聚類[51]。對于引,DBSCAN的計算復(fù)雜度是O(nlogn);否則其到的定義如下:以x為圓心的半徑Eps內(nèi)的球形區(qū)域稱為該點x意一點x的Eps鄰域內(nèi)包含大于或等于最小數(shù)目3.....
圖3.2密度連接示例
專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于Spark的密度聚類算法并行直接密度可達數(shù)據(jù)集D,如果點y在點x的Eps鄰域中而且點x是核心對象,則稱點yEps和MinPts直接密度可達的[52]。密度可達半徑Eps和MinPts的數(shù)據(jù)集D中,存....
本文編號:4022834
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/4022834.html