天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于DBSCAN的分布式聚類及增量聚類的研究與應用

發(fā)布時間:2017-07-26 19:03

  本文關(guān)鍵詞:基于DBSCAN的分布式聚類及增量聚類的研究與應用


  更多相關(guān)文章: DBSCAN 分布式聚類 增量聚類 核密度估計 Storm


【摘要】:隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,存在于人們?nèi)粘Ia(chǎn)生活中的數(shù)據(jù)呈海量式增長。如何從海量數(shù)據(jù)中挖掘出隱含的信息對于指導人們的生產(chǎn)生活至關(guān)重要,而聚類是數(shù)據(jù)挖掘的重要基礎(chǔ)。目前專家、學者對海量數(shù)據(jù)聚類進行了深入研究并取得了大量成果,但是如何提高海量數(shù)據(jù)的聚類效率和聚類精度仍是當前的研究重點。本文主要工作如下:(1)針對傳統(tǒng)的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法進行研究,針對其內(nèi)存消耗嚴重以及對參數(shù)敏感的不足,提出了基于DBSCAN和核密度估計的分布式聚類算法。該算法將海量數(shù)據(jù)分發(fā)到多個節(jié)點上,然后在每個節(jié)點上采用核密度估計方法得到本節(jié)點最優(yōu)參數(shù)Eps和MinPts,根據(jù)所得參數(shù)進行局部聚類,最后提取所有局部聚類結(jié)果中的核心對象、邊界信息和噪聲點按照合并規(guī)則進行合并,得到最終聚類結(jié)果。實驗結(jié)果表明,該算法不僅提高聚類效率,同時改善了聚類質(zhì)量。(2)針對當前聚類算法在增量數(shù)據(jù)聚類過程中的效率問題,提出了基于DBSCAN的增量聚類算法。面對不斷增長的海量數(shù)據(jù),該算法只對增量數(shù)據(jù)進行聚類,然后將聚類結(jié)果按照密度可達規(guī)則納入到初始聚類結(jié)果當中,得到最終聚類結(jié)果。增量聚類算法避免了增量數(shù)據(jù)聚類過程中初始數(shù)據(jù)的“二次聚類”問題,從而大大提高了增量數(shù)據(jù)的聚類效率。(3)在分布式聚類算法和增量聚類算法的基礎(chǔ)上,結(jié)合分布式框架Storm,實現(xiàn)了網(wǎng)絡(luò)數(shù)據(jù)聚類系統(tǒng)。該系統(tǒng)從各個站點的網(wǎng)絡(luò)設(shè)備中采集原始網(wǎng)絡(luò)數(shù)據(jù),然后對這些原始網(wǎng)絡(luò)數(shù)據(jù)進行清洗過濾和預處理,將其轉(zhuǎn)化成可用于聚類的標準數(shù)據(jù)格式,最后對這些海量網(wǎng)絡(luò)數(shù)據(jù)進行分布式聚類和增量聚類,生成聚類結(jié)果。該系統(tǒng)完成了網(wǎng)絡(luò)流量數(shù)據(jù)的一站式聚類處理,實現(xiàn)了對海量網(wǎng)絡(luò)數(shù)據(jù)穩(wěn)定、高效地聚類分析。
【關(guān)鍵詞】:DBSCAN 分布式聚類 增量聚類 核密度估計 Storm
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 緒論10-16
  • 1.1 研究背景和意義10-11
  • 1.1.1 研究背景10
  • 1.1.2 研究意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-13
  • 1.2.1 國內(nèi)研究現(xiàn)狀11-12
  • 1.2.2 國外研究現(xiàn)狀12-13
  • 1.3 主要研究內(nèi)容13-14
  • 1.4 論文結(jié)構(gòu)14-16
  • 第2章 背景知識與相關(guān)技術(shù)16-26
  • 2.1 聚類算法定義16
  • 2.2 傳統(tǒng)聚類算法分類16-17
  • 2.3 DBSCAN算法17-21
  • 2.3.1 主要思想17
  • 2.3.2 相關(guān)概念17-19
  • 2.3.3 實現(xiàn)過程19-21
  • 2.4 分布式計算21-25
  • 2.4.1 基本定義21
  • 2.4.2 Storm框架21-25
  • 2.5 增量聚類算法概述25
  • 2.6 本章小結(jié)25-26
  • 第3章 基于DBSCAN和核密度估計的分布式聚類算法26-38
  • 3.1 算法總體設(shè)計26-28
  • 3.2 算法具體流程28-31
  • 3.2.1 數(shù)據(jù)分發(fā)28
  • 3.2.2 局部聚類28-29
  • 3.2.3 聚類合并29-31
  • 3.3 參數(shù)本地化策略31-33
  • 3.3.1 核密度估計31-32
  • 3.3.2 參數(shù)自適應確定32-33
  • 3.4 算法復雜度分析33-34
  • 3.5 實驗分析34-37
  • 3.5.1 聚類準確率實驗34-37
  • 3.5.2 聚類效率實驗37
  • 3.6 本章小結(jié)37-38
  • 第4章 基于DBSCAN的增量聚類算法38-48
  • 4.1 增量聚類算法流程設(shè)計38-39
  • 4.2 算法合并規(guī)則和實現(xiàn)過程39-44
  • 4.2.1 增量合并規(guī)則39-43
  • 4.2.2 算法實現(xiàn)過程43-44
  • 4.3 算法復雜度分析44
  • 4.4 實驗分析44-47
  • 4.4.1 可行性實驗45-46
  • 4.4.2 高效性實驗46-47
  • 4.5 本章小結(jié)47-48
  • 第5章 基于分布式增量聚類算法的網(wǎng)絡(luò)數(shù)據(jù)聚類系統(tǒng)實現(xiàn)48-64
  • 5.1 系統(tǒng)整體架構(gòu)48-49
  • 5.2 數(shù)據(jù)采集49-51
  • 5.2.1 分布式采集49-50
  • 5.2.2 數(shù)據(jù)緩存50-51
  • 5.3 數(shù)據(jù)預處理51-56
  • 5.3.1 數(shù)據(jù)過濾清洗51-54
  • 5.3.2 流量特征統(tǒng)計54-56
  • 5.4 分布式增量聚類56-63
  • 5.4.1 聚類模塊的設(shè)計57-58
  • 5.4.2 數(shù)據(jù)分發(fā)58
  • 5.4.3 局部參數(shù)確認58
  • 5.4.4 局部聚類58-60
  • 5.4.5 聚類合并60-62
  • 5.4.6 增量聚類62-63
  • 5.5 本章小結(jié)63-64
  • 結(jié)論64-66
  • 參考文獻66-70
  • 攻讀碩士學位期間所發(fā)表的學術(shù)論文70-72
  • 致謝72


本文編號:577852

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/577852.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶55a5d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com