面向流數(shù)據(jù)的聚類算法改進及其服務化實現(xiàn)
發(fā)布時間:2021-04-02 05:31
隨著工業(yè)信息化和傳感器網(wǎng)絡的飛速發(fā)展,在網(wǎng)絡監(jiān)控、工業(yè)控制、股票交易、互聯(lián)網(wǎng)通信等諸多領域中產(chǎn)生了連續(xù)到達、實時變化的數(shù)據(jù)流。規(guī)模巨大的流數(shù)據(jù)中蘊含了大量的價值信息,數(shù)據(jù)挖掘技術因為能夠發(fā)現(xiàn)海量數(shù)據(jù)中的有效信息而成為流數(shù)據(jù)領域的熱點研究對象。其中,實時流數(shù)據(jù)上的聚類分析是數(shù)據(jù)挖掘中的主要熱點之一。通過聚類可以將數(shù)據(jù)集合分割為幾個稱為簇或者類別的子集,使同一簇中的對象具有盡可能大的相似性,不同簇的對象具有盡可能大的相異性。通過聚類分析對數(shù)據(jù)集合進行合理劃分,有助于識別流數(shù)據(jù)群組中隱含的模式信息,異常數(shù)據(jù)和波動事件等等。Clu Stream算法提出一種在單遍掃描流數(shù)據(jù)時的兩階段聚類框架,在線更新階段使用微簇快照存儲聚類概要信息,并在離線分析階段使用金字塔時間框架響應不同粒度的聚類請求。但是其在窗口劃分和簇結構更新時沒有考慮歷史數(shù)據(jù)的影響,無法體現(xiàn)新舊數(shù)據(jù)的重要性差異。同時其固定的微簇總數(shù)也導致其在處理類簇特征演化上存在一定缺陷,沒有及時反映類簇的分裂融合等情況。本文通過提出一種基于Clu Stream的聚類改進算法,在有效識別新舊不同類簇的同時提升原算法的準確度和性能,并提出一種針對流數(shù)據(jù)...
【文章來源】:北方工業(yè)大學北京市
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
金字塔時間框架
第四章分布式流數(shù)據(jù)聚類服務實現(xiàn)36經(jīng)過窗口計算后的數(shù)據(jù)即是最終的結果,同樣需要將其輸出,這里依然選用消息隊列Kafka作為輸出源,以滿足進一步的數(shù)據(jù)挖掘需求或者可視化業(yè)務。至此,分布式數(shù)據(jù)流聚類算法的平臺實現(xiàn)完畢,圖4-4給出了算法在Flink中的物理執(zhí)行拓撲圖。圖4-4分布式聚類算法物理拓撲圖圖4-5分布式聚類算法運行模塊圖在系統(tǒng)應用層面,如圖4-5,對于流入計算平臺的數(shù)據(jù)流,將按照輪詢策略分發(fā)至數(shù)據(jù)源算子下游的處理算子,每個到達的數(shù)據(jù)點將在處理算子中執(zhí)行在線微簇更新算法,依次迭代更新全局的微簇概要信息?紤]到將有多個節(jié)點密度地讀寫微簇概要信息,所以這里需要考慮如何維護在分布式環(huán)境的讀寫一致性問題。即微簇結構如何保存,保存在哪里,如何更新到各個子節(jié)點以及怎么保證多次讀寫之間不被重復和覆蓋。這里選擇使用Flink狀態(tài)管理中的BroadcastState,建立一條專門的狀態(tài)流,與正常的數(shù)據(jù)里相連接,將在狀態(tài)流中將微簇結果廣播至正常數(shù)據(jù)流的子節(jié)點,在子節(jié)點中對微簇結構進行迭代更新,并在到達下一算子后進行匯總更新。當一個滑動窗口處理完畢,其概要信息匯聚到下游的離線算子中輸入流輸入流輸入流在線微簇更新在線微簇更新在線微簇更新離線宏聚類聚類質(zhì)量評估輸出流狀態(tài):微簇概要數(shù)據(jù)按鍵值分區(qū)廣播狀態(tài)哈希映射
系統(tǒng)登錄頁
本文編號:3114684
【文章來源】:北方工業(yè)大學北京市
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
金字塔時間框架
第四章分布式流數(shù)據(jù)聚類服務實現(xiàn)36經(jīng)過窗口計算后的數(shù)據(jù)即是最終的結果,同樣需要將其輸出,這里依然選用消息隊列Kafka作為輸出源,以滿足進一步的數(shù)據(jù)挖掘需求或者可視化業(yè)務。至此,分布式數(shù)據(jù)流聚類算法的平臺實現(xiàn)完畢,圖4-4給出了算法在Flink中的物理執(zhí)行拓撲圖。圖4-4分布式聚類算法物理拓撲圖圖4-5分布式聚類算法運行模塊圖在系統(tǒng)應用層面,如圖4-5,對于流入計算平臺的數(shù)據(jù)流,將按照輪詢策略分發(fā)至數(shù)據(jù)源算子下游的處理算子,每個到達的數(shù)據(jù)點將在處理算子中執(zhí)行在線微簇更新算法,依次迭代更新全局的微簇概要信息?紤]到將有多個節(jié)點密度地讀寫微簇概要信息,所以這里需要考慮如何維護在分布式環(huán)境的讀寫一致性問題。即微簇結構如何保存,保存在哪里,如何更新到各個子節(jié)點以及怎么保證多次讀寫之間不被重復和覆蓋。這里選擇使用Flink狀態(tài)管理中的BroadcastState,建立一條專門的狀態(tài)流,與正常的數(shù)據(jù)里相連接,將在狀態(tài)流中將微簇結果廣播至正常數(shù)據(jù)流的子節(jié)點,在子節(jié)點中對微簇結構進行迭代更新,并在到達下一算子后進行匯總更新。當一個滑動窗口處理完畢,其概要信息匯聚到下游的離線算子中輸入流輸入流輸入流在線微簇更新在線微簇更新在線微簇更新離線宏聚類聚類質(zhì)量評估輸出流狀態(tài):微簇概要數(shù)據(jù)按鍵值分區(qū)廣播狀態(tài)哈希映射
系統(tǒng)登錄頁
本文編號:3114684
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3114684.html
最近更新
教材專著