天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Storm的流數(shù)據(jù)聚類算法的研究與實現(xiàn)

發(fā)布時間:2022-01-17 14:27
  隨著信息化社會的迅速發(fā)展,互聯(lián)網(wǎng)技術(shù)的廣泛應用,流數(shù)據(jù)作為目前最重要的一種數(shù)據(jù)模型已被廣泛地應用于網(wǎng)絡通信、航空工程、金融市場、電子商務等各個領(lǐng)域。聚類分析是一種有效的數(shù)據(jù)挖掘方法,可以依據(jù)相似性原理實現(xiàn)聚簇劃分,達到數(shù)據(jù)分析的目的。但是,流數(shù)據(jù)是海量的、實時的,使得傳統(tǒng)的聚類算法已無法滿足對它們的處理需求,所以,流數(shù)據(jù)聚類算法的研究變得尤為重要。由于流數(shù)據(jù)呈現(xiàn)無限性、實時性、易失性等特點,這就提高了流數(shù)據(jù)聚類算法的要求,不僅要具有能夠及時處理海量數(shù)據(jù)的能力,還要能夠?qū)崿F(xiàn)對流數(shù)據(jù)的準確聚類,提高數(shù)據(jù)分析的精準度,這其中主要包括三方面的問題:一是如何有效地處理高維流數(shù)據(jù);二是如何準確地識別離群數(shù)據(jù),消除它們對聚類效果的影響;三是如何及時處理歷史數(shù)據(jù),提高聚類準確度。針對這三方面的問題,本文的研究工作如下:(1)針對流數(shù)據(jù)聚類算法在處理高維流數(shù)據(jù)的過程中,存在聚類效率低、實時性差的問題,本文對主成分分析法(Principal Component Analysis,PCA)進行了改進,提出了DP-OPCA降維算法。DP-OPCA算法對數(shù)據(jù)進行了均值化處理,根據(jù)Pearson相關(guān)系數(shù)法原理改進... 

【文章來源】:齊魯工業(yè)大學山東省

【文章頁數(shù)】:89 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景與目的
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)降維研究現(xiàn)狀
        1.2.2 流數(shù)據(jù)聚類算法研究現(xiàn)狀
    1.3 論文的研究要點
    1.4 論文的組織結(jié)構(gòu)
第2章 相關(guān)理論介紹
    2.1 數(shù)據(jù)挖掘與流數(shù)據(jù)挖掘概述
        2.1.1 數(shù)據(jù)挖掘
        2.1.2 流數(shù)據(jù)挖掘
    2.2 聚類與流數(shù)據(jù)聚類概述
        2.2.1 傳統(tǒng)聚類
        2.2.2 流數(shù)據(jù)聚類
        2.2.3 經(jīng)典流數(shù)據(jù)聚類算法
    2.3 流數(shù)據(jù)降維方法概述
        2.3.1 線性降維
        2.3.2 非線性降維
    2.4 分布式流數(shù)據(jù)處理技術(shù)
        2.4.1 分布式流數(shù)據(jù)處理架構(gòu)
        2.4.2 分布式流數(shù)據(jù)處理系統(tǒng)
        2.4.3 分布式流數(shù)據(jù)處理平臺Storm
    2.5 本章小結(jié)
第3章 基于PCA算法的分布式降維算法的研究
    3.1 PCA算法
        3.1.1 PCA算法基本原理
        3.1.2 PCA算法降維步驟
    3.2 分布式并行化降維算法DP-OPCA
        3.2.1 DP-OPCA算法降維思想
        3.2.2 DP-OPCA算法描述
        3.2.3 實驗與結(jié)果分析
    3.3 本章小結(jié)
第4章 基于CluStream算法改進的流數(shù)據(jù)聚類算法的研究
    4.1 CluStream算法
        4.1.1 CluStream算法介紹
        4.1.2 金字塔時間幀模型
        4.1.3 CluStream算法存在的不足
    4.2 OD-CluStream算法
        4.2.1 OD-CluStream算法基本思想
        4.2.2 OD-CluStream算法的相關(guān)概念
        4.2.3 OD-CluStream算法描述
        4.2.4 實驗與結(jié)果分析
    4.3 本章小結(jié)
第5章 基于Storm的流數(shù)據(jù)聚類算法的實現(xiàn)
    5.1 Storm集群的搭建
        5.1.1 實驗環(huán)境
        5.1.2 Storm集群的搭建與配置
    5.2 基于Storm的 DP-OPCA算法的并行化實現(xiàn)
    5.3 基于Storm的 OD-CluStream算法的并行化實現(xiàn)
    5.4 實驗數(shù)據(jù)集
    5.5 實驗
        5.5.1 數(shù)據(jù)預處理
        5.5.2 實驗與結(jié)果分析
    5.6 本章小結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻
致謝
在學期間主要科研成果
    一、發(fā)表學術(shù)論文
    二、其他科研成果
附件


【參考文獻】:
期刊論文
[1]Hadoop環(huán)境下基于并行熵的FIUT算法挖掘[J]. 晏依,徐蘇.  計算機工程與設計. 2019(03)
[2]Spark和Flink平臺大數(shù)據(jù)批量處理的性能分析[J]. 馬黎.  中國電子科學研究院學報. 2018(02)
[3]一種基于Pearson相關(guān)系數(shù)的電力用戶負荷曲線聚類算法[J]. 王星華,許炫壕,周亞武.  黑龍江電力. 2017(05)
[4]基于Hadoop、Storm、Samza、Spark及Flink大數(shù)據(jù)處理框架的比較研究[J]. 趙娟,程國鐘.  信息系統(tǒng)工程. 2017(06)
[5]基于MapReduce的主成分分析算法研究[J]. 易秀雙,劉勇,李婕,王興偉.  計算機科學. 2017(02)
[6]一種基于Kafka的可靠的Consumer的設計方案[J]. 王巖,王純.  軟件. 2016(01)
[7]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛.  上海工程技術(shù)大學學報. 2015(04)
[8]基于Kafka消息隊列的電網(wǎng)設備準實時數(shù)據(jù)接入方法研究[J]. 王震,陳亮.  山東電力技術(shù). 2015(06)
[9]基于主成分分析的管理學核心期刊評價研究[J]. 周建,何星.  科技情報開發(fā)與經(jīng)濟. 2015(03)
[10]基于NS3的分布式消息系統(tǒng)Kafka的仿真實現(xiàn)[J]. 馬浩然.  軟件. 2015(01)

博士論文
[1]實時流數(shù)據(jù)分析的關(guān)鍵技術(shù)及應用[D]. 楊定裕.上海交通大學 2015
[2]數(shù)據(jù)流聚類分析與異常檢測算法[D]. 張晨.復旦大學 2009

碩士論文
[1]分布式數(shù)據(jù)流聚類算法研究與應用[D]. 萬新貴.南京郵電大學 2017
[2]基于Storm的流數(shù)據(jù)聚類挖掘算法的研究[D]. 馬可.南京郵電大學 2016
[3]基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D]. 張媛.華東師范大學 2016
[4]流式數(shù)據(jù)的并行聚類算法研究[D]. 許振佳.曲阜師范大學 2015
[5]高維數(shù)據(jù)集上的降維算法及其應用[D]. 肖招娣.華南理工大學 2013
[6]基于Map-Reduce并行聚類算法的研究[D]. 于春深.西安電子科技大學 2012



本文編號:3594893

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3594893.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7bacf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com