天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Storm的流數(shù)據(jù)聚類算法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2022-01-17 14:27
  隨著信息化社會(huì)的迅速發(fā)展,互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,流數(shù)據(jù)作為目前最重要的一種數(shù)據(jù)模型已被廣泛地應(yīng)用于網(wǎng)絡(luò)通信、航空工程、金融市場、電子商務(wù)等各個(gè)領(lǐng)域。聚類分析是一種有效的數(shù)據(jù)挖掘方法,可以依據(jù)相似性原理實(shí)現(xiàn)聚簇劃分,達(dá)到數(shù)據(jù)分析的目的。但是,流數(shù)據(jù)是海量的、實(shí)時(shí)的,使得傳統(tǒng)的聚類算法已無法滿足對它們的處理需求,所以,流數(shù)據(jù)聚類算法的研究變得尤為重要。由于流數(shù)據(jù)呈現(xiàn)無限性、實(shí)時(shí)性、易失性等特點(diǎn),這就提高了流數(shù)據(jù)聚類算法的要求,不僅要具有能夠及時(shí)處理海量數(shù)據(jù)的能力,還要能夠?qū)崿F(xiàn)對流數(shù)據(jù)的準(zhǔn)確聚類,提高數(shù)據(jù)分析的精準(zhǔn)度,這其中主要包括三方面的問題:一是如何有效地處理高維流數(shù)據(jù);二是如何準(zhǔn)確地識(shí)別離群數(shù)據(jù),消除它們對聚類效果的影響;三是如何及時(shí)處理歷史數(shù)據(jù),提高聚類準(zhǔn)確度。針對這三方面的問題,本文的研究工作如下:(1)針對流數(shù)據(jù)聚類算法在處理高維流數(shù)據(jù)的過程中,存在聚類效率低、實(shí)時(shí)性差的問題,本文對主成分分析法(Principal Component Analysis,PCA)進(jìn)行了改進(jìn),提出了DP-OPCA降維算法。DP-OPCA算法對數(shù)據(jù)進(jìn)行了均值化處理,根據(jù)Pearson相關(guān)系數(shù)法原理改進(jìn)... 

【文章來源】:齊魯工業(yè)大學(xué)山東省

【文章頁數(shù)】:89 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景與目的
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)降維研究現(xiàn)狀
        1.2.2 流數(shù)據(jù)聚類算法研究現(xiàn)狀
    1.3 論文的研究要點(diǎn)
    1.4 論文的組織結(jié)構(gòu)
第2章 相關(guān)理論介紹
    2.1 數(shù)據(jù)挖掘與流數(shù)據(jù)挖掘概述
        2.1.1 數(shù)據(jù)挖掘
        2.1.2 流數(shù)據(jù)挖掘
    2.2 聚類與流數(shù)據(jù)聚類概述
        2.2.1 傳統(tǒng)聚類
        2.2.2 流數(shù)據(jù)聚類
        2.2.3 經(jīng)典流數(shù)據(jù)聚類算法
    2.3 流數(shù)據(jù)降維方法概述
        2.3.1 線性降維
        2.3.2 非線性降維
    2.4 分布式流數(shù)據(jù)處理技術(shù)
        2.4.1 分布式流數(shù)據(jù)處理架構(gòu)
        2.4.2 分布式流數(shù)據(jù)處理系統(tǒng)
        2.4.3 分布式流數(shù)據(jù)處理平臺(tái)Storm
    2.5 本章小結(jié)
第3章 基于PCA算法的分布式降維算法的研究
    3.1 PCA算法
        3.1.1 PCA算法基本原理
        3.1.2 PCA算法降維步驟
    3.2 分布式并行化降維算法DP-OPCA
        3.2.1 DP-OPCA算法降維思想
        3.2.2 DP-OPCA算法描述
        3.2.3 實(shí)驗(yàn)與結(jié)果分析
    3.3 本章小結(jié)
第4章 基于CluStream算法改進(jìn)的流數(shù)據(jù)聚類算法的研究
    4.1 CluStream算法
        4.1.1 CluStream算法介紹
        4.1.2 金字塔時(shí)間幀模型
        4.1.3 CluStream算法存在的不足
    4.2 OD-CluStream算法
        4.2.1 OD-CluStream算法基本思想
        4.2.2 OD-CluStream算法的相關(guān)概念
        4.2.3 OD-CluStream算法描述
        4.2.4 實(shí)驗(yàn)與結(jié)果分析
    4.3 本章小結(jié)
第5章 基于Storm的流數(shù)據(jù)聚類算法的實(shí)現(xiàn)
    5.1 Storm集群的搭建
        5.1.1 實(shí)驗(yàn)環(huán)境
        5.1.2 Storm集群的搭建與配置
    5.2 基于Storm的 DP-OPCA算法的并行化實(shí)現(xiàn)
    5.3 基于Storm的 OD-CluStream算法的并行化實(shí)現(xiàn)
    5.4 實(shí)驗(yàn)數(shù)據(jù)集
    5.5 實(shí)驗(yàn)
        5.5.1 數(shù)據(jù)預(yù)處理
        5.5.2 實(shí)驗(yàn)與結(jié)果分析
    5.6 本章小結(jié)
第6章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間主要科研成果
    一、發(fā)表學(xué)術(shù)論文
    二、其他科研成果
附件


【參考文獻(xiàn)】:
期刊論文
[1]Hadoop環(huán)境下基于并行熵的FIUT算法挖掘[J]. 晏依,徐蘇.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(03)
[2]Spark和Flink平臺(tái)大數(shù)據(jù)批量處理的性能分析[J]. 馬黎.  中國電子科學(xué)研究院學(xué)報(bào). 2018(02)
[3]一種基于Pearson相關(guān)系數(shù)的電力用戶負(fù)荷曲線聚類算法[J]. 王星華,許炫壕,周亞武.  黑龍江電力. 2017(05)
[4]基于Hadoop、Storm、Samza、Spark及Flink大數(shù)據(jù)處理框架的比較研究[J]. 趙娟,程國鐘.  信息系統(tǒng)工程. 2017(06)
[5]基于MapReduce的主成分分析算法研究[J]. 易秀雙,劉勇,李婕,王興偉.  計(jì)算機(jī)科學(xué). 2017(02)
[6]一種基于Kafka的可靠的Consumer的設(shè)計(jì)方案[J]. 王巖,王純.  軟件. 2016(01)
[7]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛.  上海工程技術(shù)大學(xué)學(xué)報(bào). 2015(04)
[8]基于Kafka消息隊(duì)列的電網(wǎng)設(shè)備準(zhǔn)實(shí)時(shí)數(shù)據(jù)接入方法研究[J]. 王震,陳亮.  山東電力技術(shù). 2015(06)
[9]基于主成分分析的管理學(xué)核心期刊評價(jià)研究[J]. 周建,何星.  科技情報(bào)開發(fā)與經(jīng)濟(jì). 2015(03)
[10]基于NS3的分布式消息系統(tǒng)Kafka的仿真實(shí)現(xiàn)[J]. 馬浩然.  軟件. 2015(01)

博士論文
[1]實(shí)時(shí)流數(shù)據(jù)分析的關(guān)鍵技術(shù)及應(yīng)用[D]. 楊定裕.上海交通大學(xué) 2015
[2]數(shù)據(jù)流聚類分析與異常檢測算法[D]. 張晨.復(fù)旦大學(xué) 2009

碩士論文
[1]分布式數(shù)據(jù)流聚類算法研究與應(yīng)用[D]. 萬新貴.南京郵電大學(xué) 2017
[2]基于Storm的流數(shù)據(jù)聚類挖掘算法的研究[D]. 馬可.南京郵電大學(xué) 2016
[3]基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D]. 張媛.華東師范大學(xué) 2016
[4]流式數(shù)據(jù)的并行聚類算法研究[D]. 許振佳.曲阜師范大學(xué) 2015
[5]高維數(shù)據(jù)集上的降維算法及其應(yīng)用[D]. 肖招娣.華南理工大學(xué) 2013
[6]基于Map-Reduce并行聚類算法的研究[D]. 于春深.西安電子科技大學(xué) 2012



本文編號(hào):3594893

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3594893.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7bacf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com