基于Storm的分布式流數(shù)據(jù)關聯(lián)規(guī)則挖掘
發(fā)布時間:2021-09-18 06:41
流數(shù)據(jù)廣泛存在于傳感器、網(wǎng)絡通信和互聯(lián)網(wǎng)等領域中,是一組無序、實時到達、無界且連續(xù)的數(shù)據(jù)項。流數(shù)據(jù)具有實時性、突發(fā)性、無限性、無序性以及易失性的特點。流數(shù)據(jù)的特點決定了無法在數(shù)據(jù)庫中完全存儲所有的數(shù)據(jù)并且需要實時挖掘。因此,有別于傳統(tǒng)的靜態(tài)數(shù)據(jù)挖掘算法,流數(shù)據(jù)挖掘算法需要針對流數(shù)據(jù)的特點做出改進。關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘算法的一種,該算法的目的是挖掘兩個項集之間的內在聯(lián)系,F(xiàn)有的流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法FP-Stream運行在單個計算機中,性能受限于計算機的配置。如今,流數(shù)據(jù)產(chǎn)生的速度日益增長,FP-Stream算法的性能已經(jīng)捉襟見肘。針對這一問題,本文設計了分布式流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法FP-Storm。另外,本文基于Storm框架設計了分布式流數(shù)據(jù)關聯(lián)規(guī)則挖掘框架。最后,為了驗證所提算法和框架的可用性,設計實現(xiàn)了基于流數(shù)據(jù)關聯(lián)規(guī)則挖掘的股票推薦原型系統(tǒng)。本文主要做出了如下工作:(1)為了解決現(xiàn)有流數(shù)據(jù)關聯(lián)規(guī)則算法性能低下的問題,設計了分布式流數(shù)據(jù)關聯(lián)規(guī)則算法FP-Storm。該算法使用滑動窗口選取并緩存數(shù)據(jù),將流數(shù)據(jù)轉換為批次數(shù)據(jù)進行處理。然后使用劃分投影的方法,將批次數(shù)據(jù)劃分到不同的計...
【文章來源】:江蘇大學江蘇省
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
納偽和拒真
圖 3.11 數(shù)據(jù)集部分數(shù)據(jù)截圖(1) 精確性實驗分析以對歷史數(shù)據(jù)的全量挖掘結果為標準,流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法存在著拒真和納偽的情況。流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法的精確性取決于其結果與全量挖掘結果的差異程度。實驗使用交通事故數(shù)據(jù)集,使用經(jīng)典的 FP-Growth 算法作為全量挖掘的標準結果。實驗中分別測試了最小支持度為 0.7,0.8,0.9,對應潛在最小支持度為 0.5,0.6,0.7,0.8的情況下,頻繁項集挖掘結果的數(shù)量差異,實驗結果如表 3.7 所示。表 3.7 算法精確性實驗結果最小支持度 潛在最小支持度 全量挖掘 流數(shù)據(jù)挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
圖 3.12 最小支持度對運行時間的影響圖 3.13 每秒發(fā)送數(shù)據(jù)量對運行時間的影響結果顯示隨著最小支持度的變小,F(xiàn)P-Storm 算法和 FP-Stream
【參考文獻】:
期刊論文
[1]基于關聯(lián)規(guī)則的艦船故障數(shù)據(jù)定位挖掘算法[J]. 孫繼旋. 艦船科學技術. 2017(24)
[2]改進的Apriori算法在股票聯(lián)動中的應用[J]. 趙明,羅陽星,蔣燦. 信息技術. 2017(07)
[3]基于MapReduce的改進的Apriori算法及其應用研究[J]. 趙月,任永功,劉洋. 計算機科學. 2017(06)
[4]基于前綴項集的Apriori算法改進[J]. 于守健,周羿陽. 計算機應用與軟件. 2017(02)
[5]基于關聯(lián)規(guī)則的濫用入侵檢測系統(tǒng)的研究與實現(xiàn)[J]. 謝修娟,莫凌飛,朱林. 現(xiàn)代電子技術. 2017(02)
[6]基于Storm的實時報警服務的設計與實現(xiàn)[J]. 馬慶祥,劉釗遠. 信息技術. 2016(12)
[7]基于Storm的實時用戶日志管理系統(tǒng)[J]. 陳建峽,張月,曾金懷,程鵬,王鷹適,倪一鳴. 湖北工業(yè)大學學報. 2016(05)
[8]基于Spark的PFP-Growth并行算法優(yōu)化實現(xiàn)[J]. 方向,張功萱. 現(xiàn)代電子技術. 2016(08)
[9]關聯(lián)規(guī)則在股票分析及預測中的應用[J]. 戴鐘儀. 新經(jīng)濟. 2016(05)
[10]增量關聯(lián)規(guī)則挖掘研究綜述[J]. 張步忠,江克勤,張玉州. 小型微型計算機系統(tǒng). 2016(01)
碩士論文
[1]基于Storm云平臺的電網(wǎng)設備報警數(shù)據(jù)快速處理的研究[D]. 王銘坤.華北電力大學 2015
本文編號:3399670
【文章來源】:江蘇大學江蘇省
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
納偽和拒真
圖 3.11 數(shù)據(jù)集部分數(shù)據(jù)截圖(1) 精確性實驗分析以對歷史數(shù)據(jù)的全量挖掘結果為標準,流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法存在著拒真和納偽的情況。流數(shù)據(jù)關聯(lián)規(guī)則挖掘算法的精確性取決于其結果與全量挖掘結果的差異程度。實驗使用交通事故數(shù)據(jù)集,使用經(jīng)典的 FP-Growth 算法作為全量挖掘的標準結果。實驗中分別測試了最小支持度為 0.7,0.8,0.9,對應潛在最小支持度為 0.5,0.6,0.7,0.8的情況下,頻繁項集挖掘結果的數(shù)量差異,實驗結果如表 3.7 所示。表 3.7 算法精確性實驗結果最小支持度 潛在最小支持度 全量挖掘 流數(shù)據(jù)挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
圖 3.12 最小支持度對運行時間的影響圖 3.13 每秒發(fā)送數(shù)據(jù)量對運行時間的影響結果顯示隨著最小支持度的變小,F(xiàn)P-Storm 算法和 FP-Stream
【參考文獻】:
期刊論文
[1]基于關聯(lián)規(guī)則的艦船故障數(shù)據(jù)定位挖掘算法[J]. 孫繼旋. 艦船科學技術. 2017(24)
[2]改進的Apriori算法在股票聯(lián)動中的應用[J]. 趙明,羅陽星,蔣燦. 信息技術. 2017(07)
[3]基于MapReduce的改進的Apriori算法及其應用研究[J]. 趙月,任永功,劉洋. 計算機科學. 2017(06)
[4]基于前綴項集的Apriori算法改進[J]. 于守健,周羿陽. 計算機應用與軟件. 2017(02)
[5]基于關聯(lián)規(guī)則的濫用入侵檢測系統(tǒng)的研究與實現(xiàn)[J]. 謝修娟,莫凌飛,朱林. 現(xiàn)代電子技術. 2017(02)
[6]基于Storm的實時報警服務的設計與實現(xiàn)[J]. 馬慶祥,劉釗遠. 信息技術. 2016(12)
[7]基于Storm的實時用戶日志管理系統(tǒng)[J]. 陳建峽,張月,曾金懷,程鵬,王鷹適,倪一鳴. 湖北工業(yè)大學學報. 2016(05)
[8]基于Spark的PFP-Growth并行算法優(yōu)化實現(xiàn)[J]. 方向,張功萱. 現(xiàn)代電子技術. 2016(08)
[9]關聯(lián)規(guī)則在股票分析及預測中的應用[J]. 戴鐘儀. 新經(jīng)濟. 2016(05)
[10]增量關聯(lián)規(guī)則挖掘研究綜述[J]. 張步忠,江克勤,張玉州. 小型微型計算機系統(tǒng). 2016(01)
碩士論文
[1]基于Storm云平臺的電網(wǎng)設備報警數(shù)據(jù)快速處理的研究[D]. 王銘坤.華北電力大學 2015
本文編號:3399670
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3399670.html
最近更新
教材專著