MapReduce并行加速數(shù)據(jù)流多模式相似性搜索
本文選題:時間序列 + 數(shù)據(jù)流; 參考:《計算機應用》2017年01期
【摘要】:設計時間序列數(shù)據(jù)在Hadoop分布式文件系統(tǒng)(HDFS)中的有效存儲方式,利用分布式緩存工具Distributed Cache將各子序列分發(fā)到Hadoop集群的計算節(jié)點上,將動態(tài)時間彎曲距離矩陣劃分成多個子矩陣,采取并行迭代計算每條反對角線上子矩陣的方法,基于MapReduce編程模型,實現(xiàn)高效并行計算時間序列動態(tài)彎曲距離,通過改進剪裁冗余計算方法,設計實現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國雪深長時間序列數(shù)據(jù)集的實驗結果表明,當每條時間序列的長度達到5 000以上時,并行計算動態(tài)彎曲距離所需時間少于串行計算所需時間,當每條時間序列的長度達到9 000以上時,參與計算的集群節(jié)點越多,并行計算所需時間越少;當模式長度達到4 000、參與計算的集群節(jié)點數(shù)達5個以上時,從數(shù)據(jù)流中并行搜索出與模式匹配的相似子序列所需時間約為串行搜索所需時間的20%。
[Abstract]:The effective storage method of time series data in Hadoop distributed file system (HDFS) is designed. Each sub-sequence is distributed to the computing node of Hadoop cluster by using distributed cache tool Distributed Cache, and the dynamic time bending distance matrix is divided into several sub-matrices. Based on the MapReduce programming model, the dynamic bending distance of time series can be calculated efficiently by using the method of parallel iteration to calculate the submatrix on every anti-angle line. The method of cutting redundancy is improved. A parallel algorithm for data stream multi-pattern similarity search is designed and implemented. The experimental results of the Chinese snow depth time series data set show that when the length of each time series is more than 5,000, the time required for parallel calculation of dynamic bending distance is less than the time required for serial computation. When the length of each time series is more than 9,000, the more cluster nodes participate in the computation, the less time is required for parallel computing; when the length of the mode reaches 4,000, the number of cluster nodes participating in the calculation is more than five. The time required for parallel searching of similar sub-sequences matching patterns from the data stream is about 20 times of the time required for serial search.
【作者單位】: 廣西大學計算機與電子信息學院;廣西科技信息網(wǎng)絡中心;
【基金】:廣西自然科學基金資助項目(2014GXNSFAA118396)~~
【分類號】:TP311.13;O211.61
【相似文獻】
相關期刊論文 前3條
1 彭建喜;;基于MapReduce的潛在因素算法在推薦系統(tǒng)中的研究與應用[J];科技通報;2013年12期
2 潘全;郭鳴;林鵬;;基于MapReduce的最大團算法[J];系統(tǒng)工程理論與實踐;2011年S2期
3 ;[J];;年期
相關會議論文 前2條
1 鄭宇瀚;郭燕慧;;一種針對流水線任務的云計算模型基于MapReduce的改進[A];2013年中國信息通信研究新進展論文集[C];2014年
2 華中杰;徐錫山;楊樹強;田勝利;;MapReduce本地優(yōu)先作業(yè)調(diào)度策略研究與實現(xiàn)[A];第九屆中國通信學會學術年會論文集[C];2012年
相關碩士學位論文 前10條
1 王姍姍;MapReduce框架下并行有序決策樹及有序決策森林[D];河北大學;2015年
2 金鵬;MapReduce框架下基于閾值約束的空間文本相似連接[D];燕山大學;2015年
3 周鳴愛;云計算中MapReduce高可用性和高效性的優(yōu)化研究[D];河北工程大學;2015年
4 戴佳男;基于MapReduce模型的海量郵件社交關系分析研究[D];南京理工大學;2015年
5 閆曉嫵;MapReduce下的約束頻繁模式挖掘與任務調(diào)度[D];太原科技大學;2015年
6 王強;基于MapReduce的大數(shù)據(jù)增量處理研究[D];東北大學;2014年
7 魏博文;基于MapReduce的XML編碼查詢算法研究與實現(xiàn)[D];武漢紡織大學;2016年
8 張鵬;基于MapReduce的分布式社區(qū)發(fā)現(xiàn)算法研究[D];燕山大學;2016年
9 段秋丹;基于MapReduce的文獻發(fā)現(xiàn)系統(tǒng)研究與設計[D];山東大學;2016年
10 李青;基于MapReduce的廣告點擊率預測系統(tǒng)設計與實現(xiàn)[D];云南大學;2016年
,本文編號:1811735
本文鏈接:http://sikaile.net/kejilunwen/yysx/1811735.html