MapReduce并行加速數(shù)據(jù)流多模式相似性搜索
本文選題:時(shí)間序列 + 數(shù)據(jù)流 ; 參考:《計(jì)算機(jī)應(yīng)用》2017年01期
【摘要】:設(shè)計(jì)時(shí)間序列數(shù)據(jù)在Hadoop分布式文件系統(tǒng)(HDFS)中的有效存儲(chǔ)方式,利用分布式緩存工具Distributed Cache將各子序列分發(fā)到Hadoop集群的計(jì)算節(jié)點(diǎn)上,將動(dòng)態(tài)時(shí)間彎曲距離矩陣劃分成多個(gè)子矩陣,采取并行迭代計(jì)算每條反對(duì)角線上子矩陣的方法,基于MapReduce編程模型,實(shí)現(xiàn)高效并行計(jì)算時(shí)間序列動(dòng)態(tài)彎曲距離,通過改進(jìn)剪裁冗余計(jì)算方法,設(shè)計(jì)實(shí)現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國(guó)雪深長(zhǎng)時(shí)間序列數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,當(dāng)每條時(shí)間序列的長(zhǎng)度達(dá)到5 000以上時(shí),并行計(jì)算動(dòng)態(tài)彎曲距離所需時(shí)間少于串行計(jì)算所需時(shí)間,當(dāng)每條時(shí)間序列的長(zhǎng)度達(dá)到9 000以上時(shí),參與計(jì)算的集群節(jié)點(diǎn)越多,并行計(jì)算所需時(shí)間越少;當(dāng)模式長(zhǎng)度達(dá)到4 000、參與計(jì)算的集群節(jié)點(diǎn)數(shù)達(dá)5個(gè)以上時(shí),從數(shù)據(jù)流中并行搜索出與模式匹配的相似子序列所需時(shí)間約為串行搜索所需時(shí)間的20%。
[Abstract]:The effective storage method of time series data in Hadoop distributed file system (HDFS) is designed. Each sub-sequence is distributed to the computing node of Hadoop cluster by using distributed cache tool Distributed Cache, and the dynamic time bending distance matrix is divided into several sub-matrices. Based on the MapReduce programming model, the dynamic bending distance of time series can be calculated efficiently by using the method of parallel iteration to calculate the submatrix on every anti-angle line. The method of cutting redundancy is improved. A parallel algorithm for data stream multi-pattern similarity search is designed and implemented. The experimental results of the Chinese snow depth time series data set show that when the length of each time series is more than 5,000, the time required for parallel calculation of dynamic bending distance is less than the time required for serial computation. When the length of each time series is more than 9,000, the more cluster nodes participate in the computation, the less time is required for parallel computing; when the length of the mode reaches 4,000, the number of cluster nodes participating in the calculation is more than five. The time required for parallel searching of similar sub-sequences matching patterns from the data stream is about 20 times of the time required for serial search.
【作者單位】: 廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院;廣西科技信息網(wǎng)絡(luò)中心;
【基金】:廣西自然科學(xué)基金資助項(xiàng)目(2014GXNSFAA118396)~~
【分類號(hào)】:TP311.13;O211.61
【相似文獻(xiàn)】
相關(guān)期刊論文 前3條
1 彭建喜;;基于MapReduce的潛在因素算法在推薦系統(tǒng)中的研究與應(yīng)用[J];科技通報(bào);2013年12期
2 潘全;郭鳴;林鵬;;基于MapReduce的最大團(tuán)算法[J];系統(tǒng)工程理論與實(shí)踐;2011年S2期
3 ;[J];;年期
相關(guān)會(huì)議論文 前2條
1 鄭宇瀚;郭燕慧;;一種針對(duì)流水線任務(wù)的云計(jì)算模型基于MapReduce的改進(jìn)[A];2013年中國(guó)信息通信研究新進(jìn)展論文集[C];2014年
2 華中杰;徐錫山;楊樹強(qiáng);田勝利;;MapReduce本地優(yōu)先作業(yè)調(diào)度策略研究與實(shí)現(xiàn)[A];第九屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2012年
相關(guān)碩士學(xué)位論文 前10條
1 王姍姍;MapReduce框架下并行有序決策樹及有序決策森林[D];河北大學(xué);2015年
2 金鵬;MapReduce框架下基于閾值約束的空間文本相似連接[D];燕山大學(xué);2015年
3 周鳴愛;云計(jì)算中MapReduce高可用性和高效性的優(yōu)化研究[D];河北工程大學(xué);2015年
4 戴佳男;基于MapReduce模型的海量郵件社交關(guān)系分析研究[D];南京理工大學(xué);2015年
5 閆曉嫵;MapReduce下的約束頻繁模式挖掘與任務(wù)調(diào)度[D];太原科技大學(xué);2015年
6 王強(qiáng);基于MapReduce的大數(shù)據(jù)增量處理研究[D];東北大學(xué);2014年
7 魏博文;基于MapReduce的XML編碼查詢算法研究與實(shí)現(xiàn)[D];武漢紡織大學(xué);2016年
8 張鵬;基于MapReduce的分布式社區(qū)發(fā)現(xiàn)算法研究[D];燕山大學(xué);2016年
9 段秋丹;基于MapReduce的文獻(xiàn)發(fā)現(xiàn)系統(tǒng)研究與設(shè)計(jì)[D];山東大學(xué);2016年
10 李青;基于MapReduce的廣告點(diǎn)擊率預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];云南大學(xué);2016年
,本文編號(hào):1811735
本文鏈接:http://sikaile.net/kejilunwen/yysx/1811735.html