MapReduce大數(shù)據(jù)處理平臺與算法研究進展
本文關(guān)鍵詞: 大數(shù)據(jù) MapReduce 外存算法 大數(shù)據(jù)處理 算法性能優(yōu)化 出處:《軟件學報》2017年03期 論文類型:期刊論文
【摘要】:綜述了近年來基于MapReduce編程模型的大數(shù)據(jù)處理平臺與算法的研究進展.首先介紹了12個典型的基于MapReduce的大數(shù)據(jù)處理平臺,分析對比它們的實現(xiàn)原理和適用場景,抽象其共性;隨后介紹基于MapReduce的大數(shù)據(jù)分析算法,包括搜索算法、數(shù)據(jù)清洗/變換算法、聚集算法、連接算法、排序算法、偏好查詢、最優(yōu)化算法、圖算法、數(shù)據(jù)挖掘算法,將這些算法按照MapReduce實現(xiàn)方式分類,分析影響算法性能的因素;最后,將大數(shù)據(jù)處理算法抽象為外存算法,并對外存算法的特征加以梳理,提出了普適的外存算法性能優(yōu)化方法的研究思路和問題,以供研究人員參考.具體包括優(yōu)化外存算法的磁盤I/O、優(yōu)化外存算法的局部性以及設計增量式迭代算法.現(xiàn)有的大數(shù)據(jù)處理平臺和算法研究多集中在基于資源分配和任務調(diào)度的平臺動態(tài)性能優(yōu)化、特定算法并行化、特定算法性能優(yōu)化等領域,所提出的外存算法性能優(yōu)化屬于靜態(tài)優(yōu)化方法,是現(xiàn)有研究的良好補充,為研究人員提供了廣闊的研究空間.
[Abstract]:This paper summarizes the research progress of big data processing platform and algorithm based on MapReduce programming model in recent years. Firstly, 12 typical big data processing platforms based on MapReduce are introduced. Analyze and compare their realization principle and applicable scene, abstract their commonness; Then the big data analysis algorithm based on MapReduce is introduced, including search algorithm, data cleaning / transformation algorithm, aggregation algorithm, join algorithm, sorting algorithm, preference query, optimization algorithm. Graph algorithm, data mining algorithm, these algorithms are classified according to the MapReduce implementation mode, and the factors that affect the performance of the algorithm are analyzed. Finally, the big data processing algorithm is abstracted as an external memory algorithm, and the characteristics of the external memory algorithm are combed, and the research ideas and problems of the universal external memory algorithm performance optimization method are put forward. For the reference of researchers. Including the optimization of the disk I / O memory algorithm. The existing big data processing platform and algorithms focus on the dynamic performance optimization of the platform based on resource allocation and task scheduling, and the parallelization of specific algorithms. The performance optimization of the external storage algorithm is a static optimization method, which is a good supplement to the existing research and provides a broad research space for researchers.
【作者單位】: 東北大學軟件學院;東北大學計算機科學與工程學院;
【基金】:國家自然科學基金(61672143,61433008,61402090,61502090)~~
【分類號】:TP311.13
【正文快照】: Research Advance on Map Reduce Based Big Data Processing Platforms and AlgorithmsSONG Jie1,SUN Zong-Zhe1,MAO Ke-Ming1,BAO Yu-Bin2,YU Ge21(Software College,Northeastern University,Shenyang 110819,China)2(School of Computer Science and Engineering,Northeas
【相似文獻】
相關(guān)期刊論文 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學技術(shù)學報;2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點與封閉多邊形相對關(guān)系的改進算法[J];機械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學報;2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計算機應用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進化算法及其性能研究[J];電子學報;2001年02期
6 章郡鋒;吳曉紅;黃曉強;何小海;;基于暗原色先驗去霧的改進算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計算超體積算法的比較研究[J];計算機工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實現(xiàn)[J];電子科學學刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學學報(自然科學版);2001年03期
相關(guān)會議論文 前10條
1 尹冀鋒;;一種新的圖象自適應增強算法[A];四川省通信學會一九九二年學術(shù)年會論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計算機輔助增強、分割算法在鑒別乳腺良、惡性腫塊中的應用價值[A];中華醫(yī)學會第十次全國超聲醫(yī)學學術(shù)會議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫算法的改進[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
4 鄭存紅;;復雜背景下相關(guān)跟蹤算法研究及DSP實現(xiàn)[A];中國光學學會2010年光學大會論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進展——第十三屆全國青年通信學術(shù)會議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標TBD算法[A];第十四屆全國圖象圖形學學術(shù)會議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機器人設計[A];2011年全國電子信息技術(shù)與應用學術(shù)會議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復制連接算法優(yōu)化技術(shù)研究[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復結(jié)構(gòu)的多尺度快速檢測算法[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵金祥;;基于棱邊方向檢測的運動自適應去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相關(guān)重要報紙文章 前1條
1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍首?[N];上海證券報;2010年
相關(guān)博士學位論文 前10條
1 馮輝;網(wǎng)絡化的并行與分布式優(yōu)化算法研究及應用[D];復旦大學;2013年
2 許玉杰;云計算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學;2014年
3 李琰;基于貓群算法的高光譜遙感森林類型識別研究[D];東北林業(yè)大學;2015年
4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學;2014年
5 王洋;基于群體智能的通信網(wǎng)絡告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學;2015年
6 雷雨;面向考試時間表問題的啟發(fā)式進化算法研究[D];西安電子科技大學;2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學習算法研究[D];西安電子科技大學;2015年
8 周雷;基于圖結(jié)構(gòu)的目標檢測與分割算法研究[D];上海交通大學;2014年
9 王冰;人工蜂群算法的改進及相關(guān)應用的研究[D];北京理工大學;2015年
10 蔣亦樟;多視角和遷移學習識別方法和智能建模研究[D];江南大學;2015年
相關(guān)碩士學位論文 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計中的聯(lián)合應用[D];昆明理工大學;2015年
2 陸進;面向含噪數(shù)據(jù)聚類相關(guān)算法的研究[D];復旦大學;2014年
3 李家昌;基于能量約束的超聲圖像自動分割算法[D];華南理工大學;2015年
4 陳堅;基于密度和約束的數(shù)據(jù)流聚類算法研究[D];蘭州大學;2015年
5 高健;基于Zynq7000平臺的去霧算法研究及實現(xiàn)[D];南京理工大學;2015年
6 顧磊;基于Hadoop的聚類算法的數(shù)據(jù)優(yōu)化及其應用研究[D];南京信息工程大學;2015年
7 楊燕霞;基于Hadoop平臺的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學;2015年
8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設計與實現(xiàn)[D];南京理工大學;2015年
9 許振佳;流式數(shù)據(jù)的并行聚類算法研究[D];曲阜師范大學;2015年
10 董琴;人工蜂群算法的改進與應用[D];大連海事大學;2015年
,本文編號:1443348
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1443348.html