基于大數(shù)據(jù)的Hadoop并行計算優(yōu)化處理性能分析
[Abstract]:With the development and popularization of new generation mobile communication, Internet of things, cloud computing and other new technologies in recent years, the data flow increases explosively, and the pressure of data processing in the original communication system increases. The MapReduce programming architecture in distributed computing Hadoop has become a mature solution in the fields of text analysis, natural language processing, business data processing and so on with its powerful data processing ability. It can meet the requirement of data processing in the field of communication. However, as the amount of data increases, the configuration parameters involved further increase, configuration parameters optimization has become the main bottleneck limiting the performance of MapReduce. Hadoop configuration involves more than 200 parameters, About 13 of them will have a great impact on the running jobs, and these parameters determine the performance of the cluster as a whole. Based on performance tuning, a new type of parameter configuration analysis system is designed in this paper, which can optimize the configuration of parameters for each job. In this paper, based on the original MapReduce framework, three new logical components are proposed: parameter analyzer, parameter decision engine and cost-based optimization model. Among them, the parameter analyzer will collect the relevant statistics in the unmodified MapReduce program, and the parameter decision engine will refine the prediction of each parameter domain. The cost-based optimization model simplifies the configuration of parameters on the basis of the first two and gives the optimal parameters. Under the combined use of the above three components, the optimal parameter configuration can be given for each job. The validity of the three logic components proposed in this paper is verified by the comprehensive evaluation of the optimized parameters of the typical applications in the main fields of MapReduce: word frequency statistics, word co-occurrence statistics and ordering. After testing and verification, compared with the optimal parameters obtained by the three logical components designed in this paper, the rule of thumb and the default parameters are superior and effective in solving the bottleneck problem of Hadoop server cluster performance. The new optimization model simplifies the configuration of parameters and is innovative and practical.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP274.2;TN92
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 謝曉蘭,韓可軼,王林;提高Java程序性能的若干方法[J];計算機與現(xiàn)代化;2005年08期
2 鄭小蓉;;高職學(xué)院學(xué)生信息管理系統(tǒng)性能優(yōu)化問題分析[J];中國新技術(shù)新產(chǎn)品;2009年22期
3 王曉東;;淺談計算機性能優(yōu)化技術(shù)中的問題及對策[J];計算機光盤軟件與應(yīng)用;2014年03期
4 王玉蘭;“九七”計算機系統(tǒng)的性能優(yōu)化[J];電信技術(shù);2002年02期
5 馬晶;;信息系統(tǒng)中數(shù)據(jù)庫的性能優(yōu)化[J];科技信息;2010年14期
6 張淑坤;;工藝流程改進在告警采集系統(tǒng)性能優(yōu)化中的應(yīng)用[J];計算機光盤軟件與應(yīng)用;2013年02期
7 劉軍,楊衛(wèi)春;九七系統(tǒng)性能優(yōu)化技術(shù)(二)[J];江西通信科技;2001年04期
8 陳蘇蓉;朱曉輝;;SQL Server 2008性能優(yōu)化研究[J];電腦知識與技術(shù);2009年34期
9 靳春霞;;計算機系統(tǒng)性能優(yōu)化研究[J];河南科技;2010年15期
10 徐躍偉;;網(wǎng)上購物系統(tǒng)的實現(xiàn)及性能優(yōu)化[J];計算機時代;2012年01期
相關(guān)會議論文 前10條
1 姚杰;;寶鋼不銹鋼系統(tǒng)數(shù)據(jù)庫性能優(yōu)化方案[A];中國計量協(xié)會冶金分會2007年會論文集[C];2007年
2 代桂平;殷保群;奚宏生;周亞平;;受控M/G/1排隊系統(tǒng)的性能優(yōu)化[A];第二十二屆中國控制會議論文集(下)[C];2003年
3 李彥;王屹;徐繼明;;ERP系統(tǒng)的性能優(yōu)化[A];全國煉鋼連鑄過程自動化技術(shù)交流會論文集[C];2006年
4 趙海波;楊昭;方箏;徐振軍;;燃?xì)鈮嚎s式熱泵系統(tǒng)全年季節(jié)性能優(yōu)化[A];中國制冷學(xué)會2007學(xué)術(shù)年會論文集[C];2007年
5 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會論文集[C];2004年
6 奚宏生;唐昊;殷保群;周亞平;;Markov控制過程在緊致行動集上的性能優(yōu)化[A];第二十一屆中國控制會議論文集[C];2002年
7 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];鐵道部信息技術(shù)中心成立30周年暨鐵路運輸管理信息系統(tǒng)(TMIS)工程全面竣工投產(chǎn)TMIS工程建設(shè)論文專輯(二)[C];2005年
8 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];中國鐵道學(xué)會——2004年度學(xué)術(shù)活動優(yōu)秀論文評獎?wù)撐募痆C];2005年
9 杜勁松;李強;包勁松;;國產(chǎn)600MW機組循環(huán)效率試驗及性能優(yōu)化分析[A];2008中國可持續(xù)發(fā)展論壇論文集(3)[C];2008年
10 杜勁松;李強;包勁松;;國產(chǎn)600MW機組循環(huán)效率試驗及性能優(yōu)化分析[A];全國火電大機組(600MW級)競賽第十二屆年會論文集(上冊)[C];2008年
相關(guān)重要報紙文章 前5條
1 陳翔;性能優(yōu)化只能救火[N];中國計算機報;2007年
2 本報記者 郭平;EMC簡單高效實現(xiàn)私有云[N];計算機世界;2010年
3 ;安圖特引入新型數(shù)據(jù)加速解決方案[N];人民郵電;2008年
4 陳洪康 郭寶群 李雪梅;淺談VLDB性能優(yōu)化與維護[N];人民郵電;2001年
5 驅(qū)動之家;加點“催化劑”引爆你的“鐳”[N];中國計算機報;2002年
相關(guān)博士學(xué)位論文 前6條
1 陳偉鋒;大規(guī)模復(fù)雜過程系統(tǒng)的高性能優(yōu)化理論與方法研究[D];浙江大學(xué);2011年
2 李磊;分布式系統(tǒng)中容錯機制性能優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2007年
3 賈海鵬;面向GPU計算平臺的若干并行優(yōu)化關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2012年
4 魏丫丫;Web傳輸?shù)男阅軆?yōu)化[D];清華大學(xué);2006年
5 何倩;P2P系統(tǒng)性能優(yōu)化若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2010年
6 毛宏燕;基于部分計值的服務(wù)性能優(yōu)化研究[D];上海交通大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 唐沙;工程信息管理系統(tǒng)的性能優(yōu)化研究[D];西南交通大學(xué);2007年
2 曹珂;教育管理軟件互操作應(yīng)用系統(tǒng)及其性能優(yōu)化[D];浙江大學(xué);2005年
3 劉
本文編號:2448861
本文鏈接:http://sikaile.net/kejilunwen/wltx/2448861.html