基于塊聚集的MapReduce性能研究與優(yōu)化
本文關(guān)鍵詞:基于塊聚集的MapReduce性能研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:摘要:隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使得云計(jì)算技術(shù)應(yīng)運(yùn)而生。由于海量數(shù)據(jù)已經(jīng)不能夠存儲在單一的計(jì)算機(jī)上,傳統(tǒng)的串行處理需要大量的時間花銷,因此如何對海量數(shù)據(jù)進(jìn)行高效處理成為一個亟需解決的問題。MapReduce作為一個支持分布式并行處理海量數(shù)據(jù)的計(jì)算模型,廣泛適用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和科學(xué)計(jì)算等數(shù)據(jù)密集型應(yīng)用領(lǐng)域。:Hadoop是MapReduce計(jì)算模型的一個開源實(shí)現(xiàn),已經(jīng)被Yahoo,Amazon和Facebook等企業(yè)用于在搜索日志和訪問日志這類大數(shù)據(jù)集上進(jìn)行各項(xiàng)數(shù)據(jù)挖掘。雖然Hadoop的使用價(jià)值已經(jīng)得到了大家的認(rèn)可,但是還存在很多問題,其性能有待進(jìn)一步的改善。 Hadoop的核心組件包括Hadoop文件系統(tǒng)(HDFS)和MapReduce計(jì)算框架,它們是Google文件系統(tǒng)(GFS)和MapReduce的開源實(shí)現(xiàn)版本。在對HDFS和MapReduce進(jìn)行了深入的研究和實(shí)踐的基礎(chǔ)上,本文闡述了Hadoop共享集群不能保證不同數(shù)據(jù)量作業(yè)都高效運(yùn)行的問題。這主要體現(xiàn)于共享集群在保證相對較小數(shù)據(jù)量作業(yè)的并行性能的同時,在該集群上運(yùn)行大數(shù)據(jù)量作業(yè)會產(chǎn)生非常多的map任務(wù),給集群的控制節(jié)點(diǎn)帶來非常大的壓力,并且在初始化這些map任務(wù)時會耗費(fèi)非常多的資源。本文從文件系統(tǒng)(HDFS)和分布式并行計(jì)算框架(MapReduce)相結(jié)合的角度出發(fā),提出了基于塊聚集的自適應(yīng)分片算法,使集群的任務(wù)分配機(jī)制按照作業(yè)的實(shí)際數(shù)據(jù)量、數(shù)據(jù)文件個數(shù)和作業(yè)可用計(jì)算資源等因素自行確定分片的大小,并使數(shù)據(jù)以分片為單位在節(jié)點(diǎn)上聚集性存儲。該算法保證了不同數(shù)據(jù)量作業(yè)的并行度,并適當(dāng)降低了大數(shù)據(jù)量作業(yè)的map任務(wù)個數(shù),減少了作業(yè)運(yùn)行過程中初始化任務(wù)的開銷和控制節(jié)點(diǎn)的壓力,從而有效地提高了集群的運(yùn)行性能。 當(dāng)前Hadoop在實(shí)現(xiàn)上假定集群中的所有節(jié)點(diǎn)的計(jì)算能力是相同的,并假定大部分map任務(wù)的數(shù)據(jù)都存儲在本地磁盤上,在實(shí)際執(zhí)行map任務(wù)的時候數(shù)據(jù)的本地性并沒有得到很好的體現(xiàn)。這使得異構(gòu)Hadoop集群的運(yùn)行性能極端低下。本文也針對這一問題展開討論,并提出根據(jù)集群節(jié)點(diǎn)的實(shí)際計(jì)算能力和輸入數(shù)據(jù)的實(shí)際大小計(jì)算作業(yè)的分片大小,同時將分片內(nèi)的數(shù)據(jù)按照節(jié)點(diǎn)計(jì)算能力進(jìn)行集聚性存儲,提高異構(gòu)集群的數(shù)據(jù)本地性。實(shí)驗(yàn)證明優(yōu)化后的Hadoop在異構(gòu)集群中能夠更加高效的運(yùn)行計(jì)算任務(wù)。
【關(guān)鍵詞】:云計(jì)算 GFS Hadoop HDFS MapReduce 塊聚集
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP302.7
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-9
- 序9-12
- 1 引言12-16
- 1.1 課題研究背景12-14
- 1.2 Hadoop應(yīng)用現(xiàn)狀14
- 1.3 論文研究內(nèi)容14-15
- 1.4 論文結(jié)構(gòu)15
- 1.5 本章小結(jié)15-16
- 2 Hadoop平臺介紹16-38
- 2.1 簡介16
- 2.2 Hadoop文件系統(tǒng)(HDFS)16-27
- 2.2.1 HDFS的主要特征17
- 2.2.2 HDFS體系結(jié)構(gòu)17-20
- 2.2.3 HDFS靠性保障機(jī)制20-22
- 2.2.4 HDFS的存儲機(jī)制22-24
- 2.2.5 HDFS的數(shù)據(jù)交互過程24-27
- 2.3 Hadoop的MapReduce計(jì)算模型27-35
- 2.3.1 MapReduce框架組件28-30
- 2.3.2 MapReduce的執(zhí)行流程30-32
- 2.3.3 MapReduce作業(yè)調(diào)度機(jī)制32-33
- 2.3.4 MapReduce任務(wù)執(zhí)行策略33-34
- 2.3.5 MapReduce的容錯機(jī)制34-35
- 2.4 Hadoop存在的問題及研究現(xiàn)狀35-37
- 2.5 本章小結(jié)37-38
- 3 Hadoop任務(wù)粒度研究與改進(jìn)38-58
- 3.1 作業(yè)的任務(wù)劃分機(jī)制存在的問題38-47
- 3.1.1 作業(yè)分片38-39
- 3.1.2 分片劃分的影響因素39-41
- 3.1.3 現(xiàn)有框架的相關(guān)實(shí)現(xiàn)41-46
- 3.1.4 實(shí)現(xiàn)中存在的問題46-47
- 3.2 基于塊聚集的自適應(yīng)分片算法47-53
- 3.2.1 分片算法的設(shè)計(jì)47-50
- 3.2.2 塊聚集存儲機(jī)制50-53
- 3.3 實(shí)驗(yàn)及分析53-56
- 3.3.1 實(shí)驗(yàn)環(huán)境53-54
- 3.3.2 實(shí)驗(yàn)性能對比分析54-56
- 3.4 本章小結(jié)56-58
- 4 異構(gòu)集群的性能研究與改進(jìn)58-65
- 4.1 異構(gòu)集群數(shù)據(jù)存儲方案59-61
- 4.2 自適應(yīng)分片算法在異構(gòu)環(huán)境的應(yīng)用61-62
- 4.3 實(shí)驗(yàn)及分析62-64
- 4.4 本章小結(jié)64-65
- 5 總結(jié)和展望65-67
- 5.1 總結(jié)65-66
- 5.2 展望66-67
- 參考文獻(xiàn)67-69
- 作者簡歷69-71
- 學(xué)位論文數(shù)據(jù)集71
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王宏宇;;Hadoop平臺在云計(jì)算中的應(yīng)用[J];軟件;2011年04期
2 陳俊;陳孝威;;基于Hadoop建立云計(jì)算系統(tǒng)[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
3 金欣;王晶;沈奇威;;自中心網(wǎng)絡(luò)生成的高效分布式設(shè)計(jì)與實(shí)現(xiàn)[J];電信科學(xué);2010年11期
4 廖雷;如何在Windows下由一個任務(wù)啟動和中止另一個任務(wù)[J];現(xiàn)代計(jì)算機(jī);1996年04期
5 鄭欣杰;朱程榮;熊齊邦;;基于MapReduce的分布式光線跟蹤的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2007年22期
6 鄭霄;李宏亮;吳東;原昊;;分布式狀態(tài)空間生成的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2009年32期
7 謝桂蘭;羅省賢;;基于Hadoop MapReduce模型的應(yīng)用研究[J];微型機(jī)與應(yīng)用;2010年08期
8 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數(shù)據(jù)局部性改進(jìn)調(diào)度算法[J];計(jì)算機(jī)科學(xué);2011年11期
9 丁光華;周繼鵬;周敏;;基于MapReduce的并行貝葉斯分類算法的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年09期
10 李遠(yuǎn)方;鄧世昆;聞玉彪;韓月陽;;Hadoop-MapReduce下的PageRank矩陣分塊算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
2 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
3 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
4 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實(shí)體識別技術(shù)研究與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
5 趙偉;陳承收;李立軍;;基于MapReduce云計(jì)算模型的碰撞檢測算法[A];'2010系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2010年
6 孫廣中;肖鋒;熊曦;;MapReduce模型的調(diào)度及容錯機(jī)制研究[A];2007年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(上冊)[C];2007年
7 陳兆波;李鵬飛;李波;;通過優(yōu)化預(yù)分配算法提升CDMA數(shù)據(jù)能力[A];第十屆中國科協(xié)年會信息化與社會發(fā)展學(xué)術(shù)討論會分會場論文集[C];2008年
8 高玨;;關(guān)于數(shù)字出版地圖數(shù)據(jù)轉(zhuǎn)換的技術(shù)[A];2009全國測繪科技信息交流會暨首屆測繪博客征文頒獎?wù)撐募痆C];2009年
9 鄭啟龍;房明;汪勝;王向前;吳曉偉;王昊;;基于MapReduce模型的并行科學(xué)計(jì)算[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(上冊)[C];2009年
10 高玨;;關(guān)于數(shù)字地圖數(shù)據(jù)轉(zhuǎn)換的技術(shù)[A];中國測繪學(xué)會九屆三次理事會暨2007年“信息化測繪論壇”學(xué)術(shù)年會論文集[C];2007年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 濟(jì)文;濟(jì)南市文化局“文化服務(wù)年”目標(biāo)任務(wù)啟動[N];中國文化報(bào);2005年
2 王晶邋通訊員 李淑艷;西部原油管道場站具備送電條件[N];中國石油報(bào);2007年
3 ;不僅僅需要管理數(shù)據(jù)量[N];人民郵電;2011年
4 張承東 編譯;數(shù)據(jù)量增長讓IT管理職位發(fā)生變化[N];網(wǎng)絡(luò)世界;2007年
5 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
6 本報(bào)記者 郭濤;填補(bǔ)數(shù)據(jù)量增長與存儲性能之間的鴻溝[N];中國計(jì)算機(jī)報(bào);2009年
7 記者 段金平 于德福;北京:地質(zhì)信息服務(wù)系統(tǒng)初步到位[N];地質(zhì)勘查導(dǎo)報(bào);2007年
8 一文;10年后年數(shù)據(jù)量將增45倍[N];中國消費(fèi)者報(bào);2010年
9 劉琦;MapReduce:亞馬遜云服務(wù)再添新援[N];中國計(jì)算機(jī)報(bào);2009年
10 小詹;富思特中標(biāo)奧運(yùn)景觀大道粉飾工程[N];中國建材報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
2 姬鳴;任務(wù)優(yōu)先及中斷[D];陜西師范大學(xué);2012年
3 康俊鋒;云計(jì)算環(huán)境下高分辨率遙感影像存儲與高效管理技術(shù)研究[D];浙江大學(xué);2011年
4 史恒亮;云計(jì)算任務(wù)調(diào)度研究[D];南京理工大學(xué);2012年
5 程興國;仿生算法的動態(tài)反饋機(jī)制及其并行化實(shí)現(xiàn)方法研究[D];華南理工大學(xué);2013年
6 丁澤柳;一體化信息基礎(chǔ)設(shè)施中面向MapReduce的遞歸層次結(jié)構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
7 鄭書朋;飛行模擬器的計(jì)算機(jī)系統(tǒng)實(shí)時調(diào)度與通信關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
8 韓海雯;MapReduce計(jì)算任務(wù)調(diào)度的資源配置優(yōu)化研究[D];華南理工大學(xué);2013年
9 羅永紅;無縫運(yùn)輸信息網(wǎng)格的若干關(guān)鍵技術(shù)研究[D];中南大學(xué);2011年
10 吳昊;云計(jì)算環(huán)境下智能優(yōu)化算法及其在SaaS中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李俊;基于塊聚集的MapReduce性能研究與優(yōu)化[D];北京交通大學(xué);2014年
2 金靜;飛機(jī)電源系統(tǒng)配電技術(shù)研究[D];上海交通大學(xué);2012年
3 孫煦雪;面向多媒體編解碼應(yīng)用的多處理器系統(tǒng)芯片任務(wù)并行化方法的研究與實(shí)現(xiàn)[D];浙江大學(xué);2010年
4 鄭媛媛;支持透明軟硬件編程的混合系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2008年
5 張鐵軍;基于多核CPU的任務(wù)級數(shù)據(jù)處理研究及其在集群平臺下的性能測試[D];重慶大學(xué);2011年
6 姜淼;Hadoop云平臺下調(diào)度算法的研究[D];吉林大學(xué);2012年
7 徐誠;車載移動衛(wèi)星天線穩(wěn)定跟蹤系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)[D];南京航空航天大學(xué);2010年
8 陳艷金;MapReduce模型在Hadoop平臺下實(shí)現(xiàn)作業(yè)調(diào)度算法的研究和改進(jìn)[D];華南理工大學(xué);2011年
9 李志娟;MapReduce仿真及Hadoop公平調(diào)度算法研究[D];哈爾濱工程大學(xué);2013年
10 錢寧;基于云計(jì)算平臺的電信業(yè)務(wù)支撐系統(tǒng)中調(diào)度技術(shù)的研究[D];南京郵電大學(xué);2011年
本文關(guān)鍵詞:基于塊聚集的MapReduce性能研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號:416494
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/416494.html