MapReduce型海量數(shù)據(jù)處理平臺(tái)中數(shù)據(jù)放置技術(shù)研究
本文關(guān)鍵詞:MapReduce型海量數(shù)據(jù)處理平臺(tái)中數(shù)據(jù)放置技術(shù)研究
更多相關(guān)文章: MapReduce HDFS 副本放置 灰色預(yù)測(cè) CloudSim
【摘要】:MapReduce型數(shù)據(jù)處理平臺(tái)(以下簡(jiǎn)稱(chēng)“Map Reduce平臺(tái)”)是海量數(shù)據(jù)處理領(lǐng)域的最新技術(shù)之一。數(shù)據(jù)本地化處理是MapReduce平臺(tái)的新特征,即將海量數(shù)據(jù)基于計(jì)算節(jié)點(diǎn)的本地磁盤(pán)分布存儲(chǔ)且計(jì)算任務(wù)盡可能被調(diào)度到數(shù)據(jù)所在節(jié)點(diǎn)運(yùn)行,從而降低數(shù)據(jù)處理中數(shù)據(jù)遠(yuǎn)程訪問(wèn)導(dǎo)致的通信開(kāi)銷(xiāo),提高處理效率。因此,提升數(shù)據(jù)本地化處理幾率是MapReduce平臺(tái)追求的重要目標(biāo)。數(shù)據(jù)放置是數(shù)據(jù)處理平臺(tái)的核心技術(shù)之一,實(shí)現(xiàn)將數(shù)據(jù)在平臺(tái)所有存儲(chǔ)節(jié)點(diǎn)間合理有效地分布存儲(chǔ)。與傳統(tǒng)數(shù)據(jù)處理平臺(tái)不同,海量數(shù)據(jù)基于計(jì)算節(jié)點(diǎn)存儲(chǔ)及數(shù)據(jù)本地化處理的新特征使得MapReduce平臺(tái)中數(shù)據(jù)放置決策不僅需要服務(wù)于數(shù)據(jù)存儲(chǔ)效率,更需要服務(wù)于數(shù)據(jù)計(jì)算效率。既有的數(shù)據(jù)放置技術(shù)多以提升數(shù)據(jù)訪問(wèn)效率,減少數(shù)據(jù)I/O瓶頸為目標(biāo)。上述技術(shù)運(yùn)用于MapReduce平臺(tái),由于未考慮數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的計(jì)算負(fù)載特征,難以避免將熱點(diǎn)數(shù)據(jù)存儲(chǔ)于高計(jì)算負(fù)載的節(jié)點(diǎn),從而導(dǎo)致數(shù)據(jù)本地化處理幾率降低的問(wèn)題。本文針對(duì)上述問(wèn)題,開(kāi)展以提升數(shù)據(jù)本地化處理幾率為目標(biāo)的MapReduce平臺(tái)數(shù)據(jù)放置技術(shù)研究,通過(guò)在數(shù)據(jù)放置決策中引入數(shù)據(jù)塊副本被本地化訪問(wèn)的比例、計(jì)算節(jié)點(diǎn)剩余計(jì)算資源等新因素,提升數(shù)據(jù)處理效率。本文的主要貢獻(xiàn)包括:(1)定義了數(shù)據(jù)放置決策信息集。針對(duì)MapReduce平臺(tái)的新特征,本文定義了數(shù)據(jù)放置決策所需要的信息集,在該信息集中首次引入了數(shù)據(jù)塊副本的訪問(wèn)頻次、數(shù)據(jù)塊副本被本地化訪問(wèn)的比例和節(jié)點(diǎn)的剩余計(jì)算資源等信息,作為數(shù)據(jù)放置新的決策因子。(2)設(shè)計(jì)并實(shí)現(xiàn)了決策信息獲取機(jī)制。本文定義了數(shù)據(jù)放置的決策信息獲取機(jī)制,包括信息采集、信息統(tǒng)計(jì)與預(yù)測(cè)和信息匯總。設(shè)計(jì)了基于主從結(jié)構(gòu)的決策信息獲取框架,將信息采集和統(tǒng)計(jì)預(yù)測(cè)功能分離于平臺(tái)各個(gè)計(jì)算節(jié)點(diǎn)(從節(jié)點(diǎn))完成,中心節(jié)點(diǎn)僅完成信息匯總功能,降低中心節(jié)點(diǎn)的負(fù)載壓力。同時(shí),本文設(shè)計(jì)了基于灰色預(yù)測(cè)模型的決策信息預(yù)測(cè)機(jī)制。(3)設(shè)計(jì)并實(shí)現(xiàn)了既有數(shù)據(jù)塊副本放置的動(dòng)態(tài)調(diào)整策略。分析決策因子與數(shù)據(jù)塊副本及數(shù)據(jù)節(jié)點(diǎn)的關(guān)系,設(shè)計(jì)了數(shù)據(jù)塊副本評(píng)價(jià)值及節(jié)點(diǎn)評(píng)價(jià)值的計(jì)算方法。根據(jù)評(píng)價(jià)值篩選得到待遷移的數(shù)據(jù)塊副本集合和遷移目標(biāo)候選節(jié)點(diǎn)的集合,以兼顧系統(tǒng)的容錯(cuò)能力并最大化數(shù)據(jù)塊副本的本地化訪問(wèn)幾率為目標(biāo),重新放置數(shù)據(jù)塊副本。(4)設(shè)計(jì)并實(shí)現(xiàn)了新增數(shù)據(jù)塊副本的放置策略。在向分布式文件系統(tǒng)中寫(xiě)數(shù)據(jù)時(shí),從機(jī)架隨機(jī)選擇出候選節(jié)點(diǎn)集合,向候選節(jié)點(diǎn)集合中剩余資源最多的節(jié)點(diǎn)放置數(shù)據(jù)塊副本,提高該數(shù)據(jù)塊副本被本地化訪問(wèn)的幾率,同時(shí)主動(dòng)地調(diào)整了各節(jié)點(diǎn)的存儲(chǔ)資源使用量。(5)搭建仿真環(huán)境并完成性能測(cè)試。對(duì)仿真軟件CloudSim進(jìn)行擴(kuò)展,配置了由上百個(gè)節(jié)點(diǎn)構(gòu)成的MapReduce仿真平臺(tái)。在相同的作業(yè)和數(shù)據(jù)提交量下,對(duì)改進(jìn)的數(shù)據(jù)塊副本放置策略與HDFS默認(rèn)數(shù)據(jù)副本放置策略在作業(yè)平均執(zhí)行時(shí)間等多個(gè)指標(biāo)上進(jìn)行了性能對(duì)比。結(jié)果表明,本文提出的數(shù)據(jù)塊副本放置技術(shù)使得作業(yè)平均執(zhí)行時(shí)間平均下降了12.03%.
【關(guān)鍵詞】:MapReduce HDFS 副本放置 灰色預(yù)測(cè) CloudSim
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP333
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景及研究意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
- 1.3 論文研究?jī)?nèi)容及主要貢獻(xiàn)13-14
- 1.4 論文的組織結(jié)構(gòu)14-16
- 第2章 相關(guān)技術(shù)分析16-26
- 2.1 MapReduce型數(shù)據(jù)處理平臺(tái)16-18
- 2.1.1 MapReduce編程模型16-17
- 2.1.2 數(shù)據(jù)本地化17-18
- 2.2 大數(shù)據(jù)計(jì)算平臺(tái)Hadoop18-21
- 2.2.1 Hadoop概述18-19
- 2.2.2 Hadoop的資源申請(qǐng)與數(shù)據(jù)本地化19-20
- 2.2.3 分布式文件系統(tǒng)HDFS20-21
- 2.3 HDFS數(shù)據(jù)塊副本放置策略21-24
- 2.3.1 HDFS默認(rèn)的數(shù)據(jù)塊副本放置策略21-22
- 2.3.2 HDFS改進(jìn)的數(shù)據(jù)塊副本放置策略22-24
- 2.4 本章小結(jié)24-26
- 第3章 MapReduce平臺(tái)中數(shù)據(jù)放置架構(gòu)設(shè)計(jì)26-32
- 3.1 數(shù)據(jù)副本放置的總體架構(gòu)設(shè)計(jì)26-28
- 3.2 決策信息獲取的架構(gòu)設(shè)計(jì)28-29
- 3.3 數(shù)據(jù)塊副本動(dòng)態(tài)調(diào)整的架構(gòu)設(shè)計(jì)29-30
- 3.4 新增數(shù)據(jù)塊副本放置的架構(gòu)設(shè)計(jì)30
- 3.5 本章小結(jié)30-32
- 第4章 MapReduce平臺(tái)中數(shù)據(jù)放置決策信息獲取機(jī)制設(shè)計(jì)32-42
- 4.1 決策信息定義與決策信息獲取流程32-34
- 4.2 決策信息存儲(chǔ)結(jié)構(gòu)34-36
- 4.2.1 數(shù)據(jù)塊副本訪問(wèn)信息存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)34-35
- 4.2.2 節(jié)點(diǎn)剩余資源信息存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)35-36
- 4.3 決策信息的采集與統(tǒng)計(jì)36-39
- 4.3.1 數(shù)據(jù)塊副本的訪問(wèn)信息的采集與統(tǒng)計(jì)36-38
- 4.3.2 節(jié)點(diǎn)剩余資源信息的采集與統(tǒng)計(jì)38-39
- 4.4 決策信息的預(yù)測(cè)39-41
- 4.5 本章小結(jié)41-42
- 第5章 MapReduce平臺(tái)中數(shù)據(jù)放置策略的設(shè)計(jì)42-48
- 5.1 數(shù)據(jù)塊副本動(dòng)態(tài)調(diào)整策略42-46
- 5.1.2 待遷移數(shù)據(jù)塊副本的選擇42-43
- 5.1.3 數(shù)據(jù)塊副本遷移目標(biāo)節(jié)點(diǎn)的選擇43-46
- 5.2 新增數(shù)據(jù)塊副本放置策略46-47
- 5.3 本章小結(jié)47-48
- 第6章 性能測(cè)評(píng)48-62
- 6.1 CloudSim的擴(kuò)展48-50
- 6.1.1 CloudSim概述48
- 6.1.2 HDFS的CloudSim擴(kuò)展實(shí)現(xiàn)48-50
- 6.1.3 MapReduce的CloudSim擴(kuò)展實(shí)現(xiàn)50
- 6.2 仿真實(shí)驗(yàn)50-60
- 6.2.1 實(shí)驗(yàn)環(huán)境搭建50-52
- 6.2.2 評(píng)價(jià)指標(biāo)52
- 6.2.3 實(shí)驗(yàn)環(huán)境配置52-53
- 6.2.4 性能測(cè)評(píng)與結(jié)果分析53-60
- 6.3 本章小結(jié)60-62
- 結(jié)論62-64
- 參考文獻(xiàn)64-68
- 攻讀碩士學(xué)位期間獲得的科研成果68-70
- 致謝70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 黃衛(wèi)軍;口岸城市通關(guān)數(shù)據(jù)處理平臺(tái)[J];上海信息化;2005年01期
2 林華兵;;數(shù)據(jù)處理平臺(tái)高可靠性的設(shè)計(jì)與實(shí)現(xiàn)[J];中國(guó)金融電腦;2010年11期
3 胡繼軍;;淺談統(tǒng)計(jì)部門(mén)在數(shù)據(jù)處理平臺(tái)設(shè)計(jì)中應(yīng)考慮的問(wèn)題[J];現(xiàn)代經(jīng)濟(jì)信息;2012年14期
4 王業(yè)斌;;省級(jí)防雷業(yè)務(wù)數(shù)據(jù)處理平臺(tái)的開(kāi)發(fā)[J];科技信息;2009年30期
5 龔一飛;劉萬(wàn)才;;農(nóng)作物有害生物調(diào)查項(xiàng)目數(shù)據(jù)處理平臺(tái)的構(gòu)建與實(shí)現(xiàn)[J];中國(guó)植保導(dǎo)刊;2012年03期
6 邢煜;;一種海量數(shù)據(jù)處理平臺(tái)的解決方案[J];電腦知識(shí)與技術(shù);2013年21期
7 蔡玉寶;左春;張正;鄒志強(qiáng);;數(shù)據(jù)處理平臺(tái)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年07期
8 張濤;李建;康永佳;;多任務(wù)高并發(fā)數(shù)據(jù)處理平臺(tái)的技術(shù)研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年03期
9 宋均;祝林;;基于云計(jì)算的海量數(shù)據(jù)處理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J];電訊技術(shù);2012年04期
10 楊凱;曹小軍;盧鶯;;控制系統(tǒng)數(shù)據(jù)處理平臺(tái)開(kāi)發(fā)與應(yīng)用[J];彈箭與制導(dǎo)學(xué)報(bào);2009年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 王業(yè)斌;徐建鵬;王凱;;安徽省常規(guī)防雷業(yè)務(wù)服務(wù)數(shù)據(jù)處理平臺(tái)的開(kāi)發(fā)[A];信息技術(shù)在氣象領(lǐng)域的開(kāi)發(fā)應(yīng)用論文集(一)[C];2005年
2 季曉林;劉海硯;;基于數(shù)據(jù)處理平臺(tái)的空間矢量數(shù)據(jù)融合[A];中國(guó)地理信息系統(tǒng)協(xié)會(huì)第八屆年會(huì)論文集[C];2004年
3 趙旭霞;劉立峰;邵起明;;智能路測(cè)系統(tǒng)中的數(shù)據(jù)處理平臺(tái)[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
4 張鵬;;基于XML/Java的數(shù)據(jù)處理平臺(tái)[A];Java技術(shù)及應(yīng)用的進(jìn)展——第八屆中國(guó)Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2005年
5 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺(tái)研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
6 陶金花;蘇林;李樹(shù)楷;;一種基于網(wǎng)格的LiDAR數(shù)據(jù)處理平臺(tái)架構(gòu)[A];2007年先進(jìn)激光技術(shù)發(fā)展與應(yīng)用研討會(huì)論文集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前5條
1 本報(bào)記者 劉書(shū)臻;山東:數(shù)據(jù)處理平臺(tái)建成[N];中國(guó)信息報(bào);2011年
2 楊小國(guó);“四大工程”助推普查資料開(kāi)發(fā)提速[N];中國(guó)信息報(bào);2012年
3 董平;創(chuàng)新,永不止步[N];中國(guó)國(guó)門(mén)時(shí)報(bào);2011年
4 《網(wǎng)絡(luò)世界》記者 李夏艷;直面無(wú)線(xiàn)挑戰(zhàn)[N];網(wǎng)絡(luò)世界;2012年
5 ;“康師傅”喜新厭舊[N];網(wǎng)絡(luò)世界;2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 林文輝;基于Hadoop的海量網(wǎng)絡(luò)數(shù)據(jù)處理平臺(tái)的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張利平;基于MPC8536的雷達(dá)嵌入式數(shù)據(jù)處理平臺(tái)設(shè)計(jì)[D];電子科技大學(xué);2015年
2 潘思聰;基于云環(huán)境的電信數(shù)據(jù)處理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2014年
3 嚴(yán)華;統(tǒng)計(jì)局?jǐn)?shù)據(jù)處理平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)[D];電子科技大學(xué);2014年
4 張波;基于大數(shù)據(jù)技術(shù)的公安移動(dòng)通信數(shù)據(jù)處理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2016年
5 周碧漳;面向量化交易的金融數(shù)據(jù)處理平臺(tái)研究與原型實(shí)現(xiàn)[D];電子科技大學(xué);2016年
6 張杰;面向車(chē)載信息的大規(guī)模數(shù)據(jù)處理平臺(tái)技術(shù)研究[D];電子科技大學(xué);2016年
7 王華慈;MapReduce型海量數(shù)據(jù)處理平臺(tái)中數(shù)據(jù)放置技術(shù)研究[D];北京工業(yè)大學(xué);2016年
8 樊明璐;流式大數(shù)據(jù)處理平臺(tái)中資源動(dòng)態(tài)調(diào)度技術(shù)研究[D];北京工業(yè)大學(xué);2016年
9 楊鵬;面向流式數(shù)據(jù)處理平臺(tái)JStorm的負(fù)載均衡技術(shù)研究[D];北京工業(yè)大學(xué);2016年
10 但玻;城市熱島效應(yīng)衛(wèi)星遙感數(shù)據(jù)處理平臺(tái)研發(fā)[D];電子科技大學(xué);2011年
,本文編號(hào):741564
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/741564.html