Hadoop平臺(tái)下調(diào)度算法及其改進(jìn)策略研究
本文選題:Hadoop + MapReduce。 參考:《北京郵電大學(xué)》2016年碩士論文
【摘要】:當(dāng)今社會(huì)隨著信息技術(shù)發(fā)展,互聯(lián)網(wǎng)的普及,每天都有大量與人們活動(dòng)相關(guān)的數(shù)據(jù)產(chǎn)生。而數(shù)據(jù)產(chǎn)生的同時(shí),如何能夠有效的存儲(chǔ)大量數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行有效分析,成為了人們迫切需要解決的問題。與此同時(shí),由于數(shù)據(jù)量的激增,諸如數(shù)據(jù)挖掘以及網(wǎng)頁(yè)索引等數(shù)據(jù)敏感應(yīng)用需要處理不斷增長(zhǎng)的從幾GB到幾TB甚至PB的數(shù)據(jù)集。針對(duì)上述問題,Google提出了 MapReduce的編程模型。MapReduce編程模型的主要思想是用戶只需要表述想要執(zhí)行的計(jì)算,而不必關(guān)心并行計(jì)算、容錯(cuò)、數(shù)據(jù)分布以及負(fù)載均衡等細(xì)節(jié)。Hadoop是MapReduce模型的開源實(shí)現(xiàn)之一。Hadoop框架包含兩個(gè)主要部分:HDFS(Hadoop Distributed File System)和 MapReduce,HDFS用于海量數(shù)據(jù)的存儲(chǔ),MapReduce用于對(duì)海量數(shù)據(jù)進(jìn)行研究分析。Hadoop因其高可靠性、高擴(kuò)展性、高容錯(cuò)性以及低廉的成本,迅速成為了流行的大數(shù)據(jù)處理平臺(tái)之一。本文通過(guò)文獻(xiàn)調(diào)研,針對(duì)Hadoop分布式計(jì)算平臺(tái)進(jìn)行了研究。首先從Hadoop平臺(tái)的產(chǎn)生入手,論述了 Hadoop平臺(tái)產(chǎn)生的背景及意義,并且對(duì)Hadoop平臺(tái)架構(gòu)及關(guān)鍵技術(shù)進(jìn)行了研究。其次,文中研究了 Hadoop平臺(tái)現(xiàn)有的三種調(diào)度算法,即FIFO調(diào)度、計(jì)算能力調(diào)度(Capacity Scheduler)以及公平份額調(diào)度(Fair Scheduler),其中主要分析了各個(gè)調(diào)度算法產(chǎn)生意義、工作原理以及不足。然后本文基于現(xiàn)有三種調(diào)度算法的不足之處,提出了動(dòng)態(tài)作業(yè)匹配調(diào)度算法(Dynamic Matching Based on Memory Scheduler,DMBMScheduler),新的算法在作業(yè)調(diào)度時(shí)考慮了內(nèi)存數(shù)據(jù)局部性,并在作業(yè)調(diào)度時(shí)依據(jù)實(shí)時(shí)匹配原則來(lái)進(jìn)行作業(yè)分配。最后對(duì)算法進(jìn)行實(shí)現(xiàn)以及實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果表明我們的算法成功達(dá)到了預(yù)期的目標(biāo),縮短了作業(yè)執(zhí)行時(shí)間以及作業(yè)響應(yīng)時(shí)間,解決了現(xiàn)有算法的不足,并提高了 Hadoop平臺(tái)的整體性能。
[Abstract]:With the development of information technology and the popularization of Internet, a lot of data about people's activities are produced every day. At the same time, how to store and analyze the data effectively becomes an urgent problem. At the same time, due to the rapid increase of data volume, data-sensitive applications such as data mining and web page indexing need to deal with growing data sets ranging from several gigabytes to several terabytes or even PB. The main idea of MapReduce programming model. MapReduce programming model is that users only need to express the calculation they want to perform, and do not care about parallel computing, fault-tolerant, etc. Data distribution and load balancing. Hadoop is one of the open source implementations of MapReduce model. The Hadoop framework consists of two main parts: HDFSU Hadoop distributed File system) and MapReduceHDFS for mass data storage. Hadoop is used to study and analyze mass data. Hadoop is highly reliable. High scalability, high fault tolerance and low cost have rapidly become one of the popular big data processing platforms. In this paper, the Hadoop distributed computing platform is studied through literature investigation. Firstly, the background and significance of Hadoop platform are discussed, and the architecture and key technologies of Hadoop platform are studied. Secondly, this paper studies three scheduling algorithms of Hadoop platform, namely FIFO scheduling, capacity scheduling capacity Scheduler and Fair Scheduler, in which the significance, working principle and deficiency of each scheduling algorithm are analyzed. Then, based on the shortcomings of the existing three scheduling algorithms, this paper proposes a dynamic matching based on memory scheduling algorithm. The new algorithm takes memory data locality into account in job scheduling. And in the job scheduling according to the principle of real-time matching to carry out job assignment. Finally, the algorithm is implemented and tested. The experimental results show that our algorithm has successfully achieved the desired goal, shortened the job execution time and job response time, and solved the shortcomings of the existing algorithms. The whole performance of Hadoop platform is improved.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馮剛;馬偉;金京林;葛紅;鮑蘇蘇;;一種改進(jìn)的公平分享調(diào)度算法[J];微電子學(xué)與計(jì)算機(jī);2008年04期
2 向哲,鐘玉琢,冼偉銓;一種基于周期合并策略的流調(diào)度算法[J];軟件學(xué)報(bào);2001年08期
3 伊鵬,張興明,郭云飛;基于輸入排隊(duì)的調(diào)度算法[J];計(jì)算機(jī)工程;2003年19期
4 易云山,桂志波;分組網(wǎng)絡(luò)中包調(diào)度算法研究[J];江蘇通信技術(shù);2004年03期
5 任艷穎,張文軍,王彬;無(wú)線調(diào)度算法[J];計(jì)算機(jī)工程;2004年15期
6 劉越洋,席裕庚;基于兩步滾動(dòng)的單機(jī)調(diào)度算法研究[J];計(jì)算機(jī)工程;2004年24期
7 楊梅樾;馬祥杰;;輸入排隊(duì)中調(diào)度算法的研究[J];信息工程大學(xué)學(xué)報(bào);2006年02期
8 曾東海;劉海;金士堯;;集群負(fù)載調(diào)度算法性能評(píng)價(jià)[J];計(jì)算機(jī)工程;2006年11期
9 孫力娟;李超;張登銀;王汝傳;;低速網(wǎng)絡(luò)中實(shí)時(shí)補(bǔ)償型差額循環(huán)調(diào)度算法的設(shè)計(jì)和實(shí)現(xiàn)[J];電子與信息學(xué)報(bào);2006年10期
10 劉東;張春元;;軟件容錯(cuò)模型中反向與正向調(diào)度算法研究[J];計(jì)算機(jī)工程與科學(xué);2007年09期
相關(guān)會(huì)議論文 前10條
1 彭洪;涂?jī)錾?;面向操作的調(diào)度算法[A];1994中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1994年
2 羅豪杰;許都;;IEEE 802.16 MAC層上行調(diào)度算法[A];四川省通信學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文集[C];2007年
3 張遵福;李樂民;;支持QoS的調(diào)度算法設(shè)計(jì)[A];2006中國(guó)西部青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
4 姚建波;竺小松;李晶晶;;非對(duì)稱通信環(huán)境中兩種廣播調(diào)度算法的分析與比較[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(上)[C];2009年
5 景維鵬;吳智博;劉宏偉;董劍;;一種支持任務(wù)依賴關(guān)系容錯(cuò)調(diào)度算法[A];第十四屆全國(guó)容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議(CFTC'2011)論文集[C];2011年
6 李琪林;甄威;周明天;;一種適用于Master-Worker應(yīng)用的動(dòng)態(tài)統(tǒng)一調(diào)度算法的研究[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
7 呂鋒;涂曉東;;高性能交換結(jié)構(gòu)調(diào)度算法的研究[A];四川省通信學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集(二)[C];2006年
8 趙爾敦;肖靜;;無(wú)線網(wǎng)絡(luò)中基于信道狀態(tài)預(yù)測(cè)的調(diào)度算法[A];2006全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文集[C];2006年
9 殷潔;;城市光網(wǎng)光纖自動(dòng)調(diào)度算法研究和應(yīng)用[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(下冊(cè))[C];2011年
10 陳平;王柏;徐六通;吳斌;王艷輝;;電信社群網(wǎng)絡(luò)中介度的網(wǎng)格并行算法及調(diào)度算法[A];2006年全國(guó)通信軟件學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前9條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2013年
2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年
3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年
4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來(lái)新商機(jī)[N];網(wǎng)絡(luò)世界;2013年
8 張建輝 吳松;TD—SCDMA積跬步 HSDPA以致千里[N];通信產(chǎn)業(yè)報(bào);2005年
9 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2012年
相關(guān)博士學(xué)位論文 前10條
1 劉曉鋒;可擴(kuò)展多級(jí)多平面交換網(wǎng)絡(luò)及調(diào)度算法研究[D];電子科技大學(xué);2015年
2 沈文楓;CPU-GPU異構(gòu)高性能計(jì)算中的負(fù)載預(yù)測(cè)調(diào)度算法研究及應(yīng)用[D];上海大學(xué);2016年
3 胡永東;移動(dòng)WiMAX網(wǎng)絡(luò)中跨層的保證QoS解決方案研究[D];東南大學(xué);2017年
4 馬丹;任務(wù)間相互依賴的并行作業(yè)調(diào)度算法研究[D];華中科技大學(xué);2007年
5 田沖;無(wú)線網(wǎng)絡(luò)跨層調(diào)度算法研究[D];山東大學(xué);2009年
6 黃平;分布式交換系統(tǒng)隊(duì)列結(jié)構(gòu)及調(diào)度算法研究[D];華中科技大學(xué);2006年
7 劉惠;嵌入式系統(tǒng)節(jié)能調(diào)度算法研究[D];西安電子科技大學(xué);2011年
8 趙明宇;集群系統(tǒng)的調(diào)度算法研究[D];哈爾濱工業(yè)大學(xué);2007年
9 吳剛;對(duì)低功耗進(jìn)程調(diào)度算法的研究[D];復(fù)旦大學(xué);2006年
10 牛進(jìn)平;3G長(zhǎng)期演進(jìn)系統(tǒng)中調(diào)度算法和干擾抑制技術(shù)研究[D];西安電子科技大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 王佳琪;Hadoop平臺(tái)下調(diào)度算法及其改進(jìn)策略研究[D];北京郵電大學(xué);2016年
2 孫晴晴;Hadoop平臺(tái)下作業(yè)調(diào)度算法的研究與優(yōu)化[D];西安理工大學(xué);2016年
3 丁雪飛;純電動(dòng)車整車CAN網(wǎng)絡(luò)實(shí)時(shí)調(diào)度算法的研究[D];遼寧大學(xué);2015年
4 王德龍;Hadoop平臺(tái)下作業(yè)調(diào)度算法的研究與改進(jìn)[D];南京信息工程大學(xué);2015年
5 袁林偉;載波聚合資源分配及調(diào)度算法研究[D];西南交通大學(xué);2015年
6 景木均;3GPP LTE系統(tǒng)中基于多目標(biāo)決策的下行資源調(diào)度算法研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
7 劉盼紅;大數(shù)據(jù)環(huán)境下Hadoop作業(yè)調(diào)度算法的研究[D];河北工程大學(xué);2015年
8 楊軒;高鐵無(wú)線通信VoIP業(yè)務(wù)與多業(yè)務(wù)共存的資源調(diào)度算法[D];西南交通大學(xué);2015年
9 陳傳慶;基于衰落信道的無(wú)線鏈路調(diào)度算法研究[D];曲阜師范大學(xué);2015年
10 陳文龍;Hadoop平臺(tái)下作業(yè)調(diào)度方法研究[D];南京理工大學(xué);2015年
,本文編號(hào):2030710
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2030710.html