Hadoop平臺下調(diào)度算法及其改進(jìn)策略研究
本文選題:Hadoop + MapReduce ; 參考:《北京郵電大學(xué)》2016年碩士論文
【摘要】:當(dāng)今社會隨著信息技術(shù)發(fā)展,互聯(lián)網(wǎng)的普及,每天都有大量與人們活動相關(guān)的數(shù)據(jù)產(chǎn)生。而數(shù)據(jù)產(chǎn)生的同時,如何能夠有效的存儲大量數(shù)據(jù)并對數(shù)據(jù)進(jìn)行有效分析,成為了人們迫切需要解決的問題。與此同時,由于數(shù)據(jù)量的激增,諸如數(shù)據(jù)挖掘以及網(wǎng)頁索引等數(shù)據(jù)敏感應(yīng)用需要處理不斷增長的從幾GB到幾TB甚至PB的數(shù)據(jù)集。針對上述問題,Google提出了 MapReduce的編程模型。MapReduce編程模型的主要思想是用戶只需要表述想要執(zhí)行的計(jì)算,而不必關(guān)心并行計(jì)算、容錯、數(shù)據(jù)分布以及負(fù)載均衡等細(xì)節(jié)。Hadoop是MapReduce模型的開源實(shí)現(xiàn)之一。Hadoop框架包含兩個主要部分:HDFS(Hadoop Distributed File System)和 MapReduce,HDFS用于海量數(shù)據(jù)的存儲,MapReduce用于對海量數(shù)據(jù)進(jìn)行研究分析。Hadoop因其高可靠性、高擴(kuò)展性、高容錯性以及低廉的成本,迅速成為了流行的大數(shù)據(jù)處理平臺之一。本文通過文獻(xiàn)調(diào)研,針對Hadoop分布式計(jì)算平臺進(jìn)行了研究。首先從Hadoop平臺的產(chǎn)生入手,論述了 Hadoop平臺產(chǎn)生的背景及意義,并且對Hadoop平臺架構(gòu)及關(guān)鍵技術(shù)進(jìn)行了研究。其次,文中研究了 Hadoop平臺現(xiàn)有的三種調(diào)度算法,即FIFO調(diào)度、計(jì)算能力調(diào)度(Capacity Scheduler)以及公平份額調(diào)度(Fair Scheduler),其中主要分析了各個調(diào)度算法產(chǎn)生意義、工作原理以及不足。然后本文基于現(xiàn)有三種調(diào)度算法的不足之處,提出了動態(tài)作業(yè)匹配調(diào)度算法(Dynamic Matching Based on Memory Scheduler,DMBMScheduler),新的算法在作業(yè)調(diào)度時考慮了內(nèi)存數(shù)據(jù)局部性,并在作業(yè)調(diào)度時依據(jù)實(shí)時匹配原則來進(jìn)行作業(yè)分配。最后對算法進(jìn)行實(shí)現(xiàn)以及實(shí)驗(yàn)測試,實(shí)驗(yàn)結(jié)果表明我們的算法成功達(dá)到了預(yù)期的目標(biāo),縮短了作業(yè)執(zhí)行時間以及作業(yè)響應(yīng)時間,解決了現(xiàn)有算法的不足,并提高了 Hadoop平臺的整體性能。
[Abstract]:With the development of information technology and the popularization of Internet, a lot of data about people's activities are produced every day. At the same time, how to store and analyze the data effectively becomes an urgent problem. At the same time, due to the rapid increase of data volume, data-sensitive applications such as data mining and web page indexing need to deal with growing data sets ranging from several gigabytes to several terabytes or even PB. The main idea of MapReduce programming model. MapReduce programming model is that users only need to express the calculation they want to perform, and do not care about parallel computing, fault-tolerant, etc. Data distribution and load balancing. Hadoop is one of the open source implementations of MapReduce model. The Hadoop framework consists of two main parts: HDFSU Hadoop distributed File system) and MapReduceHDFS for mass data storage. Hadoop is used to study and analyze mass data. Hadoop is highly reliable. High scalability, high fault tolerance and low cost have rapidly become one of the popular big data processing platforms. In this paper, the Hadoop distributed computing platform is studied through literature investigation. Firstly, the background and significance of Hadoop platform are discussed, and the architecture and key technologies of Hadoop platform are studied. Secondly, this paper studies three scheduling algorithms of Hadoop platform, namely FIFO scheduling, capacity scheduling capacity Scheduler and Fair Scheduler, in which the significance, working principle and deficiency of each scheduling algorithm are analyzed. Then, based on the shortcomings of the existing three scheduling algorithms, this paper proposes a dynamic matching based on memory scheduling algorithm. The new algorithm takes memory data locality into account in job scheduling. And in the job scheduling according to the principle of real-time matching to carry out job assignment. Finally, the algorithm is implemented and tested. The experimental results show that our algorithm has successfully achieved the desired goal, shortened the job execution time and job response time, and solved the shortcomings of the existing algorithms. The whole performance of Hadoop platform is improved.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馮剛;馬偉;金京林;葛紅;鮑蘇蘇;;一種改進(jìn)的公平分享調(diào)度算法[J];微電子學(xué)與計(jì)算機(jī);2008年04期
2 向哲,鐘玉琢,冼偉銓;一種基于周期合并策略的流調(diào)度算法[J];軟件學(xué)報(bào);2001年08期
3 伊鵬,張興明,郭云飛;基于輸入排隊(duì)的調(diào)度算法[J];計(jì)算機(jī)工程;2003年19期
4 易云山,桂志波;分組網(wǎng)絡(luò)中包調(diào)度算法研究[J];江蘇通信技術(shù);2004年03期
5 任艷穎,張文軍,王彬;無線調(diào)度算法[J];計(jì)算機(jī)工程;2004年15期
6 劉越洋,席裕庚;基于兩步滾動的單機(jī)調(diào)度算法研究[J];計(jì)算機(jī)工程;2004年24期
7 楊梅樾;馬祥杰;;輸入排隊(duì)中調(diào)度算法的研究[J];信息工程大學(xué)學(xué)報(bào);2006年02期
8 曾東海;劉海;金士堯;;集群負(fù)載調(diào)度算法性能評價[J];計(jì)算機(jī)工程;2006年11期
9 孫力娟;李超;張登銀;王汝傳;;低速網(wǎng)絡(luò)中實(shí)時補(bǔ)償型差額循環(huán)調(diào)度算法的設(shè)計(jì)和實(shí)現(xiàn)[J];電子與信息學(xué)報(bào);2006年10期
10 劉東;張春元;;軟件容錯模型中反向與正向調(diào)度算法研究[J];計(jì)算機(jī)工程與科學(xué);2007年09期
相關(guān)會議論文 前10條
1 彭洪;涂凍生;;面向操作的調(diào)度算法[A];1994中國控制與決策學(xué)術(shù)年會論文集[C];1994年
2 羅豪杰;許都;;IEEE 802.16 MAC層上行調(diào)度算法[A];四川省通信學(xué)會2007年學(xué)術(shù)年會論文集[C];2007年
3 張遵福;李樂民;;支持QoS的調(diào)度算法設(shè)計(jì)[A];2006中國西部青年通信學(xué)術(shù)會議論文集[C];2006年
4 姚建波;竺小松;李晶晶;;非對稱通信環(huán)境中兩種廣播調(diào)度算法的分析與比較[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(上)[C];2009年
5 景維鵬;吳智博;劉宏偉;董劍;;一種支持任務(wù)依賴關(guān)系容錯調(diào)度算法[A];第十四屆全國容錯計(jì)算學(xué)術(shù)會議(CFTC'2011)論文集[C];2011年
6 李琪林;甄威;周明天;;一種適用于Master-Worker應(yīng)用的動態(tài)統(tǒng)一調(diào)度算法的研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
7 呂鋒;涂曉東;;高性能交換結(jié)構(gòu)調(diào)度算法的研究[A];四川省通信學(xué)會2006年學(xué)術(shù)年會論文集(二)[C];2006年
8 趙爾敦;肖靜;;無線網(wǎng)絡(luò)中基于信道狀態(tài)預(yù)測的調(diào)度算法[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年
9 殷潔;;城市光網(wǎng)光纖自動調(diào)度算法研究和應(yīng)用[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(下冊)[C];2011年
10 陳平;王柏;徐六通;吳斌;王艷輝;;電信社群網(wǎng)絡(luò)中介度的網(wǎng)格并行算法及調(diào)度算法[A];2006年全國通信軟件學(xué)術(shù)會議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前9條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國計(jì)算機(jī)報(bào);2013年
2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年
3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年
4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機(jī)[N];網(wǎng)絡(luò)世界;2013年
8 張建輝 吳松;TD—SCDMA積跬步 HSDPA以致千里[N];通信產(chǎn)業(yè)報(bào);2005年
9 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國計(jì)算機(jī)報(bào);2012年
相關(guān)博士學(xué)位論文 前10條
1 劉曉鋒;可擴(kuò)展多級多平面交換網(wǎng)絡(luò)及調(diào)度算法研究[D];電子科技大學(xué);2015年
2 沈文楓;CPU-GPU異構(gòu)高性能計(jì)算中的負(fù)載預(yù)測調(diào)度算法研究及應(yīng)用[D];上海大學(xué);2016年
3 胡永東;移動WiMAX網(wǎng)絡(luò)中跨層的保證QoS解決方案研究[D];東南大學(xué);2017年
4 馬丹;任務(wù)間相互依賴的并行作業(yè)調(diào)度算法研究[D];華中科技大學(xué);2007年
5 田沖;無線網(wǎng)絡(luò)跨層調(diào)度算法研究[D];山東大學(xué);2009年
6 黃平;分布式交換系統(tǒng)隊(duì)列結(jié)構(gòu)及調(diào)度算法研究[D];華中科技大學(xué);2006年
7 劉惠;嵌入式系統(tǒng)節(jié)能調(diào)度算法研究[D];西安電子科技大學(xué);2011年
8 趙明宇;集群系統(tǒng)的調(diào)度算法研究[D];哈爾濱工業(yè)大學(xué);2007年
9 吳剛;對低功耗進(jìn)程調(diào)度算法的研究[D];復(fù)旦大學(xué);2006年
10 牛進(jìn)平;3G長期演進(jìn)系統(tǒng)中調(diào)度算法和干擾抑制技術(shù)研究[D];西安電子科技大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 王佳琪;Hadoop平臺下調(diào)度算法及其改進(jìn)策略研究[D];北京郵電大學(xué);2016年
2 孫晴晴;Hadoop平臺下作業(yè)調(diào)度算法的研究與優(yōu)化[D];西安理工大學(xué);2016年
3 丁雪飛;純電動車整車CAN網(wǎng)絡(luò)實(shí)時調(diào)度算法的研究[D];遼寧大學(xué);2015年
4 王德龍;Hadoop平臺下作業(yè)調(diào)度算法的研究與改進(jìn)[D];南京信息工程大學(xué);2015年
5 袁林偉;載波聚合資源分配及調(diào)度算法研究[D];西南交通大學(xué);2015年
6 景木均;3GPP LTE系統(tǒng)中基于多目標(biāo)決策的下行資源調(diào)度算法研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
7 劉盼紅;大數(shù)據(jù)環(huán)境下Hadoop作業(yè)調(diào)度算法的研究[D];河北工程大學(xué);2015年
8 楊軒;高鐵無線通信VoIP業(yè)務(wù)與多業(yè)務(wù)共存的資源調(diào)度算法[D];西南交通大學(xué);2015年
9 陳傳慶;基于衰落信道的無線鏈路調(diào)度算法研究[D];曲阜師范大學(xué);2015年
10 陳文龍;Hadoop平臺下作業(yè)調(diào)度方法研究[D];南京理工大學(xué);2015年
,本文編號:2030710
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2030710.html