基于hadoop的任務(wù)資源分配與控制
本文選題:hadoop + 接納控制; 參考:《北京郵電大學(xué)》2016年碩士論文
【摘要】:Hadoop是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺,是Apache的一個用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計(jì)算。Hadoop框架中最核心設(shè)計(jì)就是:HDFS和MapReduce。HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計(jì)算。Hadoop作為云計(jì)算的一種解決方案也越來越受到人們的重視。Hadoop資源調(diào)度器的為需要計(jì)算機(jī)資源的任務(wù)分配資源,使他們能夠順利完成計(jì)算任務(wù)。好的資源調(diào)度可以充分利用資源,規(guī)避任務(wù)運(yùn)行中的問題,提高計(jì)算機(jī)資源利用率。因此如何做好hadoop的任務(wù)資源分配與控制具有重要的意義。本文在廣泛研究調(diào)度算法的基礎(chǔ)上,利用作業(yè)執(zhí)行的歷史數(shù)據(jù)來指導(dǎo)hadoop的任務(wù)資源分配與控制。本文首先介紹了一個信息采集系統(tǒng)。信息采集系統(tǒng)能夠采集、傳輸、保存計(jì)算節(jié)點(diǎn)的實(shí)時信息,map任務(wù)和reduce任務(wù)的執(zhí)行信息,job執(zhí)行信息。我們將采集的信息來保存在數(shù)據(jù)庫中供后面調(diào)度使用。在廣泛細(xì)致的研究公平調(diào)度的基礎(chǔ)上,發(fā)現(xiàn)了公平調(diào)度的兩個能夠改進(jìn)的地方。首先,每個任務(wù)的內(nèi)存需求不同。程序運(yùn)行都是需要一定的內(nèi)存支持的,如果一個任務(wù)需要相當(dāng)大的內(nèi)存,但是被分配到執(zhí)行任務(wù)的計(jì)算節(jié)點(diǎn)不能夠提供足夠的內(nèi)存,使導(dǎo)致任務(wù)不能夠正常的執(zhí)行。那么這個任務(wù)會在該計(jì)算節(jié)點(diǎn)上執(zhí)行相當(dāng)緩慢,影響其他任務(wù)的執(zhí)行。其次,公平調(diào)度算法是通過任務(wù)的個數(shù)來保證節(jié)點(diǎn)的負(fù)載均衡。但是由于每個任務(wù)都有自己的特點(diǎn),占用的資源不同、作業(yè)的類型不同。這樣分配不能達(dá)到很好的負(fù)載均衡。本文提出利用監(jiān)控控的歷史數(shù)據(jù)估算即將調(diào)度的作業(yè)的內(nèi)存和當(dāng)前節(jié)點(diǎn)內(nèi)存狀況,預(yù)計(jì)作業(yè)是否能夠順利完成,從而進(jìn)行接納控制。通過分析任務(wù)隊(duì)列中作業(yè)類型和節(jié)點(diǎn)上任務(wù)的類型,從作業(yè)隊(duì)列中選擇最優(yōu)的任務(wù),達(dá)到負(fù)載均衡。
[Abstract]:Hadoop is a software platform for developing and running large-scale data processing. It is an open source software framework of Apache using java language. The core design of distributed computing. Hadoop framework for mass data in a cluster of computers is that: HDFS and MapReduce.HDFS provide storage of mass data MapReduce provides a solution for computing data. Hadoop is a solution to cloud computing. More and more people pay attention to the solution. Hadoop resource scheduler allocates resources for tasks that need computer resources. Make it possible for them to complete the task of calculation. Good resource scheduling can make full use of resources, avoid problems in task operation, and improve the utilization rate of computer resources. Therefore, how to do a good job of hadoop task resource allocation and control has important significance. Based on the extensive study of scheduling algorithms, this paper uses the historical data of job execution to guide the task resource allocation and control of hadoop. This paper first introduces an information collection system. The information collection system can collect, transmit and save the real-time information of the computing node and the execution information of the reduce task. We store the collected information in the database for later scheduling. On the basis of extensive and detailed research on fair scheduling, two improvements of fair scheduling are found. First, the memory requirements for each task are different. If a task needs a considerable amount of memory, the computing node allocated to the task can not provide enough memory, which results in the task being unable to execute normally. This task will be executed slowly on the compute node, affecting the execution of other tasks. Secondly, the fair scheduling algorithm ensures the load balance of nodes by the number of tasks. However, each task has its own characteristics, occupying different resources and different types of jobs. This allocation does not achieve good load balance. In this paper, we propose to estimate the memory status of the job to be scheduled and the memory status of the current node by using the historical data of the monitor and control, and to estimate whether the job can be successfully completed, so as to carry out admission control. By analyzing the job type in the task queue and the task type on the node, the optimal task is selected from the job queue to achieve load balancing.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李兵;吳偉明;;基于消息隊(duì)列模型和數(shù)據(jù)冗余技術(shù)避免電商平臺分布式事務(wù)的研究[J];軟件;2015年11期
2 白果;賈玉文;;數(shù)據(jù)倉庫中ETL技術(shù)的研究與改進(jìn)[J];甘肅科技;2012年19期
3 覃雄派;王會舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J];軟件學(xué)報;2012年01期
4 曹婧華;冉彥中;許志軍;;分布式消息隊(duì)列的設(shè)計(jì)與實(shí)現(xiàn)[J];河南科技大學(xué)學(xué)報(自然科學(xué)版);2010年04期
5 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學(xué)學(xué)報(工科版);2010年04期
6 何斌斌;周恩浩;張波;蔣郁;;基于Cacti的校園網(wǎng)絡(luò)監(jiān)控[J];科技信息;2009年23期
7 劉偉;郭麗;閆晉鋒;;數(shù)據(jù)庫集群服務(wù)器系統(tǒng)性能瓶頸分析[J];科技信息(科學(xué)教研);2007年33期
8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期
9 王傳勝;李喬儒;;基于JMS的消息服務(wù)的研究與開發(fā)[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年12期
10 王小霞,陳亮;一種消息隊(duì)列中間件的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2005年21期
相關(guān)會議論文 前1條
1 陳明奇;姜禾;張娟;廖方宇;;大數(shù)據(jù)時代的美國信息網(wǎng)絡(luò)安全新戰(zhàn)略分析[A];第27次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2012年
相關(guān)重要報紙文章 前1條
1 李奕;;大數(shù)據(jù)應(yīng)用逐漸走向細(xì)分[N];中國計(jì)算機(jī)報;2013年
相關(guān)碩士學(xué)位論文 前4條
1 吳金虎;基于Hadoop的大型網(wǎng)站海量數(shù)據(jù)的統(tǒng)計(jì)與應(yīng)用[D];南京大學(xué);2012年
2 張文峰;基于MapReduce模型的分布式計(jì)算平臺的原理與設(shè)計(jì)[D];華中科技大學(xué);2010年
3 鄧自立;云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺研究[D];中國科學(xué)技術(shù)大學(xué);2009年
4 吳鐘琴;基于Linux/UNIX的機(jī)群監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];華東師范大學(xué);2008年
,本文編號:1793739
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1793739.html