基于hadoop的任務資源分配與控制
本文選題:hadoop + 接納控制 ; 參考:《北京郵電大學》2016年碩士論文
【摘要】:Hadoop是一個開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺,是Apache的一個用java語言實現(xiàn)開源軟件框架,實現(xiàn)在大量計算機組成的集群中對海量數(shù)據(jù)進行分布式計算。Hadoop框架中最核心設計就是:HDFS和MapReduce。HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計算。Hadoop作為云計算的一種解決方案也越來越受到人們的重視。Hadoop資源調度器的為需要計算機資源的任務分配資源,使他們能夠順利完成計算任務。好的資源調度可以充分利用資源,規(guī)避任務運行中的問題,提高計算機資源利用率。因此如何做好hadoop的任務資源分配與控制具有重要的意義。本文在廣泛研究調度算法的基礎上,利用作業(yè)執(zhí)行的歷史數(shù)據(jù)來指導hadoop的任務資源分配與控制。本文首先介紹了一個信息采集系統(tǒng)。信息采集系統(tǒng)能夠采集、傳輸、保存計算節(jié)點的實時信息,map任務和reduce任務的執(zhí)行信息,job執(zhí)行信息。我們將采集的信息來保存在數(shù)據(jù)庫中供后面調度使用。在廣泛細致的研究公平調度的基礎上,發(fā)現(xiàn)了公平調度的兩個能夠改進的地方。首先,每個任務的內存需求不同。程序運行都是需要一定的內存支持的,如果一個任務需要相當大的內存,但是被分配到執(zhí)行任務的計算節(jié)點不能夠提供足夠的內存,使導致任務不能夠正常的執(zhí)行。那么這個任務會在該計算節(jié)點上執(zhí)行相當緩慢,影響其他任務的執(zhí)行。其次,公平調度算法是通過任務的個數(shù)來保證節(jié)點的負載均衡。但是由于每個任務都有自己的特點,占用的資源不同、作業(yè)的類型不同。這樣分配不能達到很好的負載均衡。本文提出利用監(jiān)控控的歷史數(shù)據(jù)估算即將調度的作業(yè)的內存和當前節(jié)點內存狀況,預計作業(yè)是否能夠順利完成,從而進行接納控制。通過分析任務隊列中作業(yè)類型和節(jié)點上任務的類型,從作業(yè)隊列中選擇最優(yōu)的任務,達到負載均衡。
[Abstract]:Hadoop is a software platform for developing and running large-scale data processing. It is an open source software framework of Apache using java language. The core design of distributed computing. Hadoop framework for mass data in a cluster of computers is that: HDFS and MapReduce.HDFS provide storage of mass data MapReduce provides a solution for computing data. Hadoop is a solution to cloud computing. More and more people pay attention to the solution. Hadoop resource scheduler allocates resources for tasks that need computer resources. Make it possible for them to complete the task of calculation. Good resource scheduling can make full use of resources, avoid problems in task operation, and improve the utilization rate of computer resources. Therefore, how to do a good job of hadoop task resource allocation and control has important significance. Based on the extensive study of scheduling algorithms, this paper uses the historical data of job execution to guide the task resource allocation and control of hadoop. This paper first introduces an information collection system. The information collection system can collect, transmit and save the real-time information of the computing node and the execution information of the reduce task. We store the collected information in the database for later scheduling. On the basis of extensive and detailed research on fair scheduling, two improvements of fair scheduling are found. First, the memory requirements for each task are different. If a task needs a considerable amount of memory, the computing node allocated to the task can not provide enough memory, which results in the task being unable to execute normally. This task will be executed slowly on the compute node, affecting the execution of other tasks. Secondly, the fair scheduling algorithm ensures the load balance of nodes by the number of tasks. However, each task has its own characteristics, occupying different resources and different types of jobs. This allocation does not achieve good load balance. In this paper, we propose to estimate the memory status of the job to be scheduled and the memory status of the current node by using the historical data of the monitor and control, and to estimate whether the job can be successfully completed, so as to carry out admission control. By analyzing the job type in the task queue and the task type on the node, the optimal task is selected from the job queue to achieve load balancing.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【參考文獻】
相關期刊論文 前10條
1 李兵;吳偉明;;基于消息隊列模型和數(shù)據(jù)冗余技術避免電商平臺分布式事務的研究[J];軟件;2015年11期
2 白果;賈玉文;;數(shù)據(jù)倉庫中ETL技術的研究與改進[J];甘肅科技;2012年19期
3 覃雄派;王會舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J];軟件學報;2012年01期
4 曹婧華;冉彥中;許志軍;;分布式消息隊列的設計與實現(xiàn)[J];河南科技大學學報(自然科學版);2010年04期
5 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學學報(工科版);2010年04期
6 何斌斌;周恩浩;張波;蔣郁;;基于Cacti的校園網(wǎng)絡監(jiān)控[J];科技信息;2009年23期
7 劉偉;郭麗;閆晉鋒;;數(shù)據(jù)庫集群服務器系統(tǒng)性能瓶頸分析[J];科技信息(科學教研);2007年33期
8 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學報;2007年01期
9 王傳勝;李喬儒;;基于JMS的消息服務的研究與開發(fā)[J];計算機工程與設計;2005年12期
10 王小霞,陳亮;一種消息隊列中間件的設計與實現(xiàn)[J];計算機工程;2005年21期
相關會議論文 前1條
1 陳明奇;姜禾;張娟;廖方宇;;大數(shù)據(jù)時代的美國信息網(wǎng)絡安全新戰(zhàn)略分析[A];第27次全國計算機安全學術交流會論文集[C];2012年
相關重要報紙文章 前1條
1 李奕;;大數(shù)據(jù)應用逐漸走向細分[N];中國計算機報;2013年
相關碩士學位論文 前4條
1 吳金虎;基于Hadoop的大型網(wǎng)站海量數(shù)據(jù)的統(tǒng)計與應用[D];南京大學;2012年
2 張文峰;基于MapReduce模型的分布式計算平臺的原理與設計[D];華中科技大學;2010年
3 鄧自立;云計算中的網(wǎng)絡拓撲設計和Hadoop平臺研究[D];中國科學技術大學;2009年
4 吳鐘琴;基于Linux/UNIX的機群監(jiān)控系統(tǒng)的關鍵技術的研究與實現(xiàn)[D];華東師范大學;2008年
,本文編號:1793739
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1793739.html