Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化
本文關鍵詞:Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化 出處:《浙江大學》2016年碩士論文 論文類型:學位論文
更多相關文章: Spark Shuffle Spill-based 內(nèi)存調(diào)度 溢出歷史
【摘要】:隨著分布式計算框架的不斷發(fā)展和普及,Spark以其先進的設計理念,迅速成為開源社區(qū)的熱門研究項目。對于大數(shù)據(jù)計算框架而言,Shuffle過程的設計優(yōu)劣和性能高低直接影響著整個系統(tǒng)的性能和吞吐量。本文研究的主要內(nèi)容為Spark Shuffle過程中不同Task司內(nèi)存分配算法的分析與優(yōu)化。在分析已有Shuffle優(yōu)化算法的基礎上,發(fā)現(xiàn)因各Task對內(nèi)存需求不均衡而造成Shuffle運行效率低的瓶頸。針對公平分配內(nèi)存調(diào)度算法的不足,提出了一種基于溢出歷史的自適應內(nèi)存調(diào)度算法,并通過典型實驗證明本文算法能有效提高內(nèi)存利用率和程序運行效率,提高Spark系統(tǒng)的整體運行性能。本文的主要貢獻包括:1) 闡述了分布式計算的主流框架MapReduce,包括MapReduce的編程模型、現(xiàn)狀和不足。通過介紹Spark的設計理念分析了Spark對MapReduce模型的改進,比較了兩者的優(yōu)缺點。2)研究了Spark Shuffle的概念、發(fā)展及優(yōu)化過程,通過閱讀分析Spark Shuffle的源碼研究Shuffle內(nèi)存調(diào)度的思想,指出了公平分配算法存在的不足。3) 提出了基于溢出歷史的自適應內(nèi)存調(diào)度算法SBSA,解決Spark Shuffle公平分配內(nèi)存調(diào)度算法影響Shuffle運行效率的問題。本算法詳細設計了空閑內(nèi)存的計算方式、關鍵Task可從空閑內(nèi)存借用的內(nèi)存比例以及Task可用內(nèi)存的最大閾值。4) 通過典型實驗比較了SBSA算法與先來先服務算法、公平分配調(diào)度算法的性能差異,實驗結果證明本算法可以大大提高數(shù)據(jù)分布不均勻的應用程序的執(zhí)行效率。從綜合表現(xiàn)來看,本算法能充分利用空閑內(nèi)存資源,提高資源利用效率,在一定程度上緩解目前內(nèi)存資源不足的問題。
[Abstract]:With the development of distributed computing framework and the popularity of Spark with its advanced design concept, it has become a hot research project in open source community. The design quality and performance of Shuffle process directly affect the performance and throughput of the whole system. The main content of this paper is Spark. Analysis and optimization of memory allocation algorithms for different Task divisions in Shuffle process. Based on the analysis of existing Shuffle optimization algorithms. It is found that the low efficiency of Shuffle is caused by the imbalance of memory demand in each Task, and the lack of fair allocation memory scheduling algorithm. An adaptive memory scheduling algorithm based on overflow history is proposed, and it is proved by typical experiments that the proposed algorithm can effectively improve memory utilization and program efficiency. The main contributions of this paper include: 1) the main framework of distributed computing, MapReduce, including the programming model of MapReduce. By introducing the design concept of Spark, the improvement of MapReduce model by Spark is analyzed. The concept, development and optimization process of Spark Shuffle are studied. Through reading and analyzing the source code of Spark Shuffle, the idea of Shuffle memory scheduling is studied. The deficiency of fair allocation algorithm. 3) the adaptive memory scheduling algorithm (SBSA) based on overflow history is proposed. To solve the problem that Spark Shuffle fair allocation memory scheduling algorithm affects the efficiency of Shuffle, this algorithm designs the calculation method of free memory in detail. The ratio of key Task memory that can be borrowed from free memory and the maximum threshold value of Task available memory. 4) A comparison between SBSA algorithm and first come first served algorithm is made through typical experiments. The performance of fair allocation scheduling algorithm is different, experimental results show that the algorithm can greatly improve the performance of applications with uneven data distribution. From the comprehensive performance, the algorithm can make full use of free memory resources. Improve the efficiency of resource utilization, to some extent alleviate the problem of insufficient memory resources.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
【相似文獻】
相關期刊論文 前10條
1 肖濟楷;386/486微機在系統(tǒng)優(yōu)化中的內(nèi)存處理技術[J];武漢鋼鐵學院學報;1995年02期
2 張浩,葉念渝;C++中小對象內(nèi)存分配的優(yōu)化與封裝[J];兵工自動化;2004年01期
3 周賓;章勇;;嵌入式Web訪問時的內(nèi)存丟失問題[J];單片機與嵌入式系統(tǒng)應用;2009年10期
4 邵剛;使自己的應用程序有“用不完”的內(nèi)存(二)[J];電子與電腦;1996年02期
5 盧春鵬;一種嵌入式系統(tǒng)的內(nèi)存分配方案[J];單片機與嵌入式系統(tǒng)應用;2002年12期
6 趙素萍;控制C++的內(nèi)存分配[J];長春師范學院學報;2005年09期
7 錢曉明;小塊內(nèi)存分配器設計與實現(xiàn)[J];電腦編程技巧與維護;2005年02期
8 王明路;王希敏;王哲;;嵌入式系統(tǒng)中池式內(nèi)存分配方法的分析[J];計算機與數(shù)字工程;2008年02期
9 靳廣斌,曹煥林;內(nèi)存的利用和優(yōu)化以及系統(tǒng)的典型配置[J];電力學報;1995年03期
10 宋立波;為計算機640K基本內(nèi)存創(chuàng)建一個理想的駕馭工具[J];電腦編程技巧與維護;1995年11期
相關重要報紙文章 前4條
1 上海 高博;奔向64位[N];電腦報;2004年
2 上海 夏翔;改善SQL Server內(nèi)存管理[N];電腦報;2004年
3 小新;專科門診Photoshop?芠N];中國電腦教育報;2003年
4 ;AdobePhotoshop常見問題之專家會診[N];江蘇經(jīng)濟報;2003年
相關碩士學位論文 前5條
1 陳英芝;Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化[D];浙江大學;2016年
2 陳靜怡;云環(huán)境下基于內(nèi)存共享的服務器整合算法研究[D];復旦大學;2012年
3 韓志剛;一個內(nèi)存分配器的設計和實現(xiàn)[D];東北大學;2008年
4 陳春環(huán);基于異構雙核雙路視頻數(shù)據(jù)處理平臺的設計與研究[D];北京郵電大學;2015年
5 陳寶羅;數(shù)字相框設計與實現(xiàn)[D];西南交通大學;2009年
,本文編號:1387123
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1387123.html