Spark平臺下的中間數(shù)據(jù)均衡放置及自適應緩存替換策略研究
發(fā)布時間:2021-03-06 18:36
如今面對與日俱增的數(shù)據(jù)規(guī)模與數(shù)據(jù)復雜性,Spark大數(shù)據(jù)分布式數(shù)據(jù)處理平臺以其高性能的緩存機制及高擴展性的特點被業(yè)界廣泛應用。但是當面對數(shù)據(jù)密集型應用時,Spark集群仍然存在由于數(shù)據(jù)混洗階段的數(shù)據(jù)放置特點而導致的工作負載不均、緩存無用中間結果等問題。如何合理地在數(shù)據(jù)混洗階段放置中間數(shù)據(jù)及制定合理的緩存策略成為亟待解決的問題。因此研究Spark平臺下的數(shù)據(jù)混洗階段中間數(shù)據(jù)放置策略及緩存替換策略具有較高的理論與實際意義。鑒于以上存在的問題,本文從以下三個方面展開研究:(1)針對Spark平臺下的reduce任務工作負載不均問題,為了提高Spark應用的平均執(zhí)行時間和reduce任務負載均衡度,本文設計了一種基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置方法。該方法首先根據(jù)合適的采樣率,應用基于儲層概念的隨機采樣方法對輸入數(shù)據(jù)進行隨機采樣來估計輸入數(shù)據(jù)的分布,并計算出每個數(shù)據(jù)集合中的元組數(shù)量。然后提出一個衡量輸入數(shù)據(jù)集合大小整體偏差度的指標,以此將輸入數(shù)據(jù)劃分為輕微偏斜與嚴重偏斜兩種程度。最后針對輸入數(shù)據(jù)的輕微偏斜問題,設計了一種不分割數(shù)據(jù)集合的粗粒度數(shù)據(jù)放置算法,此算法通過對數(shù)據(jù)集合進行排序與調度從...
【文章來源】:武漢理工大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:98 頁
【學位級別】:碩士
【部分圖文】:
Spark集群各節(jié)點啟動信息
51表4-3iris數(shù)據(jù)集特征表列名數(shù)據(jù)類型取值范圍說明sepallengthdouble[4.08.0,]萼片長度(厘米)sepalwidthdouble[2.04.0,]萼片寬度(厘米)petallengthdouble[0.07.0,]花瓣長度(厘米)petalwidthdouble[0.03.0,]花瓣寬度(厘米)classvarchar無類別(a)非結構化圖形的頂點輸入數(shù)據(jù)(b)非結構化圖形的邊的輸入數(shù)據(jù)圖4-3PageRank負載部分輸入數(shù)據(jù)樣例4.3基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置策略實驗驗證4.3.1實驗設計基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法實驗驗證主要由三部分組成:(1)為基于儲層概念的隨機采樣算法選擇合適的采樣率,并給出選擇采樣率的選擇標準;(2)確定衡量輸入數(shù)據(jù)傾斜程度的最佳參數(shù)中間值w;(3)使用本文提出的兩種粒度的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法執(zhí)行倒排索引和PageRank兩種工作負載,并與經(jīng)典算法進行比較,以顯示本文所提算法在多個性能指標方面的改進。本實驗主要為了驗證本文所提基于儲層采樣方法的兩種數(shù)據(jù)混洗階段中間
【參考文獻】:
期刊論文
[1]并行計算框架Spark的自適應緩存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉. 電子學報. 2017(02)
[2]混合架構下多請求模式的緩存替換模型研究[J]. 曹旻,劉文中. 計算機科學. 2015(06)
[3]最小駐留價值緩存替換算法[J]. 劉磊,熊小鵬. 計算機應用. 2013(04)
博士論文
[1]內存計算框架性能優(yōu)化關鍵技術研究[D]. 卞琛.新疆大學 2017
本文編號:3067599
【文章來源】:武漢理工大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:98 頁
【學位級別】:碩士
【部分圖文】:
Spark集群各節(jié)點啟動信息
51表4-3iris數(shù)據(jù)集特征表列名數(shù)據(jù)類型取值范圍說明sepallengthdouble[4.08.0,]萼片長度(厘米)sepalwidthdouble[2.04.0,]萼片寬度(厘米)petallengthdouble[0.07.0,]花瓣長度(厘米)petalwidthdouble[0.03.0,]花瓣寬度(厘米)classvarchar無類別(a)非結構化圖形的頂點輸入數(shù)據(jù)(b)非結構化圖形的邊的輸入數(shù)據(jù)圖4-3PageRank負載部分輸入數(shù)據(jù)樣例4.3基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置策略實驗驗證4.3.1實驗設計基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法實驗驗證主要由三部分組成:(1)為基于儲層概念的隨機采樣算法選擇合適的采樣率,并給出選擇采樣率的選擇標準;(2)確定衡量輸入數(shù)據(jù)傾斜程度的最佳參數(shù)中間值w;(3)使用本文提出的兩種粒度的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法執(zhí)行倒排索引和PageRank兩種工作負載,并與經(jīng)典算法進行比較,以顯示本文所提算法在多個性能指標方面的改進。本實驗主要為了驗證本文所提基于儲層采樣方法的兩種數(shù)據(jù)混洗階段中間
【參考文獻】:
期刊論文
[1]并行計算框架Spark的自適應緩存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉. 電子學報. 2017(02)
[2]混合架構下多請求模式的緩存替換模型研究[J]. 曹旻,劉文中. 計算機科學. 2015(06)
[3]最小駐留價值緩存替換算法[J]. 劉磊,熊小鵬. 計算機應用. 2013(04)
博士論文
[1]內存計算框架性能優(yōu)化關鍵技術研究[D]. 卞琛.新疆大學 2017
本文編號:3067599
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3067599.html
最近更新
教材專著