Spark平臺下的中間數(shù)據(jù)均衡放置及自適應緩存替換策略研究

發(fā)布時間：2021-03-06 18:36

　　如今面對與日俱增的數(shù)據(jù)規(guī)模與數(shù)據(jù)復雜性,Spark大數(shù)據(jù)分布式數(shù)據(jù)處理平臺以其高性能的緩存機制及高擴展性的特點被業(yè)界廣泛應用。但是當面對數(shù)據(jù)密集型應用時,Spark集群仍然存在由于數(shù)據(jù)混洗階段的數(shù)據(jù)放置特點而導致的工作負載不均、緩存無用中間結果等問題。如何合理地在數(shù)據(jù)混洗階段放置中間數(shù)據(jù)及制定合理的緩存策略成為亟待解決的問題。因此研究Spark平臺下的數(shù)據(jù)混洗階段中間數(shù)據(jù)放置策略及緩存替換策略具有較高的理論與實際意義。鑒于以上存在的問題,本文從以下三個方面展開研究:（1）針對Spark平臺下的reduce任務工作負載不均問題,為了提高Spark應用的平均執(zhí)行時間和reduce任務負載均衡度,本文設計了一種基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置方法。該方法首先根據(jù)合適的采樣率,應用基于儲層概念的隨機采樣方法對輸入數(shù)據(jù)進行隨機采樣來估計輸入數(shù)據(jù)的分布,并計算出每個數(shù)據(jù)集合中的元組數(shù)量。然后提出一個衡量輸入數(shù)據(jù)集合大小整體偏差度的指標,以此將輸入數(shù)據(jù)劃分為輕微偏斜與嚴重偏斜兩種程度。最后針對輸入數(shù)據(jù)的輕微偏斜問題,設計了一種不分割數(shù)據(jù)集合的粗粒度數(shù)據(jù)放置算法,此算法通過對數(shù)據(jù)集合進行排序與調度從...

【文章來源】：武漢理工大學湖北省 211工程院校教育部直屬院校

【文章頁數(shù)】：98 頁

【學位級別】：碩士

【部分圖文】：

Spark集群各節(jié)點啟動信息

輸入數(shù)據(jù),混洗

51表4-3iris數(shù)據(jù)集特征表列名數(shù)據(jù)類型取值范圍說明sepallengthdouble[4.08.0，]萼片長度（厘米）sepalwidthdouble[2.04.0，]萼片寬度（厘米）petallengthdouble[0.07.0，]花瓣長度（厘米）petalwidthdouble[0.03.0，]花瓣寬度（厘米）classvarchar無類別（a）非結構化圖形的頂點輸入數(shù)據(jù)（b）非結構化圖形的邊的輸入數(shù)據(jù)圖4-3PageRank負載部分輸入數(shù)據(jù)樣例4.3基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置策略實驗驗證4.3.1實驗設計基于儲層采樣的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法實驗驗證主要由三部分組成：（1）為基于儲層概念的隨機采樣算法選擇合適的采樣率，并給出選擇采樣率的選擇標準；（2）確定衡量輸入數(shù)據(jù)傾斜程度的最佳參數(shù)中間值w；（3）使用本文提出的兩種粒度的數(shù)據(jù)混洗階段數(shù)據(jù)放置算法執(zhí)行倒排索引和PageRank兩種工作負載，并與經(jīng)典算法進行比較，以顯示本文所提算法在多個性能指標方面的改進。本實驗主要為了驗證本文所提基于儲層采樣方法的兩種數(shù)據(jù)混洗階段中間

【參考文獻】：
期刊論文
[1]并行計算框架Spark的自適應緩存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉.  電子學報. 2017(02)
[2]混合架構下多請求模式的緩存替換模型研究[J]. 曹旻,劉文中.  計算機科學. 2015(06)
[3]最小駐留價值緩存替換算法[J]. 劉磊,熊小鵬.  計算機應用. 2013(04)

博士論文
[1]內存計算框架性能優(yōu)化關鍵技術研究[D]. 卞琛.新疆大學 2017

本文編號：3067599

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3067599.html

上一篇：智慧學習環(huán)境中學習畫面的情感識別及其應用
下一篇：大數(shù)據(jù)時代國內按需出版發(fā)展研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Spark平臺下的中間數(shù)據(jù)均衡放置及自適應緩存替換策略研究