抗傾斜的Spark中間數(shù)據(jù)分片機(jī)制研究與實現(xiàn)
發(fā)布時間:2021-06-30 22:10
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)產(chǎn)品日益豐富,用戶對互聯(lián)產(chǎn)品的使用不斷增加,所產(chǎn)生的海量數(shù)據(jù)給行業(yè)帶來了巨大的機(jī)遇與挑戰(zhàn)。一方面,通過分布式計算技術(shù)和數(shù)據(jù)挖掘算法可以從數(shù)據(jù)中提取有用的信息。另一方面,由于數(shù)據(jù)規(guī)模浩大、結(jié)構(gòu)復(fù)雜,處理數(shù)據(jù)時經(jīng)常面臨一些嚴(yán)峻的問題。其中分片傾斜就是分布式大數(shù)據(jù)計算中一種常見的性能瓶頸。作為一種廣泛應(yīng)用的分布式大數(shù)據(jù)計算引擎,Spark在運行計算任務(wù)時,也飽受分片傾斜的困擾。分片傾斜問題,通常表現(xiàn)為Spark分片負(fù)載不均衡,一些任務(wù)處理的數(shù)據(jù)量遠(yuǎn)大于其他任務(wù),這不僅會浪費系統(tǒng)資源、降低計算效率,甚至可能還會導(dǎo)致任務(wù)執(zhí)行失敗。因此,為了保證Spark作業(yè)的高效順利的執(zhí)行,中間數(shù)據(jù)分片算法的研究十分重要,F(xiàn)存的Spark分片算法并不全面,它們沒有考慮Map端聚合對數(shù)據(jù)變化的影響,也沒有關(guān)注在Shuffle操作執(zhí)行后分區(qū)中的數(shù)據(jù)量的變化。為了解決Spark計算框架下分片負(fù)載不均的問題,本文提出了一個中間數(shù)據(jù)分片方法SKRSP(Spark-based key reassigning and splitting partition algorithm)。它包含兩個部分:中...
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
中間數(shù)據(jù)的劃分
Spark基本架構(gòu)圖
寬依賴與窄依賴示例
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的大數(shù)據(jù)混合計算模型[J]. 胡俊,胡賢德,程家興. 計算機(jī)系統(tǒng)應(yīng)用. 2015(04)
[2]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學(xué)報. 2014(09)
[3]MapReduce并行計算技術(shù)發(fā)展綜述[J]. 應(yīng)毅,劉亞軍. 計算機(jī)系統(tǒng)應(yīng)用. 2014(04)
[4]網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 王元卓,靳小龍,程學(xué)旗. 計算機(jī)學(xué)報. 2013(06)
[5]大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 李國杰,程學(xué)旗. 中國科學(xué)院院刊. 2012(06)
[6]架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 王珊,王會舉,覃雄派,周烜. 計算機(jī)學(xué)報. 2011(10)
[7]大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J]. 覃雄派,王會舉,杜小勇,王珊. 軟件學(xué)報. 2012(01)
碩士論文
[1]Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化[D]. 陳英芝.浙江大學(xué) 2016
本文編號:3258588
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
中間數(shù)據(jù)的劃分
Spark基本架構(gòu)圖
寬依賴與窄依賴示例
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的大數(shù)據(jù)混合計算模型[J]. 胡俊,胡賢德,程家興. 計算機(jī)系統(tǒng)應(yīng)用. 2015(04)
[2]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學(xué)報. 2014(09)
[3]MapReduce并行計算技術(shù)發(fā)展綜述[J]. 應(yīng)毅,劉亞軍. 計算機(jī)系統(tǒng)應(yīng)用. 2014(04)
[4]網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 王元卓,靳小龍,程學(xué)旗. 計算機(jī)學(xué)報. 2013(06)
[5]大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 李國杰,程學(xué)旗. 中國科學(xué)院院刊. 2012(06)
[6]架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 王珊,王會舉,覃雄派,周烜. 計算機(jī)學(xué)報. 2011(10)
[7]大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J]. 覃雄派,王會舉,杜小勇,王珊. 軟件學(xué)報. 2012(01)
碩士論文
[1]Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化[D]. 陳英芝.浙江大學(xué) 2016
本文編號:3258588
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3258588.html
最近更新
教材專著