基于MapReduce大數(shù)據(jù)并行處理的若干關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于MapReduce大數(shù)據(jù)并行處理的若干關(guān)鍵技術(shù)研究
更多相關(guān)文章: 大數(shù)據(jù) 列存儲 MapReduce模型 哈希連接 物化策略 頻繁查詢
【摘要】:關(guān)系數(shù)據(jù)庫技術(shù)在傳統(tǒng)數(shù)據(jù)科學(xué)領(lǐng)域的研究已經(jīng)比較完善,但是由于當(dāng)前CPU計(jì)算能力與磁盤讀寫技術(shù)發(fā)展的不平衡,使I/O成為了傳統(tǒng)數(shù)據(jù)庫性能提升的瓶頸。此外,傳統(tǒng)數(shù)據(jù)庫也無法勝任非結(jié)構(gòu)化數(shù)據(jù)類型的數(shù)據(jù)分析處理任務(wù)。隨著大數(shù)據(jù)研究的日益深入,出現(xiàn)了各種新的數(shù)據(jù)查詢處理方法。關(guān)系數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫技術(shù)相融合研究是數(shù)據(jù)科學(xué)、數(shù)據(jù)工程領(lǐng)域的研究熱點(diǎn),國內(nèi)外研究學(xué)者進(jìn)行了一些探索,仍然有很多關(guān)鍵問題有待解決。如何實(shí)現(xiàn)利用MapReduce分布式并行計(jì)算方法解決大數(shù)據(jù)查詢處理,以及針對查詢處理系統(tǒng)提出有效的查詢優(yōu)化策略是目前學(xué)術(shù)界普遍關(guān)注的問題。本文正是從利用MapReduce分布式并行計(jì)算的思想和方法入手,設(shè)計(jì)了新的面向大數(shù)據(jù)的查詢分析處理方法,本文的研究工作概括為以下幾個(gè)方面:一、在傳統(tǒng)關(guān)系數(shù)據(jù)庫查詢代價(jià)估計(jì)模型基礎(chǔ)上,設(shè)計(jì)了基于MapReduce的大數(shù)據(jù)并行處理的代價(jià)估計(jì)模型,并且針對不同的優(yōu)化策略,分別設(shè)計(jì)了Hash連接環(huán)境,查詢物化策略環(huán)境以及頻繁查詢環(huán)境下的代價(jià)估計(jì)優(yōu)化模型。二、討論了并行處理系統(tǒng)的查詢優(yōu)化控制問題。提出基于列存儲的大數(shù)據(jù)分析系統(tǒng)物化策略。首先,通過引入MapReduce物化代價(jià)估計(jì)模型,深入分析影響物化效率的各個(gè)因素。在此基礎(chǔ)上設(shè)計(jì)了MapReduce分布式環(huán)境下的面向物化策略的存儲系統(tǒng)文件格式:MMF,在數(shù)據(jù)加載過程中采用協(xié)同定位策略實(shí)現(xiàn)對物化數(shù)據(jù)的存儲優(yōu)化;其次,分別針對不同的物化時(shí)機(jī),構(gòu)建了mapreduce早期物化策略,mapreduce延遲物化策略和mapreduce混合物化策略;然后,利用自適應(yīng)物化調(diào)整策略對其做了進(jìn)一步優(yōu)化。三、針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫在對大數(shù)據(jù)訪問操作時(shí),系統(tǒng)性能嚴(yán)重下降,計(jì)算效率提升有限以及可擴(kuò)展性差等問題,引入mapreduce并行計(jì)算模型,設(shè)計(jì)了大數(shù)據(jù)上基于列存儲的mapreduce并行連接算法。首先,設(shè)計(jì)了面向大數(shù)據(jù)的分布式計(jì)算模型,其次,使用了分片聚集和子連接啟發(fā)式優(yōu)化方法實(shí)現(xiàn)大數(shù)據(jù)在mapreduce分布式環(huán)境下并行連接算法。四、設(shè)計(jì)了大數(shù)據(jù)上基于列存儲的支持負(fù)載數(shù)據(jù)偏斜動(dòng)態(tài)探測的mapreduce分布式hash連接算法。首先,建立了面向大數(shù)據(jù)的分布式計(jì)算模型,在此基礎(chǔ)上設(shè)計(jì)了mapreduce環(huán)境下的哈希分布式存儲系統(tǒng);其次,在數(shù)據(jù)加載過程中采用協(xié)同定位策略實(shí)現(xiàn)對數(shù)據(jù)分布的優(yōu)化,減少數(shù)據(jù)偏斜的出現(xiàn);然后,在設(shè)計(jì)的分片聚集并行連接基礎(chǔ)上,利用hash連接以及動(dòng)態(tài)探測方法優(yōu)化了數(shù)據(jù)連接處理效率。五、通過討論并行處理系統(tǒng)的調(diào)度優(yōu)化控制問題,設(shè)計(jì)了面向大數(shù)據(jù)頻繁查詢工作負(fù)載的優(yōu)化方法。首先,建立頻繁查詢模型,分析了mapreduce環(huán)境下影響頻繁查詢效率各種因素。其次,設(shè)計(jì)了基于mapreduce一致性窗口分片算法,不僅為頻繁查詢集合創(chuàng)建更多的重用機(jī)會(huì),而且通過對輸入數(shù)據(jù)這樣的精細(xì)粒度調(diào)度,可以大大減少冗余數(shù)據(jù)加載。然后,在數(shù)據(jù)調(diào)度方面,利用mapreduce延遲調(diào)度策略,提高數(shù)據(jù)處理吞吐量,優(yōu)化mapreduce集群計(jì)算資源分配,通過mapreduce頻繁查詢數(shù)據(jù)重用策略,構(gòu)造最佳的數(shù)據(jù)重用調(diào)度執(zhí)行計(jì)劃。最后,開發(fā)了基于hadoop的算法測試原型系統(tǒng)hcms對所提方法進(jìn)行逐一驗(yàn)證。實(shí)驗(yàn)結(jié)果在證明算法有效的同時(shí),也能提供良好的可擴(kuò)展性。通過分析證明算法在執(zhí)行時(shí)間、在存儲空間和負(fù)載能力上,都有很好的表現(xiàn)。
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP311.13
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王光;;幾何操作的數(shù)據(jù)并行復(fù)現(xiàn)(英文)[J];西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年04期
2 史英超;張發(fā)存;段敬紅;;面向嵌入式應(yīng)用的數(shù)據(jù)并行語言設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2011年04期
3 陳斯愈,黃林鵬,孫永強(qiáng);一個(gè)數(shù)據(jù)并行語言的設(shè)計(jì)及其實(shí)現(xiàn)[J];計(jì)算機(jī)工程;1997年03期
4 韓天舒;胡銘曾;李曉明;方濱興;;數(shù)據(jù)并行語言中的擴(kuò)展結(jié)構(gòu)[J];計(jì)算機(jī)科學(xué);1998年03期
5 劉振英,方濱興,張毅;數(shù)據(jù)并行語言中的任務(wù)并行[J];計(jì)算機(jī)工程與應(yīng)用;1999年10期
6 李向宏,王丁,王鑫;數(shù)據(jù)并行問題的性能分析及優(yōu)化[J];信息技術(shù);2002年03期
7 王玨;胡長軍;;數(shù)據(jù)并行中通信表內(nèi)元素關(guān)系定理的證明[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年S1期
8 余華山,胡長軍,黃其軍,丁文魁,許卓群;一個(gè)用于數(shù)據(jù)并行語言計(jì)算劃分的時(shí)序優(yōu)化模型(英文)[J];軟件學(xué)報(bào);2001年10期
9 桂兵祥;何健;;基于高性能云的分布式數(shù)據(jù)并行處理機(jī)制[J];武漢工業(yè)學(xué)院學(xué)報(bào);2010年01期
10 何連躍,沈志宇,趙克佳;數(shù)據(jù)并行語言編譯系統(tǒng)的并行循環(huán)迭代分布算法[J];計(jì)算機(jī)工程與設(shè)計(jì);1999年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 陳慶奎;那麗春;;一個(gè)支持?jǐn)?shù)據(jù)并行型計(jì)算的網(wǎng)格模型[A];2005通信理論與技術(shù)新進(jìn)展——第十屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2005年
2 崔同云;陳慶奎;;一個(gè)網(wǎng)格并行計(jì)算實(shí)現(xiàn)方法[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)——通信與信息技術(shù)會(huì)議論文集(上)[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 張濱;基于MapReduce大數(shù)據(jù)并行處理的若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2017年
2 肖天;數(shù)據(jù)并行程序正確性分析與網(wǎng)絡(luò)流量優(yōu)化[D];清華大學(xué);2014年
3 王耀華;數(shù)據(jù)并行處理器中指令流出的協(xié)同性研究[D];國防科學(xué)技術(shù)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙滿;地震數(shù)據(jù)并行訪問策略的研究[D];東北石油大學(xué);2013年
2 王馨梅;數(shù)據(jù)并行計(jì)算仿真的研究與實(shí)現(xiàn)[D];西安理工大學(xué);2004年
3 朱斯圢;海量氣象數(shù)據(jù)并行可視化框架[D];浙江大學(xué);2013年
4 梁玲玲;數(shù)據(jù)并行交換的長事務(wù)分配與調(diào)度模型[D];長春理工大學(xué);2011年
5 秦宜州;實(shí)時(shí)監(jiān)控系統(tǒng)中基于多核并發(fā)的并行技術(shù)應(yīng)用研究[D];東北大學(xué);2012年
6 張?jiān)?分布式XML數(shù)據(jù)并行更新及發(fā)布方法的研究[D];重慶大學(xué);2007年
7 王仲剛;基于云計(jì)算的海量高鐵噪聲數(shù)據(jù)并行處理方法研究[D];西南交通大學(xué);2013年
8 歐陽柳;地理柵格數(shù)據(jù)并行訪問技術(shù)研究與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2012年
9 楊帆;OpenProbe地震體數(shù)據(jù)并行渲染機(jī)制及實(shí)現(xiàn)[D];吉林大學(xué);2015年
10 劉美飛;基于USB接口的多串口數(shù)據(jù)并行接收方法研究[D];西安工業(yè)大學(xué);2012年
,本文編號:1265351
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1265351.html