基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù)存儲(chǔ) HBase 嵌套式存儲(chǔ) Dremel
【摘要】:隨著互聯(lián)網(wǎng)時(shí)代的來(lái)臨,數(shù)據(jù)量迅猛增長(zhǎng),如何合理有效地存儲(chǔ)和利用大數(shù)據(jù)顯得尤為重要。針對(duì)大數(shù)據(jù)對(duì)于擴(kuò)展能力及數(shù)據(jù)格式的需求,業(yè)界提出了NoSQL數(shù)據(jù)庫(kù)的解決方案。NoSQL采用了分布式的存儲(chǔ)架構(gòu)和無(wú)模式的存儲(chǔ)格式,以滿足存儲(chǔ)過(guò)程中容量不斷增長(zhǎng)的需求,同時(shí)更加靈活地為用戶業(yè)務(wù)變更提供方便。但是正是由于NoSQL數(shù)據(jù)庫(kù)在這些方面的設(shè)計(jì)調(diào)整,減弱了數(shù)據(jù)在存儲(chǔ)過(guò)程中的關(guān)聯(lián)性。導(dǎo)致使用NoSQL數(shù)據(jù)庫(kù)進(jìn)行大數(shù)據(jù)分析時(shí),數(shù)據(jù)讀取速度慢,查詢過(guò)程更為復(fù)雜。針對(duì)NoSQL關(guān)于數(shù)據(jù)分析能力的不足,結(jié)合Dremel論文提出的嵌套式數(shù)據(jù)存儲(chǔ)格式的思想,本文提出了基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng),來(lái)解決大數(shù)據(jù)存儲(chǔ)和分析過(guò)程中遇到的問(wèn)題。本文主要工作如下:1)基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)采用了HBase原有的分布式存儲(chǔ)架構(gòu)。繼承HBase擴(kuò)展性好、可用性高的特點(diǎn)。使用HMaster對(duì)于數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行管理操作,利用HRegionServer對(duì)于每個(gè)子節(jié)點(diǎn)上的數(shù)據(jù)存儲(chǔ)進(jìn)行管理。2)對(duì)于HBase按列存儲(chǔ)格式進(jìn)行格式轉(zhuǎn)換。重構(gòu)HRegion類,添加數(shù)據(jù)轉(zhuǎn)換模塊,將HBase原有列式存儲(chǔ)格式轉(zhuǎn)換為嵌套式數(shù)據(jù)存儲(chǔ)格式。利用基于Dremel實(shí)現(xiàn)的嵌套式數(shù)據(jù)存儲(chǔ)文件格式Parquet對(duì)于數(shù)據(jù)進(jìn)行持久化工作。3)實(shí)現(xiàn)基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)的存儲(chǔ)和讀取模塊。完成基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)的讀寫功能。并強(qiáng)化了讀取模塊中的查詢功能。4)通過(guò)數(shù)據(jù)分析實(shí)驗(yàn)驗(yàn)證基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)在數(shù)據(jù)分析過(guò)程中的性能提升。利用MapReduce計(jì)算框架對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行分析,其結(jié)果顯示基于HBase的嵌套式存儲(chǔ)系統(tǒng)按列查詢性能比原HBase存儲(chǔ)系統(tǒng)提升三分之一左右。當(dāng)存儲(chǔ)表中列數(shù)目增加時(shí),基于HBase的嵌套式存儲(chǔ)系統(tǒng)耗時(shí)增加更少;贖Base的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)可以滿足對(duì)于大數(shù)據(jù)讀寫性能的要求,同時(shí)在進(jìn)行大數(shù)據(jù)分析的過(guò)程中,減少了對(duì)于不必要數(shù)據(jù)的讀取開銷,降低了磁盤和CPU的損耗,加快了大數(shù)據(jù)的分析速度。
【關(guān)鍵詞】:大數(shù)據(jù)存儲(chǔ) HBase 嵌套式存儲(chǔ) Dremel
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333
【目錄】:
- 摘要4-6
- Abstract6-14
- 第1章 緒論14-24
- 1.1 課題背景14-15
- 1.2 研究目的及意義15-19
- 1.2.1 大數(shù)據(jù)存儲(chǔ)特點(diǎn)15-16
- 1.2.2 NoSQL數(shù)據(jù)庫(kù)特點(diǎn)16
- 1.2.3 NoSQL數(shù)據(jù)庫(kù)中存儲(chǔ)結(jié)構(gòu)問(wèn)題16-17
- 1.2.4 NoSQL數(shù)據(jù)庫(kù)數(shù)據(jù)查詢中的問(wèn)題17-19
- 1.2.5 數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)優(yōu)化的作用19
- 1.3 研究?jī)?nèi)容19-21
- 1.3.1 研究目的19-20
- 1.3.2 本文工作及創(chuàng)新點(diǎn)20-21
- 1.4 文章結(jié)構(gòu)21-22
- 1.5 本章小結(jié)22-24
- 第2章 大數(shù)據(jù)存儲(chǔ)與應(yīng)用綜述24-40
- 2.1 大數(shù)據(jù)存儲(chǔ)技術(shù)24-29
- 2.1.1 NoSQL24-25
- 2.1.2 CAP理論25-27
- 2.1.3 數(shù)據(jù)存儲(chǔ)模型27-29
- 2.2 大數(shù)據(jù)應(yīng)用技術(shù)29-32
- 2.2.1 離線數(shù)據(jù)處理29-31
- 2.2.2 即時(shí)數(shù)據(jù)處理31
- 2.2.3 流式數(shù)據(jù)處理31-32
- 2.3 HBase32-34
- 2.3.1 HBase架構(gòu)32-34
- 2.3.2 HBase存儲(chǔ)34
- 2.4 Google交互式分析系統(tǒng)Dremel34-39
- 2.4.1 嵌套式數(shù)據(jù)35-37
- 2.4.2 嵌套式數(shù)據(jù)存儲(chǔ)格式37-38
- 2.4.3 嵌套式數(shù)據(jù)讀取原理38-39
- 2.5 本章小結(jié)39-40
- 第3章 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)設(shè)計(jì)40-48
- 3.1 分布式集群架構(gòu)40-42
- 3.1.1 主從式分布式集群架構(gòu)40-41
- 3.1.2 環(huán)狀式分布式集群架構(gòu)41-42
- 3.2 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)42
- 3.3 數(shù)據(jù)管理類HRegion重構(gòu)42-47
- 3.3.1 HRegion重構(gòu)相關(guān)類的設(shè)計(jì)43-46
- 3.3.2 HRegion重構(gòu)初始化過(guò)程設(shè)計(jì)46-47
- 3.4 本章小結(jié)47-48
- 第4章 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)格式轉(zhuǎn)化48-55
- 4.1 HBase表結(jié)構(gòu)48-49
- 4.2 HFile文件格式49-50
- 4.3 Parquet文件格式50-51
- 4.4 存儲(chǔ)數(shù)據(jù)格式轉(zhuǎn)換實(shí)現(xiàn)51-53
- 4.5 存儲(chǔ)數(shù)據(jù)格式轉(zhuǎn)換實(shí)驗(yàn)53-54
- 4.6 本章小結(jié)54-55
- 第5章 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)55-74
- 5.1 嵌套式數(shù)據(jù)存儲(chǔ)模塊重構(gòu)55-64
- 5.1.1 HBase寫入過(guò)程中關(guān)鍵類55-58
- 5.1.2 HBase寫入數(shù)據(jù)流程58-59
- 5.1.3 Parquet存儲(chǔ)數(shù)據(jù)過(guò)程59-60
- 5.1.4 嵌套式數(shù)據(jù)存儲(chǔ)模塊類設(shè)計(jì)60-63
- 5.1.5 嵌套式數(shù)據(jù)存儲(chǔ)流程63-64
- 5.2 嵌套式數(shù)據(jù)讀取模塊設(shè)計(jì)64-72
- 5.2.1 HBase讀取數(shù)據(jù)過(guò)程中關(guān)鍵類64-65
- 5.2.2 HBase讀取數(shù)據(jù)流程65-67
- 5.2.3 Parquet讀取數(shù)據(jù)過(guò)程67
- 5.2.4 嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)讀取格式模塊設(shè)計(jì)67-69
- 5.2.5 嵌套式數(shù)據(jù)讀取模塊類設(shè)計(jì)69-71
- 5.2.6 嵌套式數(shù)據(jù)讀取流程71-72
- 5.3 本章小結(jié)72-74
- 第6章 基于HBase嵌套式存儲(chǔ)系統(tǒng)性能測(cè)試74-85
- 6.1 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)讀寫性能分析74-79
- 6.1.1 實(shí)驗(yàn)?zāi)康?/span>74
- 6.1.2 實(shí)驗(yàn)環(huán)境準(zhǔn)備74-76
- 6.1.3 測(cè)試工具76-77
- 6.1.4 實(shí)驗(yàn)過(guò)程77
- 6.1.5 實(shí)驗(yàn)結(jié)果分析77-79
- 6.2 基于HBase嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)數(shù)據(jù)分析性能分析79-84
- 6.2.1 實(shí)驗(yàn)環(huán)境準(zhǔn)備80-81
- 6.2.2 實(shí)驗(yàn)?zāi)康?/span>81
- 6.2.3 實(shí)驗(yàn)過(guò)程81-82
- 6.2.4 實(shí)驗(yàn)結(jié)果分析82-84
- 6.3 本章小結(jié)84-85
- 第7章 總結(jié)與展望85-88
- 7.1 本文工作總結(jié)85-86
- 7.2 未來(lái)工作展望86-88
- 7.2.1 嵌套式存儲(chǔ)結(jié)構(gòu)的擴(kuò)展86
- 7.2.2 嵌套式存儲(chǔ)結(jié)構(gòu)查詢應(yīng)用86-87
- 7.2.3 數(shù)據(jù)按需選擇CAP87-88
- 參考文獻(xiàn)88-91
- 攻讀碩士學(xué)位期間主要的研究成果91-92
- 致謝92
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;永久性數(shù)據(jù)存儲(chǔ)系統(tǒng)尋求合作[J];電腦與電信;2009年02期
2 楊則正;美國(guó)空軍人員數(shù)據(jù)存儲(chǔ)系統(tǒng)[J];管理科學(xué)文摘;1994年07期
3 李亮元;周銀珍;;數(shù)據(jù)存儲(chǔ)系統(tǒng)在銀行的應(yīng)用[J];金融電子化;2002年11期
4 陳端榮,裴先登,謝長(zhǎng)生,讓光林;體全息數(shù)據(jù)存儲(chǔ)系統(tǒng)中的一種調(diào)制碼研究[J];小型微型計(jì)算機(jī)系統(tǒng);2003年01期
5 張展 ,何岷 ,徐廣毅;嵌入式電子飛行儀表系統(tǒng)(一)——數(shù)據(jù)通信和數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J];電子世界;2003年05期
6 楊光鎮(zhèn);中山電力數(shù)據(jù)存儲(chǔ)系統(tǒng)方案[J];電力信息化;2004年05期
7 邢笠;;數(shù)字圖書館數(shù)據(jù)存儲(chǔ)系統(tǒng)解決方案的探討[J];浙江萬(wàn)里學(xué)院學(xué)報(bào);2006年02期
8 沈兆龍;江兵;蔡建文;唐火紅;邢卉;徐敏;黃文浩;;共焦雙光頭多層數(shù)據(jù)存儲(chǔ)系統(tǒng)[J];光電工程;2007年07期
9 張李蓀;;信息化建設(shè)中的數(shù)據(jù)存儲(chǔ)系統(tǒng)建設(shè)[J];人民長(zhǎng)江;2009年07期
10 李二補(bǔ);;數(shù)據(jù)存儲(chǔ)系統(tǒng)中可靠性及容錯(cuò)性研究[J];山西科技;2010年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 江楊;;流數(shù)據(jù)存儲(chǔ)系統(tǒng)體系結(jié)構(gòu)研究[A];2007中國(guó)科協(xié)年會(huì)——通信與信息發(fā)展高層論壇論文集[C];2007年
2 章政海;;電廠數(shù)據(jù)存儲(chǔ)系統(tǒng)總體構(gòu)架研究[A];二○○九年全國(guó)電力企業(yè)信息化大會(huì)論文集[C];2009年
3 李非;邱天爽;遲戈;魏晶;;高速數(shù)據(jù)存儲(chǔ)在CT成像系統(tǒng)中的應(yīng)用研究[A];2008年醫(yī)療儀器學(xué)術(shù)年會(huì)暨理事會(huì)論文匯編[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 惠聞;SAN應(yīng)用不再難[N];網(wǎng)絡(luò)世界;2000年
2 ;SAN——高瞻者的選擇[N];網(wǎng)絡(luò)世界;2001年
3 ;傳統(tǒng)存儲(chǔ)方式 面臨變革[N];中國(guó)計(jì)算機(jī)報(bào);2004年
4 ;突破存儲(chǔ)的極限[N];中國(guó)電腦教育報(bào);2004年
5 ;惠普簡(jiǎn)化行業(yè)數(shù)據(jù)存儲(chǔ)系統(tǒng)[N];人民郵電;2005年
6 ;青島大學(xué)醫(yī)學(xué)院附屬醫(yī) Centera 應(yīng)用案例[N];中國(guó)電子報(bào);2005年
7 陳旭兵;岳陽(yáng)醫(yī)院“分級(jí)存儲(chǔ)”PACS構(gòu)建[N];網(wǎng)絡(luò)世界;2008年
8 程鴻;政府信息資源需層次化管理[N];計(jì)算機(jī)世界;2004年
9 劉燕;福建采購(gòu)工商管理系統(tǒng)信息建設(shè)項(xiàng)目[N];政府采購(gòu)信息報(bào);2008年
10 IBM存儲(chǔ)事業(yè)部 張英偉;用邏輯卷鏡像安全備份[N];中國(guó)計(jì)算機(jī)報(bào);2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳海霞;計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)系統(tǒng)中讀寫頭/盤間超薄氣膜動(dòng)力穩(wěn)定性研究[D];華中科技大學(xué);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 林潘榕;基于連接順序優(yōu)化的分布式能耗數(shù)據(jù)存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
2 朱偉健;基于數(shù)據(jù)屬性的大數(shù)據(jù)存儲(chǔ)系統(tǒng)研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
3 馬浩田;基于HBase的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2015年
4 鐘曉華;銀行操作數(shù)據(jù)存儲(chǔ)系統(tǒng)的分析與應(yīng)用[D];內(nèi)蒙古大學(xué);2009年
5 黃麗華;江西電信公司運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)系統(tǒng)的升級(jí)方案設(shè)計(jì)[D];南昌大學(xué);2010年
6 張燦;云存儲(chǔ)中的數(shù)據(jù)動(dòng)態(tài)平衡技術(shù)研究[D];上海交通大學(xué);2012年
7 王建光;大規(guī)模時(shí)間序列數(shù)據(jù)存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2013年
8 黃寅;高速數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與應(yīng)用[D];華中科技大學(xué);2009年
9 蘇文洲;容忍入侵的數(shù)據(jù)存儲(chǔ)系統(tǒng)研究與設(shè)計(jì)[D];蘭州大學(xué);2006年
10 祁軍;運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京郵電大學(xué);2012年
,本文編號(hào):587413
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/587413.html