基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究
發(fā)布時間:2017-05-02 02:07
本文關(guān)鍵詞:基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:大數(shù)據(jù)的“4V”特點(diǎn):體量大、種類多、價值大以及處理速度快,使得原有的關(guān)系型數(shù)據(jù)庫集群已難以容納海量的結(jié)構(gòu)化數(shù)據(jù)。因此,基于分布式文件系統(tǒng)的關(guān)系型數(shù)據(jù)庫成為研究熱點(diǎn);诜植际轿募到y(tǒng)的數(shù)據(jù)庫是指底層存儲采用Hadoop分布式文件系統(tǒng)HDFS,上層采用以大規(guī)模并行處理MPP架構(gòu)作為調(diào)度引擎的數(shù)據(jù)庫。HDFS分布式文件系統(tǒng)部署于由多個獨(dú)立基礎(chǔ)設(shè)施并通過網(wǎng)絡(luò)連接的節(jié)點(diǎn)組成的集群上,其中一個節(jié)點(diǎn)用于存儲文件系統(tǒng)的元數(shù)據(jù)信息,其他節(jié)點(diǎn)用來存儲文件數(shù)據(jù),文件系統(tǒng)中所有的數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行傳輸。目前,基于HDFS的關(guān)系型數(shù)據(jù)庫在應(yīng)用中還存在以下不足:1.未實(shí)現(xiàn)跨數(shù)據(jù)中心的功能,因而難以滿足跨數(shù)據(jù)中心查詢的應(yīng)用需求;2.基于HDFS的數(shù)據(jù)庫存儲數(shù)據(jù)所采用的存儲策略,使得屬于同一表的數(shù)據(jù)集中存儲于負(fù)載較小的節(jié)點(diǎn),這種存取策略將降低遍歷數(shù)據(jù)的并行效率;3.當(dāng)部署HDFS的集群中存儲節(jié)點(diǎn)發(fā)生變化時,為保證各個節(jié)點(diǎn)存儲負(fù)載的均衡性,需進(jìn)行節(jié)點(diǎn)間的數(shù)據(jù)遷移,且該過程涉及所有節(jié)點(diǎn),遷移時間過長,因而對數(shù)據(jù)庫的實(shí)時查詢效率影響較大。 針對上述問題,本文基于清華大學(xué)信息科學(xué)技術(shù)國家實(shí)驗(yàn)室搭建的Impala集群框架,結(jié)合242課題“面向關(guān)系型數(shù)據(jù)的云存儲關(guān)鍵技術(shù)研究及驗(yàn)證”,從底層分布式文件系統(tǒng)HDFS數(shù)據(jù)存儲角度,對結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)存儲、查詢以及遷移方法進(jìn)行了探索性研究,并對基于HDFS的關(guān)系型數(shù)據(jù)庫跨數(shù)據(jù)中心部署方法進(jìn)行了實(shí)際應(yīng)用測試。 本文的主要工作包括:1.跨數(shù)據(jù)中心的分布式數(shù)據(jù)庫Impala系統(tǒng)部署。將Impala系統(tǒng)進(jìn)行跨廣域網(wǎng)、跨地域的多個數(shù)據(jù)中心的部署。2.基于環(huán)形分布式哈希的數(shù)據(jù)存儲和查詢方法研究。將分布式哈希表和CHORD環(huán)結(jié)構(gòu)應(yīng)用于分布式文件系統(tǒng)數(shù)據(jù)的存儲和查詢中,將存儲節(jié)點(diǎn)與數(shù)據(jù)都進(jìn)行散列,并根據(jù)哈希值進(jìn)行映射存儲,通過對保存的元數(shù)據(jù)信息進(jìn)行二分查找來定位所需數(shù)據(jù)的存儲位置。3.基于環(huán)形分布式散列的數(shù)據(jù)遷移方法研究,當(dāng)部署HDFS文件系統(tǒng)的集群新增存儲節(jié)點(diǎn)時,其“鄰居”節(jié)點(diǎn)的部分?jǐn)?shù)據(jù)將遷移至新節(jié)點(diǎn);當(dāng)有存儲節(jié)點(diǎn)失效時,該節(jié)點(diǎn)上存儲的數(shù)據(jù)依據(jù)備份恢復(fù)到“鄰居”節(jié)點(diǎn)進(jìn)行存儲。 本文的創(chuàng)新點(diǎn)為:1.實(shí)現(xiàn)Impala系統(tǒng)的跨數(shù)據(jù)中心部署,提高了Impala系統(tǒng)的應(yīng)用范圍和對跨域大數(shù)據(jù)應(yīng)用的支持;2.提出基于環(huán)形分布式哈希的數(shù)據(jù)存儲和查詢方法,利用基于分布式哈希以及CHORD環(huán)方法進(jìn)行數(shù)據(jù)存儲和查詢,使數(shù)據(jù)均勻的散列在各個節(jié)點(diǎn)上,提高了數(shù)據(jù)查詢的并行性,降低了查詢時延;3.提出基于環(huán)形分布式散列的數(shù)據(jù)遷移方法,利用該方法進(jìn)行數(shù)據(jù)遷移,減少了數(shù)據(jù)移動所的涉及節(jié)點(diǎn),節(jié)省了遷移的時間,保證了數(shù)據(jù)庫查詢的一致性和有效性。 本文將所提出的數(shù)據(jù)存儲、查找以及數(shù)據(jù)遷移的方法進(jìn)行仿真實(shí)驗(yàn),通過與HDFS分布式文件系統(tǒng)原有的策略進(jìn)行對比,驗(yàn)證了所提出方法的有效性。
【關(guān)鍵詞】:分布式文件系統(tǒng) 分布式哈希 數(shù)據(jù)存儲 數(shù)據(jù)遷移 跨數(shù)據(jù)中心
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13;TP333
【目錄】:
- 摘要8-10
- Abstract10-12
- 第1章 結(jié)構(gòu)化數(shù)據(jù)存放策略綜述12-21
- 1.1 研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-18
- 1.3 本文工作與創(chuàng)新18-20
- 1.3.1 本文的主要工作18-19
- 1.3.2 本文的創(chuàng)新點(diǎn)19-20
- 1.4 本文的組織20-21
- 第2章 基于HDFS的分布式數(shù)據(jù)庫系統(tǒng)部署21-31
- 2.1 Impala系統(tǒng)的本地數(shù)據(jù)中心部署21-26
- 2.1.1 本地數(shù)據(jù)中心部署結(jié)構(gòu)21-22
- 2.1.2 本地數(shù)據(jù)中心數(shù)據(jù)導(dǎo)入與查詢22-25
- 2.1.3 負(fù)載均衡操作25-26
- 2.2 Impala系統(tǒng)的跨數(shù)據(jù)中心部署26-30
- 2.2.1 跨數(shù)據(jù)中心部署結(jié)構(gòu)27-28
- 2.2.2 跨數(shù)據(jù)中心數(shù)據(jù)導(dǎo)入28-29
- 2.2.3 跨數(shù)據(jù)中心數(shù)據(jù)查詢29-30
- 2.3 本章小結(jié)30-31
- 第3章 基于環(huán)形分布式哈希的數(shù)據(jù)存儲與查詢方法31-41
- 3.1 基于HDFS的數(shù)據(jù)庫數(shù)據(jù)存放31-33
- 3.2 分布式哈希表(DHT)與CHORD環(huán)33-34
- 3.3 基于環(huán)形分布式哈希的數(shù)據(jù)存儲與查詢方法34-39
- 3.3.1 主要思想34-35
- 3.3.2 數(shù)據(jù)存放方法35-38
- 3.3.3 數(shù)據(jù)查找方法38-39
- 3.4 實(shí)驗(yàn)及數(shù)據(jù)分析39-40
- 3.5 本章小結(jié)40-41
- 第4章 基于環(huán)形分布式散列的數(shù)據(jù)遷移方法41-48
- 4.1 CHORD數(shù)據(jù)遷移41-43
- 4.2 基于環(huán)形分布式散列的數(shù)據(jù)遷移方法43-45
- 4.2.1 主要思想43
- 4.2.2 節(jié)點(diǎn)加入數(shù)據(jù)移動方法43-45
- 4.2.3 節(jié)點(diǎn)失效數(shù)據(jù)移動方法45
- 4.3 實(shí)驗(yàn)及數(shù)據(jù)分析45-47
- 4.4 本章小結(jié)47-48
- 第5章 總結(jié)48-51
- 5.1 本文總結(jié)48-49
- 5.2 進(jìn)一步的工作49-51
- 參考文獻(xiàn)51-55
- 致謝55-56
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄56-57
- 學(xué)位論文評閱及答辯情況表57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期
2 林偉偉;劉波;;基于動態(tài)帶寬分配的Hadoop數(shù)據(jù)負(fù)載均衡方法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年09期
3 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機(jī)研究與發(fā)展;2013年01期
4 劉琨;肖琳;趙海燕;;Hadoop中云數(shù)據(jù)負(fù)載均衡算法的研究及優(yōu)化[J];微電子學(xué)與計算機(jī);2012年09期
本文關(guān)鍵詞:基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:340073
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/340073.html
最近更新
教材專著