基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究

發(fā)布時間：2017-05-02 02:07

本文關(guān)鍵詞：基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：大數(shù)據(jù)的“4V”特點：體量大、種類多、價值大以及處理速度快,使得原有的關(guān)系型數(shù)據(jù)庫集群已難以容納海量的結(jié)構(gòu)化數(shù)據(jù)。因此,基于分布式文件系統(tǒng)的關(guān)系型數(shù)據(jù)庫成為研究熱點�；诜植际轿募到y(tǒng)的數(shù)據(jù)庫是指底層存儲采用Hadoop分布式文件系統(tǒng)HDFS,上層采用以大規(guī)模并行處理MPP架構(gòu)作為調(diào)度引擎的數(shù)據(jù)庫。HDFS分布式文件系統(tǒng)部署于由多個獨(dú)立基礎(chǔ)設(shè)施并通過網(wǎng)絡(luò)連接的節(jié)點組成的集群上,其中一個節(jié)點用于存儲文件系統(tǒng)的元數(shù)據(jù)信息,其他節(jié)點用來存儲文件數(shù)據(jù),文件系統(tǒng)中所有的數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行傳輸。目前,基于HDFS的關(guān)系型數(shù)據(jù)庫在應(yīng)用中還存在以下不足：1.未實現(xiàn)跨數(shù)據(jù)中心的功能,因而難以滿足跨數(shù)據(jù)中心查詢的應(yīng)用需求；2.基于HDFS的數(shù)據(jù)庫存儲數(shù)據(jù)所采用的存儲策略,使得屬于同一表的數(shù)據(jù)集中存儲于負(fù)載較小的節(jié)點,這種存取策略將降低遍歷數(shù)據(jù)的并行效率；3.當(dāng)部署HDFS的集群中存儲節(jié)點發(fā)生變化時,為保證各個節(jié)點存儲負(fù)載的均衡性,需進(jìn)行節(jié)點間的數(shù)據(jù)遷移,且該過程涉及所有節(jié)點,遷移時間過長,因而對數(shù)據(jù)庫的實時查詢效率影響較大。針對上述問題,本文基于清華大學(xué)信息科學(xué)技術(shù)國家實驗室搭建的Impala集群框架,結(jié)合242課題“面向關(guān)系型數(shù)據(jù)的云存儲關(guān)鍵技術(shù)研究及驗證”,從底層分布式文件系統(tǒng)HDFS數(shù)據(jù)存儲角度,對結(jié)構(gòu)化數(shù)據(jù)庫的數(shù)據(jù)存儲、查詢以及遷移方法進(jìn)行了探索性研究,并對基于HDFS的關(guān)系型數(shù)據(jù)庫跨數(shù)據(jù)中心部署方法進(jìn)行了實際應(yīng)用測試。本文的主要工作包括：1.跨數(shù)據(jù)中心的分布式數(shù)據(jù)庫Impala系統(tǒng)部署。將Impala系統(tǒng)進(jìn)行跨廣域網(wǎng)、跨地域的多個數(shù)據(jù)中心的部署。2.基于環(huán)形分布式哈希的數(shù)據(jù)存儲和查詢方法研究。將分布式哈希表和CHORD環(huán)結(jié)構(gòu)應(yīng)用于分布式文件系統(tǒng)數(shù)據(jù)的存儲和查詢中,將存儲節(jié)點與數(shù)據(jù)都進(jìn)行散列,并根據(jù)哈希值進(jìn)行映射存儲,通過對保存的元數(shù)據(jù)信息進(jìn)行二分查找來定位所需數(shù)據(jù)的存儲位置。3.基于環(huán)形分布式散列的數(shù)據(jù)遷移方法研究,當(dāng)部署HDFS文件系統(tǒng)的集群新增存儲節(jié)點時,其“鄰居”節(jié)點的部分?jǐn)?shù)據(jù)將遷移至新節(jié)點；當(dāng)有存儲節(jié)點失效時,該節(jié)點上存儲的數(shù)據(jù)依據(jù)備份恢復(fù)到“鄰居”節(jié)點進(jìn)行存儲。本文的創(chuàng)新點為：1.實現(xiàn)Impala系統(tǒng)的跨數(shù)據(jù)中心部署,提高了Impala系統(tǒng)的應(yīng)用范圍和對跨域大數(shù)據(jù)應(yīng)用的支持；2.提出基于環(huán)形分布式哈希的數(shù)據(jù)存儲和查詢方法,利用基于分布式哈希以及CHORD環(huán)方法進(jìn)行數(shù)據(jù)存儲和查詢,使數(shù)據(jù)均勻的散列在各個節(jié)點上,提高了數(shù)據(jù)查詢的并行性,降低了查詢時延；3.提出基于環(huán)形分布式散列的數(shù)據(jù)遷移方法,利用該方法進(jìn)行數(shù)據(jù)遷移,減少了數(shù)據(jù)移動所的涉及節(jié)點,節(jié)省了遷移的時間,保證了數(shù)據(jù)庫查詢的一致性和有效性。本文將所提出的數(shù)據(jù)存儲、查找以及數(shù)據(jù)遷移的方法進(jìn)行仿真實驗,通過與HDFS分布式文件系統(tǒng)原有的策略進(jìn)行對比,驗證了所提出方法的有效性。
【關(guān)鍵詞】：分布式文件系統(tǒng) 分布式哈希 數(shù)據(jù)存儲 數(shù)據(jù)遷移 跨數(shù)據(jù)中心
【學(xué)位授予單位】：山東大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP311.13;TP333
【目錄】：

摘要8-10
Abstract10-12
第1章結(jié)構(gòu)化數(shù)據(jù)存放策略綜述12-21
1.1 研究背景及意義12-14
1.2 國內(nèi)外研究現(xiàn)狀14-18
1.3 本文工作與創(chuàng)新18-20
1.3.1 本文的主要工作18-19
1.3.2 本文的創(chuàng)新點19-20
1.4 本文的組織20-21
第2章基于HDFS的分布式數(shù)據(jù)庫系統(tǒng)部署21-31
2.1 Impala系統(tǒng)的本地數(shù)據(jù)中心部署21-26
2.1.1 本地數(shù)據(jù)中心部署結(jié)構(gòu)21-22
2.1.2 本地數(shù)據(jù)中心數(shù)據(jù)導(dǎo)入與查詢22-25
2.1.3 負(fù)載均衡操作25-26
2.2 Impala系統(tǒng)的跨數(shù)據(jù)中心部署26-30
2.2.1 跨數(shù)據(jù)中心部署結(jié)構(gòu)27-28
2.2.2 跨數(shù)據(jù)中心數(shù)據(jù)導(dǎo)入28-29
2.2.3 跨數(shù)據(jù)中心數(shù)據(jù)查詢29-30
2.3 本章小結(jié)30-31
第3章基于環(huán)形分布式哈希的數(shù)據(jù)存儲與查詢方法31-41
3.1 基于HDFS的數(shù)據(jù)庫數(shù)據(jù)存放31-33
3.2 分布式哈希表(DHT)與CHORD環(huán)33-34
3.3 基于環(huán)形分布式哈希的數(shù)據(jù)存儲與查詢方法34-39
3.3.1 主要思想34-35
3.3.2 數(shù)據(jù)存放方法35-38
3.3.3 數(shù)據(jù)查找方法38-39
3.4 實驗及數(shù)據(jù)分析39-40
3.5 本章小結(jié)40-41
第4章基于環(huán)形分布式散列的數(shù)據(jù)遷移方法41-48
4.1 CHORD數(shù)據(jù)遷移41-43
4.2 基于環(huán)形分布式散列的數(shù)據(jù)遷移方法43-45
4.2.1 主要思想43
4.2.2 節(jié)點加入數(shù)據(jù)移動方法43-45
4.2.3 節(jié)點失效數(shù)據(jù)移動方法45
4.3 實驗及數(shù)據(jù)分析45-47
4.4 本章小結(jié)47-48
第5章總結(jié)48-51
5.1 本文總結(jié)48-49
5.2 進(jìn)一步的工作49-51
參考文獻(xiàn)51-55
致謝55-56
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄56-57
學(xué)位論文評閱及答辯情況表57

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前4條

1 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期

2 林偉偉;劉波;;基于動態(tài)帶寬分配的Hadoop數(shù)據(jù)負(fù)載均衡方法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年09期

3 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機(jī)研究與發(fā)展;2013年01期

4 劉琨;肖琳;趙海燕;;Hadoop中云數(shù)據(jù)負(fù)載均衡算法的研究及優(yōu)化[J];微電子學(xué)與計算機(jī);2012年09期

本文關(guān)鍵詞：基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究，由筆耕文化傳播整理發(fā)布。

本文編號：340073

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/340073.html

上一篇：D公司噴漆產(chǎn)品質(zhì)量追溯平臺構(gòu)建及分析研究
下一篇：X-DSP BSU運(yùn)算單元的驗證與優(yōu)化

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDFS的結(jié)構(gòu)化數(shù)據(jù)存儲和查詢方法研究