大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲與查詢的研究
發(fā)布時間:2017-06-12 22:01
本文關鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲與查詢的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在這個大數(shù)據(jù)時代,由于數(shù)據(jù)量的增大使許多原本很簡單的數(shù)據(jù)操作都變得很難。如何去分析處理海量的數(shù)據(jù)成為了一個很有挑戰(zhàn)性的難題。為了解決這個難題,人們從數(shù)據(jù)存儲、數(shù)據(jù)傳輸、數(shù)據(jù)分析上提出了很多新的方法和模型。當下最熱門的大數(shù)據(jù)存儲與處理模型是Hadoop和MapReduce,他們被很多產(chǎn)業(yè)界的公司和學術界的學者所研究和認同。作為大數(shù)據(jù)處理的一種解決方案,MapReduce確實能夠解決一些問題,但在很多情況下它依舊是不適用的,所以新的解決方案的研究還需要繼續(xù)。 我們主要是基于CMD存儲模型來做大數(shù)據(jù)存儲與查詢的探索。傳統(tǒng)CMD存儲模型是基于單機多磁盤的,它已無法適應當前數(shù)據(jù)庫領域所面臨的挑戰(zhàn)。我們第一次將CMD擴展到了分布式環(huán)境下,在集群上建立CMD存儲方案,并通過它解決了大數(shù)據(jù)量的多路不等值連接操作問題,設計了全新的圖數(shù)據(jù)存儲模型,并對CMD在高維數(shù)據(jù)與大規(guī)模分布式集群上遇到的難題做了一定的優(yōu)化。 對于普通的關系數(shù)據(jù),我們并設計了基于CMD的多路不等值連接操作這一新的分布式連接操作算法,并與傳統(tǒng)關系型數(shù)據(jù)庫和Hadoop分布式并行計算環(huán)境進行了效率對比。因為該算法充分利用了CMD存儲方法對各屬性的索引,所以在效率上要比關系型數(shù)據(jù)庫和Hadoop分布式環(huán)境高很多,是解決大數(shù)據(jù)量的多路不等值連接操作的有效方案。 對于圖數(shù)據(jù),我們也將其轉化成CMD能夠存儲的數(shù)據(jù)格式,并對其可行性與效率做了一定探索,給出了基于CMD存儲方案的圖數(shù)據(jù)存儲方法與基本操作。這是一個全新的圖數(shù)據(jù)存儲模型,,相比于之前的圖數(shù)據(jù)存儲模型,它減弱了點的重要性而更關注于邊的屬性,使基于邊的查詢的速度得以大大提升。 對于CMD存儲方法在高維數(shù)據(jù)與大規(guī)模集群上會遇到的一些難題,我們給出了一些改進方案。我們提出的屬性分組方案,使屬性有層次的進行劃分,解決了原始CMD在面對高維數(shù)據(jù)會產(chǎn)生大量碎片的問題。我們提出的節(jié)點分組方案,也解決了當CMD部署在大規(guī)模集群上會使數(shù)據(jù)劃分過于零散而網(wǎng)絡通訊代價激增的問題。
【關鍵詞】:CMD 多路不等值連接操作 圖數(shù)據(jù)模型 分布式
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13;TP333
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 第1章 緒論9-16
- 1.1 課題背景及研究的目的和意義9-10
- 1.2 大數(shù)據(jù)存儲與分析現(xiàn)狀研究10-14
- 1.2.1 傳統(tǒng)關系型數(shù)據(jù)庫11
- 1.2.2 NoSQL 數(shù)據(jù)庫11-13
- 1.2.3 MapReduce 編程模型13-14
- 1.3 本文的主要研究內(nèi)容14-15
- 1.4 本文的組織結構15-16
- 第2章 基于 CMD 的多路不等值連接操作16-38
- 2.1 多路不等值連接操作16-18
- 2.2 CMD 存儲方法18-22
- 2.2.1 分布式 CMD 存儲方法18-20
- 2.2.2 連接操作相關概念20-22
- 2.3 基于 CMD 存儲方法的多路不等值連接操作算法22-32
- 2.3.1 代價模型23-26
- 2.3.2 連接操作指導向量26-27
- 2.3.3 分布式連接操作算法27-29
- 2.3.4 正確性證明29-31
- 2.3.5 時間復雜度分析31-32
- 2.4 實驗結果及分析32-36
- 2.4.1 實驗環(huán)境32-34
- 2.4.2 實驗結果34-36
- 2.5 本章小結36-38
- 第3章 基于 CMD 的圖數(shù)據(jù)存儲與查詢38-51
- 3.1 圖數(shù)據(jù)存儲計算模型38-41
- 3.1.1 Pregel39-40
- 3.1.2 GraphLab40-41
- 3.1.3 GBase41
- 3.2 基于 CMD 的圖數(shù)據(jù)存儲41-44
- 3.2.1 以邊為中心42
- 3.2.2 存儲模型42-44
- 3.3 基于 CMD 的圖數(shù)據(jù)查詢44-47
- 3.3.1 K 近鄰查詢44-46
- 3.3.2 用戶指定的導出子圖查詢46-47
- 3.3.3 用戶指定的 K 核查詢47
- 3.4 實驗結果及分析47-50
- 3.4.1 實驗環(huán)境48
- 3.4.2 實驗數(shù)據(jù)48
- 3.4.3 實驗結果及分析48-50
- 3.5 本章小結50-51
- 第4章 CMD 在高維數(shù)據(jù)和大規(guī)模集群的擴展51-57
- 4.1 CMD 存儲方法的一些不足51-52
- 4.1.1 高維數(shù)據(jù)51-52
- 4.1.2 大規(guī)模集群52
- 4.2 高維數(shù)據(jù)的解決方案52-53
- 4.3 大規(guī)模集群的解決方案53-54
- 4.4 實驗結果及分析54-56
- 4.4.1 實驗環(huán)境54
- 4.4.2 實驗結果54-56
- 4.5 本章小結56-57
- 結論57-58
- 參考文獻58-62
- 攻讀碩士學位期間發(fā)表的論文62-64
- 致謝64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 李建中;一種并行數(shù)據(jù)庫的動態(tài)多維數(shù)據(jù)分布方法[J];軟件學報;1999年09期
2 李建中,都薇;并行數(shù)據(jù)庫上的并行CMD-Join算法[J];軟件學報;1998年04期
本文關鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲與查詢的研究,由筆耕文化傳播整理發(fā)布。
本文編號:444987
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/444987.html
最近更新
教材專著