大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲(chǔ)與查詢(xún)的研究
發(fā)布時(shí)間:2017-06-12 22:01
本文關(guān)鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲(chǔ)與查詢(xún)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在這個(gè)大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)量的增大使許多原本很簡(jiǎn)單的數(shù)據(jù)操作都變得很難。如何去分析處理海量的數(shù)據(jù)成為了一個(gè)很有挑戰(zhàn)性的難題。為了解決這個(gè)難題,人們從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸、數(shù)據(jù)分析上提出了很多新的方法和模型。當(dāng)下最熱門(mén)的大數(shù)據(jù)存儲(chǔ)與處理模型是Hadoop和MapReduce,他們被很多產(chǎn)業(yè)界的公司和學(xué)術(shù)界的學(xué)者所研究和認(rèn)同。作為大數(shù)據(jù)處理的一種解決方案,MapReduce確實(shí)能夠解決一些問(wèn)題,但在很多情況下它依舊是不適用的,所以新的解決方案的研究還需要繼續(xù)。 我們主要是基于CMD存儲(chǔ)模型來(lái)做大數(shù)據(jù)存儲(chǔ)與查詢(xún)的探索。傳統(tǒng)CMD存儲(chǔ)模型是基于單機(jī)多磁盤(pán)的,它已無(wú)法適應(yīng)當(dāng)前數(shù)據(jù)庫(kù)領(lǐng)域所面臨的挑戰(zhàn)。我們第一次將CMD擴(kuò)展到了分布式環(huán)境下,在集群上建立CMD存儲(chǔ)方案,并通過(guò)它解決了大數(shù)據(jù)量的多路不等值連接操作問(wèn)題,設(shè)計(jì)了全新的圖數(shù)據(jù)存儲(chǔ)模型,并對(duì)CMD在高維數(shù)據(jù)與大規(guī)模分布式集群上遇到的難題做了一定的優(yōu)化。 對(duì)于普通的關(guān)系數(shù)據(jù),我們并設(shè)計(jì)了基于CMD的多路不等值連接操作這一新的分布式連接操作算法,并與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和Hadoop分布式并行計(jì)算環(huán)境進(jìn)行了效率對(duì)比。因?yàn)樵撍惴ǔ浞掷昧薈MD存儲(chǔ)方法對(duì)各屬性的索引,所以在效率上要比關(guān)系型數(shù)據(jù)庫(kù)和Hadoop分布式環(huán)境高很多,是解決大數(shù)據(jù)量的多路不等值連接操作的有效方案。 對(duì)于圖數(shù)據(jù),我們也將其轉(zhuǎn)化成CMD能夠存儲(chǔ)的數(shù)據(jù)格式,并對(duì)其可行性與效率做了一定探索,給出了基于CMD存儲(chǔ)方案的圖數(shù)據(jù)存儲(chǔ)方法與基本操作。這是一個(gè)全新的圖數(shù)據(jù)存儲(chǔ)模型,,相比于之前的圖數(shù)據(jù)存儲(chǔ)模型,它減弱了點(diǎn)的重要性而更關(guān)注于邊的屬性,使基于邊的查詢(xún)的速度得以大大提升。 對(duì)于CMD存儲(chǔ)方法在高維數(shù)據(jù)與大規(guī)模集群上會(huì)遇到的一些難題,我們給出了一些改進(jìn)方案。我們提出的屬性分組方案,使屬性有層次的進(jìn)行劃分,解決了原始CMD在面對(duì)高維數(shù)據(jù)會(huì)產(chǎn)生大量碎片的問(wèn)題。我們提出的節(jié)點(diǎn)分組方案,也解決了當(dāng)CMD部署在大規(guī)模集群上會(huì)使數(shù)據(jù)劃分過(guò)于零散而網(wǎng)絡(luò)通訊代價(jià)激增的問(wèn)題。
【關(guān)鍵詞】:CMD 多路不等值連接操作 圖數(shù)據(jù)模型 分布式
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP311.13;TP333
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 第1章 緒論9-16
- 1.1 課題背景及研究的目的和意義9-10
- 1.2 大數(shù)據(jù)存儲(chǔ)與分析現(xiàn)狀研究10-14
- 1.2.1 傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)11
- 1.2.2 NoSQL 數(shù)據(jù)庫(kù)11-13
- 1.2.3 MapReduce 編程模型13-14
- 1.3 本文的主要研究?jī)?nèi)容14-15
- 1.4 本文的組織結(jié)構(gòu)15-16
- 第2章 基于 CMD 的多路不等值連接操作16-38
- 2.1 多路不等值連接操作16-18
- 2.2 CMD 存儲(chǔ)方法18-22
- 2.2.1 分布式 CMD 存儲(chǔ)方法18-20
- 2.2.2 連接操作相關(guān)概念20-22
- 2.3 基于 CMD 存儲(chǔ)方法的多路不等值連接操作算法22-32
- 2.3.1 代價(jià)模型23-26
- 2.3.2 連接操作指導(dǎo)向量26-27
- 2.3.3 分布式連接操作算法27-29
- 2.3.4 正確性證明29-31
- 2.3.5 時(shí)間復(fù)雜度分析31-32
- 2.4 實(shí)驗(yàn)結(jié)果及分析32-36
- 2.4.1 實(shí)驗(yàn)環(huán)境32-34
- 2.4.2 實(shí)驗(yàn)結(jié)果34-36
- 2.5 本章小結(jié)36-38
- 第3章 基于 CMD 的圖數(shù)據(jù)存儲(chǔ)與查詢(xún)38-51
- 3.1 圖數(shù)據(jù)存儲(chǔ)計(jì)算模型38-41
- 3.1.1 Pregel39-40
- 3.1.2 GraphLab40-41
- 3.1.3 GBase41
- 3.2 基于 CMD 的圖數(shù)據(jù)存儲(chǔ)41-44
- 3.2.1 以邊為中心42
- 3.2.2 存儲(chǔ)模型42-44
- 3.3 基于 CMD 的圖數(shù)據(jù)查詢(xún)44-47
- 3.3.1 K 近鄰查詢(xún)44-46
- 3.3.2 用戶(hù)指定的導(dǎo)出子圖查詢(xún)46-47
- 3.3.3 用戶(hù)指定的 K 核查詢(xún)47
- 3.4 實(shí)驗(yàn)結(jié)果及分析47-50
- 3.4.1 實(shí)驗(yàn)環(huán)境48
- 3.4.2 實(shí)驗(yàn)數(shù)據(jù)48
- 3.4.3 實(shí)驗(yàn)結(jié)果及分析48-50
- 3.5 本章小結(jié)50-51
- 第4章 CMD 在高維數(shù)據(jù)和大規(guī)模集群的擴(kuò)展51-57
- 4.1 CMD 存儲(chǔ)方法的一些不足51-52
- 4.1.1 高維數(shù)據(jù)51-52
- 4.1.2 大規(guī)模集群52
- 4.2 高維數(shù)據(jù)的解決方案52-53
- 4.3 大規(guī)模集群的解決方案53-54
- 4.4 實(shí)驗(yàn)結(jié)果及分析54-56
- 4.4.1 實(shí)驗(yàn)環(huán)境54
- 4.4.2 實(shí)驗(yàn)結(jié)果54-56
- 4.5 本章小結(jié)56-57
- 結(jié)論57-58
- 參考文獻(xiàn)58-62
- 攻讀碩士學(xué)位期間發(fā)表的論文62-64
- 致謝64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 李建中;一種并行數(shù)據(jù)庫(kù)的動(dòng)態(tài)多維數(shù)據(jù)分布方法[J];軟件學(xué)報(bào);1999年09期
2 李建中,都薇;并行數(shù)據(jù)庫(kù)上的并行CMD-Join算法[J];軟件學(xué)報(bào);1998年04期
本文關(guān)鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)存儲(chǔ)與查詢(xún)的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):444987
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/444987.html
最近更新
教材專(zhuān)著