面向海量天文數(shù)據(jù)的分布式存儲引擎的研究
發(fā)布時間:2017-10-27 04:06
本文關(guān)鍵詞:面向海量天文數(shù)據(jù)的分布式存儲引擎的研究
更多相關(guān)文章: 海量天文數(shù)據(jù) 分布式存儲 位圖索引 OrangeFS FastBit 數(shù)據(jù)布局
【摘要】:隨著天文觀測設(shè)備和技術(shù)的進(jìn)步,天文觀測數(shù)據(jù)規(guī)模的迅速增長使得如何存儲海量觀測數(shù)據(jù)以及如何能夠迅速從中獲取想要的信息成為難題。傳統(tǒng)單節(jié)點的文件系統(tǒng)和關(guān)系型數(shù)據(jù)庫在處理海量天文數(shù)據(jù)方面的性能無法讓人接受。因此,設(shè)計一套針對海量天文數(shù)據(jù)處理的分布式存儲引擎便顯得十分的必要和重要。 天文數(shù)據(jù)可以分為星表數(shù)據(jù)和星圖數(shù)據(jù),這兩種數(shù)據(jù)有不同的格式和應(yīng)用場景。本文針對天文星表和星圖的特點,分別設(shè)計了兩種分布式存儲方案,進(jìn)而加快對這兩種數(shù)據(jù)的存取。星圖數(shù)據(jù)采用分布式文件系統(tǒng)來存取,本文基于星圖數(shù)據(jù)的特點首先提出了混合數(shù)據(jù)訪問模型以減輕分布式文件系統(tǒng)中的網(wǎng)絡(luò)開銷,然后在開源分布式文件系統(tǒng)OrangeFS上實現(xiàn)了該模型。星表數(shù)據(jù)則采用基于位圖索引的列式存儲引擎FastBit,本文針對單節(jié)點版本的FastBit在處理海量天文數(shù)據(jù)時會遇到的內(nèi)存問題,設(shè)計并實現(xiàn)了FastBit的分布式數(shù)據(jù)存儲引擎,提出了FastBit的分布式數(shù)據(jù)劃分算法以及基于SQL分析的并行查詢算法。 本文主要分為兩部分,第一部分首先分析了分布式文件系統(tǒng)中客戶端節(jié)點在不同文件大小與不同數(shù)據(jù)規(guī)模下的吞吐率瓶頸,并根據(jù)天文星圖的特征提出了混合數(shù)據(jù)訪問模型。從模型的意義和目的角度,對其進(jìn)行了分析和介紹。接著描述了模型的原理和流程,以及如何將該模型應(yīng)用到實際的OrangeFS分布式文件系統(tǒng)中。通過benchmark以及真實天文應(yīng)用的測試,驗證了采用該模型的分布式存儲對天文星圖讀寫的加速效果。 第二部分首先分析傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理海量天文星表數(shù)據(jù)時所存在的問題,并介紹了基于位圖索引的列式存儲引擎FastBit以及它在處理海量天文數(shù)據(jù)時所存在的內(nèi)存問題。然后提出了FastBit的分布式數(shù)據(jù)劃分算法以及基于SQL分析的并行查詢算法,描述了FastBit分布式存儲的整體架構(gòu),最后通過天文星表數(shù)據(jù)進(jìn)行實驗驗證,,并對實驗結(jié)果進(jìn)行了性能分析。
【關(guān)鍵詞】:海量天文數(shù)據(jù) 分布式存儲 位圖索引 OrangeFS FastBit 數(shù)據(jù)布局
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-12
- 1.1 課題背景9-10
- 1.2 研究意義10
- 1.3 研究內(nèi)容和創(chuàng)新10-11
- 1.4 論文結(jié)構(gòu)11-12
- 第二章 分布式存儲和天文數(shù)據(jù)概述12-19
- 2.1 現(xiàn)代存儲系統(tǒng)概述12-15
- 2.1.1 傳統(tǒng)文件系統(tǒng)13-14
- 2.1.2 傳統(tǒng)關(guān)系型數(shù)據(jù)庫14-15
- 2.2 分布式存儲系統(tǒng)和 NoSQL 概述15-17
- 2.2.1 分布式文件系統(tǒng)15-16
- 2.2.2 NoSQL 數(shù)據(jù)庫16-17
- 2.3 天文數(shù)據(jù)概述17-19
- 第三章 分布式文件系統(tǒng)吞吐率的分析19-24
- 3.1 分布式文件系統(tǒng)的整體架構(gòu)19-20
- 3.2 國內(nèi)外分布式文件系統(tǒng)的研究現(xiàn)狀20-21
- 3.3 分布式文件系統(tǒng)的數(shù)據(jù)布局策略21
- 3.4 分布式文件系統(tǒng)客戶端節(jié)點的吞吐率分析21-24
- 第四章 本地數(shù)據(jù)訪問模型的設(shè)計與實現(xiàn)24-36
- 4.1 共享內(nèi)存機(jī)制24
- 4.2 混合數(shù)據(jù)訪問模型24-25
- 4.3 混合數(shù)據(jù)訪問模型在 OrangeFS 上的應(yīng)用25-26
- 4.4 NUDA 架構(gòu)26-27
- 4.5 基于混合數(shù)據(jù)訪問模型的 OrangeFS 讀寫數(shù)據(jù)流程27-28
- 4.6 實驗評估28-36
- 4.6.1 實驗環(huán)境28-29
- 4.6.2 基于 IOzone 的實驗分析29-33
- 4.6.3 基于 Montage 工作流的實驗分析33-36
- 第五章 基于 FastBit 的海量星表分布式存儲系統(tǒng)的設(shè)計與實現(xiàn)36-49
- 5.1 數(shù)據(jù)庫索引36-39
- 5.1.1 B 樹36-38
- 5.1.2 倒排索引38
- 5.1.3 位圖索引38-39
- 5.2 FastBit 介紹39-43
- 5.2.1 位圖編碼40-41
- 5.2.2 分桶41
- 5.2.3 WAH 位圖壓縮算法41-43
- 5.3 FastBit 分布式存儲方案的設(shè)計與實現(xiàn)43-47
- 5.3.1 SQL43-44
- 5.3.2 Shared-Nothing 體系結(jié)構(gòu)44
- 5.3.3 基于 FastBit 的分布式數(shù)據(jù)存儲44-46
- 5.3.4 基于 FastBit 的分布式數(shù)據(jù)檢索46
- 5.3.5 SABPS 算法的理論分析46-47
- 5.4 實驗結(jié)果與分析47-49
- 第六章 海量天文數(shù)據(jù)分布式存儲系統(tǒng)的總體架構(gòu)49-55
- 6.1 海量天文數(shù)據(jù)分布式存儲系統(tǒng)的架構(gòu)設(shè)計49-55
- 6.1.1 一致性哈希算法49-51
- 6.1.2 系統(tǒng)架構(gòu)和數(shù)據(jù)流向51-53
- 6.1.3 系統(tǒng)可擴(kuò)展性53-54
- 6.1.4 系統(tǒng)可靠性54-55
- 第七章 總結(jié)與展望55-57
- 7.1 全文總結(jié)55-56
- 7.2 研究工作展望56-57
- 參考文獻(xiàn)57-60
- 發(fā)表論文和參加科研情況說明60-61
- 致謝61
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 康書恒;楊子江;;FastBit在流量測量系統(tǒng)中的應(yīng)用[J];數(shù)字通信;2012年01期
本文編號:1101826
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1101826.html
最近更新
教材專著