面向海量空間數(shù)據(jù)并行高效處理的存儲(chǔ)模式設(shè)計(jì)與研究
發(fā)布時(shí)間:2017-03-22 09:01
本文關(guān)鍵詞:面向海量空間數(shù)據(jù)并行高效處理的存儲(chǔ)模式設(shè)計(jì)與研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著現(xiàn)代地理空間信息技術(shù)的快速發(fā)展,帶來了空間數(shù)據(jù)集規(guī)模的急劇膨脹。面對(duì)如此海量和復(fù)雜的空間數(shù)據(jù)集,迫切需要一種能夠?qū)ζ溥M(jìn)行高效的組織、存儲(chǔ)、處理與管理的技術(shù)解決方案。Hadoop提供了海量的數(shù)據(jù)存儲(chǔ)能力和支持并行計(jì)算的編程模型,為實(shí)現(xiàn)海量空間數(shù)據(jù)的存儲(chǔ)與計(jì)算一體化提供強(qiáng)大的平臺(tái)支持。本文基于開源Hadoop軟件框架對(duì)海量空間數(shù)據(jù)的高效存儲(chǔ)管理開展了以下研究:(1)深入分析了當(dāng)前海量空間數(shù)據(jù)的存儲(chǔ)管理方法,總結(jié)了每種方法的優(yōu)缺點(diǎn),為下一步研究提供堅(jiān)實(shí)的理論依據(jù)。詳細(xì)介紹了Hadoop架構(gòu)體系的三大核心技術(shù),分布式文件系統(tǒng)HDFS,并行編程模型MapReduce和分布式數(shù)據(jù)庫HBase。(2)深入研究了HDFS的文件存儲(chǔ)機(jī)制,結(jié)合簡單矢量數(shù)據(jù)結(jié)構(gòu),設(shè)計(jì)了適合在HDFS中存儲(chǔ)矢量數(shù)據(jù)的存儲(chǔ)模式,在此基礎(chǔ)上實(shí)現(xiàn)最基本的矢量空間操作。針對(duì)傳統(tǒng)射線法不適合批量點(diǎn)包含判斷的問題,同時(shí)為避免射線法的大量求交運(yùn)算,對(duì)射線法進(jìn)行改進(jìn),并通過MapReduce并行編程模型加以實(shí)現(xiàn)。最后,利用分布式數(shù)據(jù)庫HBase管理經(jīng)MapReduce編程模型處理輸出的矢量數(shù)據(jù)。(3)通過比較現(xiàn)有Hadoop小文件存儲(chǔ)解決方法,設(shè)計(jì)了一種基于MapFile序列文件技術(shù)的海量柵格數(shù)據(jù)存儲(chǔ)模式,實(shí)現(xiàn)海量柵格數(shù)據(jù)在HDFS的高效存儲(chǔ),并利用HBase數(shù)據(jù)庫表管理海量柵格數(shù)據(jù),提高了海量柵格數(shù)據(jù)的存儲(chǔ)與讀寫效率。為實(shí)現(xiàn)圖像的并行聚類,通過MapReduce編程模型對(duì)K均值聚類算法進(jìn)行并行化設(shè)計(jì),縮短了聚類時(shí)間。(4)搭建Hadoop計(jì)算平臺(tái),開展了基于分布式集群的海量點(diǎn)包含性測(cè)試、海量柵格數(shù)據(jù)存儲(chǔ)性能測(cè)試、圖像聚類等實(shí)驗(yàn),證明本文設(shè)計(jì)的存儲(chǔ)模式能夠?yàn)楹A靠臻g數(shù)據(jù)的高效處理提供支持。
【關(guān)鍵詞】:海量空間數(shù)據(jù) Hadoop 集群 并行計(jì)算 K均值
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:P208;P209
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-14
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 論文研究內(nèi)容12
- 1.4 論文總體結(jié)構(gòu)12-14
- 第二章 Hadoop總體架構(gòu)分析14-30
- 2.1 分布式文件系統(tǒng)HDFS14-19
- 2.1.1 HDFS設(shè)計(jì)目標(biāo)14-15
- 2.1.2 HDFS的體系結(jié)構(gòu)分析15-16
- 2.1.3 HDFS可靠性機(jī)制16-19
- 2.2 并行編程模型MapReduce19-22
- 2.2.1 MapReduce函數(shù)設(shè)計(jì)19-20
- 2.2.2 MapReduce體系結(jié)構(gòu)20-21
- 2.2.3 MapReduce執(zhí)行流程21-22
- 2.3 分布式數(shù)據(jù)庫HBase22-28
- 2.3.1 HBase體系架構(gòu)22-26
- 2.3.2 HBase數(shù)據(jù)存儲(chǔ)模型26-28
- 2.4 Hadoop相關(guān)技術(shù)28-29
- 2.5 本章小結(jié)29-30
- 第三章 基于Hadoop的矢量數(shù)據(jù)管理30-44
- 3.1 矢量數(shù)據(jù)概述30-31
- 3.1.1 矢量數(shù)據(jù)結(jié)構(gòu)30-31
- 3.1.2 矢量數(shù)據(jù)特點(diǎn)31
- 3.2 基于HDFS的矢量數(shù)據(jù)存儲(chǔ)模式31-34
- 3.2.1 矢量數(shù)據(jù)模型31-32
- 3.2.2 矢量數(shù)據(jù)key/value存儲(chǔ)模式設(shè)計(jì)32-34
- 3.3 基于MapReduce的矢量空間操作34-36
- 3.3.1 MapReduce矢量數(shù)據(jù)處理流程34-35
- 3.3.2 基本空間操作算法35-36
- 3.3.3 基于MapReduce空間操作實(shí)現(xiàn)36
- 3.4 一種判斷海量點(diǎn)在多邊形內(nèi)的改進(jìn)射線法36-42
- 3.4.1 傳統(tǒng)射線法37-38
- 3.4.2 海量點(diǎn)在多邊形內(nèi)的改進(jìn)射線法38-42
- 3.4.3 基于MapReduce的算法設(shè)計(jì)42
- 3.5 HBase矢量數(shù)據(jù)管理42-43
- 3.6 本章小結(jié)43-44
- 第四章 基于Hadoop的海量柵格數(shù)據(jù)管理44-56
- 4.1 柵格數(shù)據(jù)概述44-46
- 4.1.1 柵格數(shù)據(jù)結(jié)構(gòu)44-45
- 4.1.2 編碼方式45
- 4.1.3 主要特點(diǎn)45-46
- 4.2 基于HDFS的海量柵格數(shù)據(jù)存儲(chǔ)模式46-50
- 4.2.1 小文件問題46
- 4.2.2 小文件處理技術(shù)46-48
- 4.2.3 基于MapFile海量柵格數(shù)據(jù)存儲(chǔ)模式設(shè)計(jì)48-50
- 4.3 基于MapReduce的并行K均值圖像聚類50-55
- 4.3.1 K均值聚類算法分析50-51
- 4.3.2 基于MapReduce的K均值圖像聚類流程51-52
- 4.3.3 K均值圖像聚類設(shè)計(jì)與實(shí)現(xiàn)52-55
- 4.4 HBase海量柵格數(shù)據(jù)管理55
- 4.5 本章小結(jié)55-56
- 第五章 實(shí)驗(yàn)與結(jié)果分析56-67
- 5.1 實(shí)驗(yàn)環(huán)境56-57
- 5.1.1 節(jié)點(diǎn)配置56
- 5.1.2 Hadoop集群配置56-57
- 5.2 結(jié)果分析57-66
- 5.3 本章小結(jié)66-67
- 第六章 總結(jié)與展望67-69
- 6.1 論文總結(jié)67-68
- 6.2 展望68-69
- 致謝69-70
- 參考文獻(xiàn)70-73
- 攻讀研究生學(xué)位期間取得的成果73-74
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 陳濤;肖儂;劉芳;付長勝;;基于聚類和一致Hash的數(shù)據(jù)布局算法[J];軟件學(xué)報(bào);2010年12期
2 周婷;張君瑛;羅成;;基于Hadoop的K-means聚類算法的實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年07期
本文關(guān)鍵詞:面向海量空間數(shù)據(jù)并行高效處理的存儲(chǔ)模式設(shè)計(jì)與研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):261203
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/261203.html
最近更新
教材專著