Hadoop架構(gòu)下海量空間數(shù)據(jù)存儲(chǔ)與管理
本文關(guān)鍵詞:Hadoop架構(gòu)下海量空間數(shù)據(jù)存儲(chǔ)與管理 出處:《武漢大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 海量空間數(shù)據(jù) 分布式索引 云計(jì)算 R-樹索引
【摘要】:隨著地理信息產(chǎn)業(yè)的飛速發(fā)展,作為GIS血液的地理空間數(shù)據(jù)正在隨著指數(shù)級(jí)的速率增長,使得空間數(shù)據(jù)的檢索、計(jì)算及分析等操作的難度不斷加大,并且其應(yīng)用到GIS的工作領(lǐng)域范圍也在不斷擴(kuò)張,空間數(shù)據(jù)精度需求不斷增大,導(dǎo)致海量空間數(shù)據(jù)的存儲(chǔ)管理難度一再提升,迫切需要新的方法和技術(shù)來解決該問題。2005年開始Hadoop分布式系統(tǒng)開源技術(shù)迅速發(fā)展,其主要的兩項(xiàng)技術(shù)HDFS和MapReduce可以為地理空間數(shù)據(jù)的分布式存儲(chǔ)及并行計(jì)算處理提供技術(shù)支撐,為解決上述問題提供了一條新的思路。本文深入研究了地理空間數(shù)據(jù)的常見數(shù)據(jù)存儲(chǔ)模式和數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),針對(duì)Hadoop分布式開源平臺(tái)中的分布式文件系統(tǒng)HDFS存儲(chǔ)需求設(shè)計(jì)了非結(jié)構(gòu)化空間數(shù)據(jù)存儲(chǔ)模式,以便海量空間數(shù)據(jù)進(jìn)行分布式存儲(chǔ),分散計(jì)算機(jī)硬盤及處理器的壓力。同時(shí)為將不同來源、不同格式、不同數(shù)據(jù)結(jié)構(gòu)的地理空間數(shù)據(jù)統(tǒng)一存儲(chǔ)在HDFS中,設(shè)計(jì)了統(tǒng)一化的數(shù)據(jù)轉(zhuǎn)換接口。當(dāng)前,空間數(shù)據(jù)索引的研究大都是針對(duì)單機(jī)建立的索引,很少有分布式存儲(chǔ)空間索引研究。存儲(chǔ)在HDFS中的空間數(shù)據(jù)完全無序,并且分布散亂,對(duì)空間數(shù)據(jù)的檢索需要在集群中的每一個(gè)節(jié)點(diǎn)進(jìn)行遍歷,才能檢索到用戶所需要的空間數(shù)據(jù)。因此本文針對(duì)幾種不同的數(shù)據(jù)劃分算法深入研究,找出了適合海量空間數(shù)據(jù)索引管理的STR樹索引,建立了數(shù)據(jù)劃分—局部索引—全局索引的STR樹空間索引機(jī)制。通過MapReduce并行處理框架對(duì)索引進(jìn)行分布式計(jì)算,并在最后Reduce階段將結(jié)果進(jìn)行歸并以返回給用戶,優(yōu)化了數(shù)據(jù)檢索技術(shù),大大提高了數(shù)據(jù)檢索的效率。
[Abstract]:With the rapid development of geographic information industry, the geospatial data as GIS blood is increasing with the exponential rate, which makes the retrieval, calculation and analysis of spatial data increasingly difficult. And its application to the scope of GIS work is also expanding, spatial data accuracy requirements continue to increase, resulting in massive spatial data storage and management difficulties. New methods and technologies are urgently needed to solve this problem. In 2005, Hadoop distributed system open source technology developed rapidly. The two main technologies, HDFS and MapReduce, can provide technical support for distributed storage and parallel computing of geospatial data. It provides a new way to solve the above problems. This paper deeply studies the common data storage mode and data storage structure of geospatial data. An unstructured spatial data storage model is designed to meet the storage requirements of distributed file system (HDFS) in the Hadoop distributed open source platform in order to store large amounts of spatial data in distributed storage. Distributed computer hard disk and processor pressure. At the same time for different sources, different formats, different data structure of geospatial data stored in HDFS, designed a unified data conversion interface. Most of the research on spatial data index is based on single machine. There are few distributed storage spatial indexes. The spatial data stored in HDFS is completely disordered and scattered. Spatial data retrieval needs to traverse every node in the cluster in order to retrieve the spatial data required by users. Find out the STR tree index which is suitable for the massive spatial data index management. The STR tree spatial index mechanism of data partitioning, local index and global index is established, and the distributed computation of the index is carried out through the MapReduce parallel processing framework. In the final stage of Reduce, the result is merged to return to the user, the data retrieval technology is optimized, and the efficiency of data retrieval is greatly improved.
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:P208
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王凱;曹建成;王乃生;郭朝陽;張哲;;Hadoop支持下的地理信息大數(shù)據(jù)處理技術(shù)初探[J];測繪通報(bào);2015年10期
2 朱文德;王文靖;黃志英;李景文;;基于Hadoop的地理實(shí)體對(duì)象化存儲(chǔ)方法[J];測繪與空間地理信息;2015年05期
3 鮑宗豪;宋貴倫;;大數(shù)據(jù)對(duì)社會(huì)治理帶來的沖擊與變革[J];決策探索(下半月);2014年06期
4 馮鈞;任鋒;唐志賢;;基于Hadoop的QR樹索引方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年12期
5 劉義;陳犖;景寧;熊偉;;基于R-樹索引的Map-Reduce空間連接聚集操作[J];國防科技大學(xué)學(xué)報(bào);2013年01期
6 余冬梅;;空間數(shù)據(jù)索引與查詢的研究[J];計(jì)算機(jī)與數(shù)字工程;2011年11期
7 李靜;王冬利;;淺析空間數(shù)據(jù)庫[J];科技信息;2010年28期
8 陳珍珍;;云計(jì)算及安全性分析[J];電腦知識(shí)與技術(shù);2010年22期
9 陳占龍;吳信才;謝忠;馬麗娜;;GSHR-Tree:一種基于動(dòng)態(tài)空間槽和哈希表的網(wǎng)格環(huán)境下的空間索引樹[J];地球科學(xué)(中國地質(zhì)大學(xué)學(xué)報(bào));2010年03期
10 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期
相關(guān)博士學(xué)位論文 前7條
1 章瑞;云計(jì)算服務(wù)的定價(jià)策略研究[D];東華大學(xué);2014年
2 范建永;基于Hadoop的云GIS若干關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2013年
3 劉曉茜;云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 張澤寶;空間數(shù)據(jù)庫的索引技術(shù)研究[D];哈爾濱工程大學(xué);2009年
5 韋亞星;基于數(shù)據(jù)網(wǎng)格的地理空間信息協(xié)作共享系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
6 陳飛翔;移動(dòng)空間信息服務(wù)關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2006年
7 景東升;基于本體的地理空間信息語義表達(dá)和服務(wù)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2005年
相關(guān)碩士學(xué)位論文 前10條
1 李雷;海量復(fù)雜結(jié)構(gòu)數(shù)據(jù)計(jì)算方法的應(yīng)用研究[D];南京郵電大學(xué);2016年
2 劉松;基于分布式的海量圖片數(shù)據(jù)存儲(chǔ)系統(tǒng)的研究與設(shè)計(jì)[D];深圳大學(xué);2016年
3 馬磊;一種基于HDFS的分布式多級(jí)R樹空間索引研究[D];中國測繪科學(xué)研究院;2016年
4 宋建林;K-means聚類算法的改進(jìn)研究[D];安徽大學(xué);2016年
5 王瑞松;大數(shù)據(jù)環(huán)境下時(shí)空多維數(shù)據(jù)可視化研究[D];浙江大學(xué);2016年
6 李運(yùn)興;基于R*的分布式空間索引算法研究[D];河南大學(xué);2015年
7 崔峰峰;基于Hadoop的數(shù)字博物館構(gòu)建研究[D];西北師范大學(xué);2015年
8 吳學(xué)饒;云計(jì)算環(huán)境下大GML空間數(shù)據(jù)并行存取關(guān)鍵技術(shù)研究[D];江西理工大學(xué);2015年
9 吳賓;地理空間數(shù)據(jù)集的多級(jí)格網(wǎng)索引研究與應(yīng)用[D];電子科技大學(xué);2014年
10 夏銳;基于Hadoop的VGI矢量空間數(shù)據(jù)管理方法研究[D];南京師范大學(xué);2014年
,本文編號(hào):1356077
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1356077.html