基于Spark的空間數(shù)據(jù)平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Spark的空間數(shù)據(jù)平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 空間數(shù)據(jù) Spark 空間查詢
【摘要】:空間數(shù)據(jù),也被稱為地理數(shù)據(jù)?臻g數(shù)據(jù)是可以由地理坐標(biāo)系位置表示的感衛(wèi)星監(jiān)測(cè)產(chǎn)生的地理信息,如河流,湖泊,城鎮(zhèn)。移動(dòng)通信網(wǎng)絡(luò)中的手機(jī)通話信息,城交通網(wǎng)絡(luò)中的安裝有GPS的車輛位置信息,社交網(wǎng)絡(luò)中產(chǎn)生的帶有位置的信息。充分分析和利用這些空間數(shù)據(jù)將會(huì)在環(huán)境處理,通信安全和交通規(guī)劃等領(lǐng)域具有重要作用。物理對(duì)象的信息。當(dāng)前,眾多行業(yè)持續(xù)不斷地產(chǎn)生了大量的空間數(shù)據(jù)。隨著大量有價(jià)值的空間數(shù)據(jù)的產(chǎn)生,使用適應(yīng)于大規(guī)?臻g數(shù)據(jù)處理的工具對(duì)空間數(shù)據(jù)進(jìn)行分析與處理的需求越來越迫切。但是,當(dāng)前的關(guān)系型數(shù)據(jù)庫技術(shù)和分布式計(jì)算系統(tǒng)卻并不適合于處理空間數(shù)據(jù)?臻g數(shù)據(jù)索引結(jié)構(gòu)不適合用關(guān)系數(shù)據(jù)庫表達(dá),從而導(dǎo)致關(guān)系型數(shù)據(jù)庫處理空間數(shù)據(jù)查詢操作效率低下。由于MapReduce編程模型的缺點(diǎn),現(xiàn)有的基于HDFS和MapReduce的分布式數(shù)據(jù)分析框架處理交互式查詢和迭代操作時(shí)速度較慢。MapReduce模型使用如下方式對(duì)數(shù)據(jù)進(jìn)行處理:首先從集群磁盤中讀取數(shù)據(jù)到內(nèi)存,對(duì)執(zhí)行計(jì)算,然后將結(jié)果從內(nèi)存寫到集群磁盤,作為下次計(jì)算的輸入。每次計(jì)算過程產(chǎn)生的冗余磁盤讀寫開銷使得基于MapReduce的算法實(shí)現(xiàn)存在嚴(yán)重的性能問題,無法滿足用戶對(duì)大規(guī)?臻g數(shù)據(jù)實(shí)時(shí)分析的要求。Apache Spark是一個(gè)新興的集群計(jì)算框架,與MapReduce框架相比,Spark提供內(nèi)存迭代計(jì)算功能。計(jì)算數(shù)據(jù)可以常駐內(nèi)存而省去磁盤I/O時(shí)間。在交互式查詢環(huán)境中,比目前最流行的并行計(jì)算工具Hadoop快100多倍。隨著Spark框架不斷的更新與發(fā)展,研究人員開始通過擴(kuò)展Spark實(shí)現(xiàn)對(duì)空間數(shù)據(jù)的分布式查詢處理。GeoSpark和SpatialSpark是目前為止最先進(jìn)的系統(tǒng)。他們通過擴(kuò)展Spark實(shí)現(xiàn)了空間數(shù)據(jù)的分布式存儲(chǔ)的查詢操作。這兩個(gè)系統(tǒng)的系統(tǒng)框架類似,都主要由三層組成:空間數(shù)據(jù)存儲(chǔ)層,數(shù)據(jù)索引層和查詢處理層,空間數(shù)據(jù)存儲(chǔ)層實(shí)現(xiàn)對(duì)大規(guī)?臻g數(shù)據(jù)的分布式存儲(chǔ)。數(shù)據(jù)索引層將傳統(tǒng)的空間索引技術(shù)應(yīng)用于分布式存儲(chǔ)的空間數(shù)據(jù)集群。查詢處理層對(duì)用戶提供空間查詢操作接口,通過索引層和存儲(chǔ)層,實(shí)現(xiàn)空間數(shù)據(jù)分析。提供的查詢操作包含區(qū)域查詢,空間關(guān)聯(lián)查詢和空間k最近鄰查詢。但是GeoSpark和SpatialSpark在設(shè)計(jì)上仍然存在一系列缺點(diǎn),導(dǎo)致最終的查詢性能不高。本文,我們通過全面改進(jìn)上述系統(tǒng)架構(gòu),分別使用了新的空間數(shù)據(jù)分區(qū)策略,索引結(jié)構(gòu)和查詢處理技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)新的基于Spark的空間數(shù)據(jù)計(jì)算系統(tǒng)Spark-GIS,全面的實(shí)驗(yàn)表明,Spark-GIS比上述系統(tǒng)具有更高的查詢性能。Spark-GIS的主要?jiǎng)?chuàng)新包括以下三個(gè)方面:1.在空間數(shù)據(jù)存儲(chǔ)層,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)新的空間數(shù)據(jù)分區(qū)策略,使用新的分區(qū)策略實(shí)現(xiàn)的空間數(shù)據(jù)分布式存儲(chǔ)為上層的空間數(shù)據(jù)查詢提供了更好的支持,確保空間數(shù)據(jù)查詢時(shí)避免工作負(fù)載均衡問題。2.在空間數(shù)據(jù)索引層,設(shè)計(jì)并實(shí)現(xiàn)了一種基于Voronoi圖的R樹空間索引結(jié)構(gòu),與R樹相比,在未降低系統(tǒng)空間查詢性能同時(shí),大大減少生成空間索引結(jié)構(gòu)的時(shí)間和空間索引結(jié)構(gòu)的大小。3.在空間數(shù)據(jù)分析層,通過結(jié)合改進(jìn)的空間數(shù)據(jù)分布式存儲(chǔ)策略,空間索引技術(shù),實(shí)現(xiàn)了基于Spark的并行空間數(shù)據(jù)查詢算法,能夠?yàn)橛脩籼峁┖A扛卟l(fā)的空間數(shù)據(jù)交互式查詢。包括空間區(qū)域查詢,空間聯(lián)接查詢和空間k最近鄰詢。最后,我們對(duì)Spark-GIS,Spark和GeoSpark進(jìn)行了全面的對(duì)比測(cè)試。測(cè)試數(shù)據(jù)是數(shù)量為億級(jí)別的移動(dòng)電話通話記錄數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示Spark-GIS空間查詢操作性能全面優(yōu)于目前為止最先進(jìn)的系統(tǒng)——GeoSpark,尤其在空間區(qū)域查詢和空間聯(lián)接查詢方面,性能比GeoSpark改善了多個(gè)數(shù)量級(jí)。
[Abstract]:Spatial data, also known as geographic data. Spatial data is from the geographical coordinates of the position of said sense satellite monitoring produces geographic information, such as rivers, lakes, cities and towns. In the mobile communication network of mobile phone call information, city traffic network is installed on the vehicle position information of GPS, produced with location information in a social network. The full analysis and use of the spatial data in the environment will play an important role in the field of communication, security and traffic planning. The physical object information. At present, many industries continue to produce a large number of spatial data. Spatial data with a large number of valuable production needs, suitable for use in large scale spatial data tools the processing of spatial data analysis and processing become more and more urgent. However, relational database technology and distributed computing system currently is not suitable for the treatment of air Among the data. Spatial data index structure is not suitable for expression in relational database, resulting in relational database processing spatial data query efficiency. The MapReduce programming model, the existing HDFS and MapReduce distributed data analysis framework based on the interactive processing model of.MapReduce slow speed of query and iterative operation when using the following method for data processing: first to read data into memory from the cluster disk, to perform a calculation, then the results from the cluster disk memory writes, as the next calculation input. Each calculation process produces redundant disk read and write overhead that implements MapReduce algorithm based on serious performance problems, unable to meet user requirements for real-time analysis of large scale spatial data.Apache Spark is an emerging cluster computing framework, compared with the MapReduce framework, Spark provides internal storage The iterative calculation function. The calculation data can be saved to disk I/O memory resident time. In the interactive query environment, calculation tool Hadoop 100 times faster than the parallel current most popular Spark framework. With the constantly updated and development, researchers began by extending Spark to realize distributed spatial data query processing on.GeoSpark and SpatialSpark is the current system so far the most advanced. They through extending Spark to realize distributed data storage query system framework of these two systems are similar, mainly consists of three layers: the spatial data storage layer, data layer index and query processing layer, realize the distributed storage of large scale spatial data spatial data index data storage layer. The layer will be traditional spatial indexing technology used in distributed storage of spatial data. Cluster processing layer provides the user with the query spatial query operation In the index layer and storage layer, realize spatial data analysis. The query contains range queries, nearest neighbor queries of spatial query and spatial correlation of K. But GeoSpark and SpatialSpark still has a series of shortcomings in design, leading to final query performance is not high. In this paper, we improved the system through a comprehensive architecture. Using spatial data partition strategy, index structure and query processing technology, the design and implementation of a new computing system Spark-GIS based on Spark spatial data, comprehensive experiments to show the main innovation of Spark-GIS has a better performance than the.Spark-GIS query of the system includes the following three aspects: 1. in spatial data the storage layer, the design and implementation of a new spatial data partitioning strategy, spatial data distributed storage using the partition strategy of new implementation for the upper spatial data query To provide better support, to avoid the problem of work load balance in.2. spatial data index that spatial data query, the design and implementation of a R tree spatial index structure based on Voronoi, compared with the R tree, the query performance and reduce system in space, greatly reduce the generation time and the spatial index structure of spatial index the size of the structure of.3. in spatial data analysis layer, by combining spatial data distributed storage strategy improved, spatial indexing technology, realize the parallel query algorithm based on Spark spatial data, high concurrency can provide massive spatial data interactive query for users. Including spatial query, spatial join query and nearest neighbor query. Finally K space we, on Spark-GIS, Spark and GeoSpark are tested comprehensively. The test data is the mobile phone number to billion level call records data. The experimental results It shows that the performance of Spark-GIS spatial query operation is much better than the most advanced system so far -- GeoSpark, especially in spatial area query and spatial join query, its performance is improved by more than GeoSpark.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:P208;TP311.52
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉瑜,張毅,鄔倫;空間數(shù)據(jù)工程理論框架研究[J];地理與地理信息科學(xué);2003年01期
2 陳俊杰,鄒友峰;GIS空間數(shù)據(jù)質(zhì)量評(píng)價(jià)軟件設(shè)計(jì)探討[J];礦山測(cè)量;2005年03期
3 洪志全,葉琳,辛俊,張于峰;GIS空間數(shù)據(jù)索引技術(shù)研究與實(shí)現(xiàn)[J];物探化探計(jì)算技術(shù);2005年01期
4 胡圣武;張光勝;王宏濤;;空間數(shù)據(jù)建庫研究[J];地球科學(xué)與環(huán)境學(xué)報(bào);2007年02期
5 李偉芬;丁靜;苗卿;;空間數(shù)據(jù)多尺度研究綜述[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年13期
6 王慶光;;GIS空間數(shù)據(jù)質(zhì)量研究[J];水利科技與經(jīng)濟(jì);2007年05期
7 丁濱;夏洪山;;GIS空間數(shù)據(jù)索引技術(shù)研究[J];江蘇航空;2007年04期
8 譚紅霞;;GIS空間數(shù)據(jù)的質(zhì)量探討[J];山東國土資源;2009年06期
9 廖俊國,劉興權(quán);淺析GIS空間數(shù)據(jù)的誤差來源及處理方法[J];江蘇測(cè)繪;1998年03期
10 廖俊國,劉興權(quán);淺析GIS空間數(shù)據(jù)的誤差來源及處理方法[J];四川測(cè)繪;1998年03期
相關(guān)會(huì)議論文 前10條
1 汪建光;;空間數(shù)據(jù)自動(dòng)批處理技術(shù)研究[A];2009全國測(cè)繪科技信息交流會(huì)暨首屆測(cè)繪博客征文頒獎(jiǎng)?wù)撐募痆C];2009年
2 楊成韞;榮芳;彭子風(fēng);;基于客戶/服務(wù)器結(jié)構(gòu)的空間數(shù)據(jù)分布式處理研究[A];新世紀(jì) 新機(jī)遇 新挑戰(zhàn)——知識(shí)創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展(上冊(cè))[C];2001年
3 陳良剛;王海兵;王宇君;施伯樂;;基于約束的空間數(shù)據(jù)查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
4 陳犖;劉云翔;唐宇;景寧;;基于優(yōu)先圖的空間數(shù)據(jù)應(yīng)用服務(wù)鏈建模方法[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
5 杜紅悅;宮輝力;馮克忠;賈建坤;權(quán)忠生;;應(yīng)急救災(zāi)空間數(shù)據(jù)中心建設(shè)技術(shù)與策略研究[A];第十七屆中國遙感大會(huì)摘要集[C];2010年
6 李諾夫;黎雷;;網(wǎng)絡(luò)環(huán)境下空間數(shù)據(jù)的管理[A];地理空間信息技術(shù)與應(yīng)用——中國科協(xié)2002年學(xué)術(shù)年會(huì)測(cè)繪論文集[C];2002年
7 劉新貴;黃雅娟;;空間數(shù)據(jù)網(wǎng)絡(luò)化獲取與管理初探[A];中國地理信息系統(tǒng)協(xié)會(huì)第三次代表大會(huì)暨第七屆年會(huì)論文集[C];2003年
8 廖佳;;基礎(chǔ)空間數(shù)據(jù)生命周期管理[A];地理空間信息技術(shù)及其應(yīng)用論壇論文集[C];2005年
9 葉榮青;吳曉玲;;福建省基礎(chǔ)空間數(shù)據(jù)管理技術(shù)研究[A];第四屆海峽兩岸GIS發(fā)展研討會(huì)暨中國GIS協(xié)會(huì)第十屆年會(huì)論文集[C];2006年
10 方金云;;空間數(shù)據(jù)虛擬化的實(shí)現(xiàn)技術(shù)研究[A];中國地理信息系統(tǒng)協(xié)會(huì)第九屆年會(huì)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 寧津生 陳軍 晁定波;空間數(shù)據(jù)質(zhì)量的主要內(nèi)涵[N];中國測(cè)繪報(bào);2002年
2 李豐丹;“國家地質(zhì)空間數(shù)據(jù)網(wǎng)格服務(wù)系統(tǒng)”獲發(fā)明專利[N];中國礦業(yè)報(bào);2009年
3 記者 胡其峰;多項(xiàng)空間數(shù)據(jù)成果向社會(huì)開放[N];光明日?qǐng)?bào);2013年
4 孫昭榮;GIS圖窮數(shù)字見[N];中國計(jì)算機(jī)報(bào);2002年
5 寧津生 陳軍 晁定波;空間數(shù)據(jù)的質(zhì)量控制方法[N];中國測(cè)繪報(bào);2002年
6 劉榮梅;中國1∶100萬地質(zhì)圖空間數(shù)據(jù)實(shí)現(xiàn)國際共享[N];中國國土資源報(bào);2014年
7 陳拂曉;空間數(shù)據(jù):“數(shù)字城市”建設(shè)的基礎(chǔ)[N];中國計(jì)算機(jī)報(bào);2002年
8 王東華邋羅建軍;美國空間數(shù)據(jù)一站式服務(wù)系統(tǒng)[N];中國測(cè)繪報(bào);2007年
9 深圳商報(bào)記者 董超文;一部手機(jī)將可“裝”下一座城市[N];深圳商報(bào);2006年
10 中國工程院院士 劉先林;航測(cè)為智慧城市建設(shè)提供空間數(shù)據(jù)[N];中國信息化周報(bào);2014年
相關(guān)博士學(xué)位論文 前10條
1 劉義;大規(guī)模空間數(shù)據(jù)的高性能查詢處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
2 范建永;基于Hadoop的云GIS若干關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2013年
3 馬伯寧;空間數(shù)據(jù)多尺度建模關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
4 劉偉;基于地理本體的空間數(shù)據(jù)服務(wù)發(fā)現(xiàn)與集成[D];中國礦業(yè)大學(xué);2010年
5 陳曉斌;基于網(wǎng)格中間件的空間數(shù)據(jù)訪問與集成技術(shù)[D];解放軍信息工程大學(xué);2012年
6 李世明;林業(yè)空間數(shù)據(jù)平臺(tái)技術(shù)的應(yīng)用示范研究[D];中國林業(yè)科學(xué)研究院;2008年
7 郭加樹;空間數(shù)據(jù)倉的構(gòu)建及應(yīng)用[D];中國石油大學(xué);2007年
8 桑永勝;空間數(shù)據(jù)分析的神經(jīng)計(jì)算方法[D];電子科技大學(xué);2010年
9 劉丹;對(duì)等計(jì)算環(huán)境中的空間數(shù)據(jù)查詢定位研究[D];武漢大學(xué);2011年
10 胡茂勝;基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無縫集成技術(shù)研究[D];中國地質(zhì)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 張明佳;空間數(shù)據(jù)地圖模型的原型設(shè)計(jì)[D];中國地質(zhì)大學(xué)(北京);2015年
2 于海濤;基于AE的油氣田地理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2015年
3 付悅?cè)A;基于概念格的空間數(shù)據(jù)規(guī)則提取[D];江西理工大學(xué);2015年
4 項(xiàng)天宋;非洲綜合資源環(huán)境信息空間可視化系統(tǒng)設(shè)計(jì)與應(yīng)用研究[D];福建師范大學(xué);2015年
5 梁杰超;空間數(shù)據(jù)的訪問控制技術(shù)研究[D];浙江大學(xué);2015年
6 崔洪博;重慶配電網(wǎng)基礎(chǔ)地理信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
7 黃正中;空間環(huán)境數(shù)據(jù)處理及可視化交互技術(shù)研究[D];電子科技大學(xué);2014年
8 李青巖;Android下的移動(dòng)空間數(shù)據(jù)存取方法研究[D];江西理工大學(xué);2015年
9 何拴;基于ArcGIS的黑河中游水資源信息化平臺(tái)研究[D];蘭州大學(xué);2015年
10 李真;海防雷達(dá)實(shí)訓(xùn)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2015年
,本文編號(hào):1404873
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1404873.html