云環(huán)境下圖數(shù)據(jù)存儲與并行聚類研究
本文選題:云存儲 切入點:NoSQL 出處:《福州大學(xué)》2013年碩士論文
【摘要】:如何實現(xiàn)海量空間數(shù)據(jù)高效地存儲管理和在線服務(wù),同時基于這些數(shù)據(jù)挖掘用戶感興趣、有用的地學(xué)知識,成為地學(xué)領(lǐng)域日益關(guān)注的熱點問題。目前空間數(shù)據(jù)云存儲的研究大多集中在柵格數(shù)據(jù)存儲和管理等方面,而針對矢量數(shù)據(jù)云存儲與云服務(wù)領(lǐng)域研究較為零散,同時基于云存儲的空間挖掘也缺乏系統(tǒng)的研究。本文根據(jù)矢量和柵格空間數(shù)據(jù)的不同特點,提出并實現(xiàn)了矢量柵格數(shù)據(jù)一體化的海量空間數(shù)據(jù)分布式云存儲管理與訪問服務(wù)方案,并基于云存儲設(shè)計與實現(xiàn)了一個高效的并行譜聚類挖掘算法。主要研究內(nèi)容和成果如下:1.在綜述云計算、NoSQL數(shù)據(jù)庫與圖計算等相關(guān)領(lǐng)域的國內(nèi)外研究現(xiàn)狀的基礎(chǔ)上,詳細(xì)闡述了空間云存儲與并行聚類的基礎(chǔ)理論。分析了云計算模式的概念和特性以及NoSQL非關(guān)系數(shù)據(jù)庫技術(shù)的起源、類型,分析了圖數(shù)據(jù)庫的數(shù)據(jù)模型、應(yīng)用場景和傳統(tǒng)空間存儲技術(shù)的實現(xiàn)與局限,以及不同并行計算模型的原理、適用場合以及優(yōu)缺點。2.根據(jù)矢量和柵格空間數(shù)據(jù)的不同特點,提出矢量柵格數(shù)據(jù)一體化的海量空間數(shù)據(jù)分布式云存儲管理與訪問服務(wù)方案。在三層式空間數(shù)據(jù)云存儲架構(gòu)基礎(chǔ)上,給出基于NoSQL數(shù)據(jù)庫技術(shù)的柵格和矢量數(shù)據(jù)云存儲的實現(xiàn)策略與方法,并開展了通用數(shù)據(jù)訪問接口的設(shè)計。采用分布式文件系統(tǒng)HDFS存儲柵格數(shù)據(jù),并使用列族數(shù)據(jù)庫HBase對其建立分布式空間索引,而采用滿足ACID約束的分布式圖數(shù)據(jù)庫Neo4J來存儲矢量數(shù)據(jù),并使用R樹建立空間索引。3.探討了基于圖論的空間聚類算法——譜聚類算法原理,通過對比分析算法中不同的子圖劃分方法,采用DiDiC分割算法應(yīng)用于并行圖數(shù)據(jù)空間聚類中。同時結(jié)合并行計算框架MapReduce,提出了空間譜聚類算法流程及其基于MapReduce并行化的實現(xiàn)方法。4.開展了圖數(shù)據(jù)的存儲以及并行聚類的兩個方面的試驗測試。在圖數(shù)據(jù)存儲方面,開展了GeoDAC與PostGIS在矢量數(shù)據(jù)讀寫訪問性能方面的對比測試。結(jié)果表明,雖然GeoDAC沒有獲得寫入性能的加速作用,但其具有PostGIS無法比擬的強大讀取性能。在圖挖掘方面,開展了并行譜聚類算法與單機版譜聚類算法在圖數(shù)據(jù)的挖掘效率對比測試,證明算法并行化具有顯著提升圖數(shù)據(jù)挖掘算法的性能。
[Abstract]:How to realize the efficient storage, management and online service of massive spatial data, and how to mine the interesting and useful geoscience knowledge of users based on these data, At present, the research of spatial data cloud storage is mostly focused on raster data storage and management, but the research on vector data cloud storage and cloud service is scattered. At the same time, space mining based on cloud storage is also lack of systematic research. According to the different characteristics of vector and raster spatial data, A distributed cloud storage management and access service scheme for mass spatial data is proposed and implemented, which integrates vector raster data. An efficient parallel spectral clustering algorithm based on cloud storage is designed and implemented. The main research contents and results are as follows: 1. On the basis of summarizing the research status of cloud computing NoSQL database and graph computing at home and abroad. The basic theory of spatial cloud storage and parallel clustering is described in detail, the concept and characteristics of cloud computing mode and the origin and type of NoSQL non-relational database technology are analyzed, and the data model of graph database is analyzed. The realization and limitation of application scene and traditional space storage technology, as well as the principle of different parallel computing models, the applicable situation and the advantages and disadvantages. 2.According to the different characteristics of vector and raster spatial data, This paper proposes a distributed cloud storage management and access service scheme for massive spatial data based on the integration of vector raster data, which is based on the three-layer spatial data cloud storage architecture. The implementation strategy and method of grid and vector data cloud storage based on NoSQL database technology are presented, and the design of general data access interface is carried out. The distributed file system HDFS is used to store grid data. The column family database HBase is used to build the distributed spatial index, and the distributed graph database Neo4J, which meets the ACID constraints, is used to store vector data. Using R-tree to build spatial index. 3. The principle of spectral clustering algorithm based on graph theory is discussed, and the different subgraph partition methods in the algorithm are compared and analyzed. The DiDiC segmentation algorithm is applied to the spatial clustering of parallel graph data. At the same time, combining with the parallel computing framework MapReduce, the flow of spatial spectral clustering algorithm and its realization method based on MapReduce parallelization are proposed. Test tests on two aspects of clustering. In the case of graph data storage, A comparative test between GeoDAC and PostGIS in vector data read and write access performance is carried out. The results show that although GeoDAC does not achieve the acceleration of write performance, it has a powerful read performance that cannot be compared with PostGIS. The parallel spectral clustering algorithm and the single-machine version spectral clustering algorithm are compared in graph data mining efficiency. It is proved that the parallelization of the algorithm can significantly improve the performance of graph data mining algorithm.
【學(xué)位授予單位】:福州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:P208
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉瑜,張毅,鄔倫;空間數(shù)據(jù)工程理論框架研究[J];地理與地理信息科學(xué);2003年01期
2 李曉印,張友順,楊昕,劉愛利;空間數(shù)據(jù)的“無紙化”管理探討[J];國土資源科技管理;2004年02期
3 ;《空間數(shù)據(jù)系統(tǒng)》[J];航天器工程;2005年01期
4 陳俊杰,鄒友峰;GIS空間數(shù)據(jù)質(zhì)量評價軟件設(shè)計探討[J];礦山測量;2005年03期
5 洪志全,葉琳,辛俊,張于峰;GIS空間數(shù)據(jù)索引技術(shù)研究與實現(xiàn)[J];物探化探計算技術(shù);2005年01期
6 胡圣武;張光勝;王宏濤;;空間數(shù)據(jù)建庫研究[J];地球科學(xué)與環(huán)境學(xué)報;2007年02期
7 李偉芬;丁靜;苗卿;;空間數(shù)據(jù)多尺度研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年13期
8 王慶光;;GIS空間數(shù)據(jù)質(zhì)量研究[J];水利科技與經(jīng)濟;2007年05期
9 丁濱;夏洪山;;GIS空間數(shù)據(jù)索引技術(shù)研究[J];江蘇航空;2007年04期
10 譚紅霞;;GIS空間數(shù)據(jù)的質(zhì)量探討[J];山東國土資源;2009年06期
相關(guān)會議論文 前10條
1 汪建光;;空間數(shù)據(jù)自動批處理技術(shù)研究[A];2009全國測繪科技信息交流會暨首屆測繪博客征文頒獎?wù)撐募痆C];2009年
2 楊成韞;榮芳;彭子風(fēng);;基于客戶/服務(wù)器結(jié)構(gòu)的空間數(shù)據(jù)分布式處理研究[A];新世紀(jì) 新機遇 新挑戰(zhàn)——知識創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展(上冊)[C];2001年
3 陳良剛;王海兵;王宇君;施伯樂;;基于約束的空間數(shù)據(jù)查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
4 陳犖;劉云翔;唐宇;景寧;;基于優(yōu)先圖的空間數(shù)據(jù)應(yīng)用服務(wù)鏈建模方法[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2003年
5 杜紅悅;宮輝力;馮克忠;賈建坤;權(quán)忠生;;應(yīng)急救災(zāi)空間數(shù)據(jù)中心建設(shè)技術(shù)與策略研究[A];第十七屆中國遙感大會摘要集[C];2010年
6 李諾夫;黎雷;;網(wǎng)絡(luò)環(huán)境下空間數(shù)據(jù)的管理[A];地理空間信息技術(shù)與應(yīng)用——中國科協(xié)2002年學(xué)術(shù)年會測繪論文集[C];2002年
7 劉新貴;黃雅娟;;空間數(shù)據(jù)網(wǎng)絡(luò)化獲取與管理初探[A];中國地理信息系統(tǒng)協(xié)會第三次代表大會暨第七屆年會論文集[C];2003年
8 廖佳;;基礎(chǔ)空間數(shù)據(jù)生命周期管理[A];地理空間信息技術(shù)及其應(yīng)用論壇論文集[C];2005年
9 葉榮青;吳曉玲;;福建省基礎(chǔ)空間數(shù)據(jù)管理技術(shù)研究[A];第四屆海峽兩岸GIS發(fā)展研討會暨中國GIS協(xié)會第十屆年會論文集[C];2006年
10 方金云;;空間數(shù)據(jù)虛擬化的實現(xiàn)技術(shù)研究[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
相關(guān)重要報紙文章 前10條
1 寧津生 陳軍 晁定波;空間數(shù)據(jù)質(zhì)量的主要內(nèi)涵[N];中國測繪報;2002年
2 李豐丹;“國家地質(zhì)空間數(shù)據(jù)網(wǎng)格服務(wù)系統(tǒng)”獲發(fā)明專利[N];中國礦業(yè)報;2009年
3 記者 胡其峰;多項空間數(shù)據(jù)成果向社會開放[N];光明日報;2013年
4 孫昭榮;GIS圖窮數(shù)字見[N];中國計算機報;2002年
5 寧津生 陳軍 晁定波;空間數(shù)據(jù)的質(zhì)量控制方法[N];中國測繪報;2002年
6 劉榮梅;中國1∶100萬地質(zhì)圖空間數(shù)據(jù)實現(xiàn)國際共享[N];中國國土資源報;2014年
7 陳拂曉;空間數(shù)據(jù):“數(shù)字城市”建設(shè)的基礎(chǔ)[N];中國計算機報;2002年
8 王東華邋羅建軍;美國空間數(shù)據(jù)一站式服務(wù)系統(tǒng)[N];中國測繪報;2007年
9 深圳商報記者 董超文;一部手機將可“裝”下一座城市[N];深圳商報;2006年
10 中國工程院院士 劉先林;航測為智慧城市建設(shè)提供空間數(shù)據(jù)[N];中國信息化周報;2014年
相關(guān)博士學(xué)位論文 前10條
1 劉義;大規(guī)?臻g數(shù)據(jù)的高性能查詢處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
2 范建永;基于Hadoop的云GIS若干關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2013年
3 劉偉;基于地理本體的空間數(shù)據(jù)服務(wù)發(fā)現(xiàn)與集成[D];中國礦業(yè)大學(xué);2010年
4 陳曉斌;基于網(wǎng)格中間件的空間數(shù)據(jù)訪問與集成技術(shù)[D];解放軍信息工程大學(xué);2012年
5 李世明;林業(yè)空間數(shù)據(jù)平臺技術(shù)的應(yīng)用示范研究[D];中國林業(yè)科學(xué)研究院;2008年
6 郭加樹;空間數(shù)據(jù)倉的構(gòu)建及應(yīng)用[D];中國石油大學(xué);2007年
7 桑永勝;空間數(shù)據(jù)分析的神經(jīng)計算方法[D];電子科技大學(xué);2010年
8 劉丹;對等計算環(huán)境中的空間數(shù)據(jù)查詢定位研究[D];武漢大學(xué);2011年
9 胡茂勝;基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無縫集成技術(shù)研究[D];中國地質(zhì)大學(xué);2009年
10 陳建華;原生模式GML空間數(shù)據(jù)管理機制研究[D];成都理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 張明佳;空間數(shù)據(jù)地圖模型的原型設(shè)計[D];中國地質(zhì)大學(xué)(北京);2015年
2 于海濤;基于AE的油氣田地理信息系統(tǒng)的設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2015年
3 付悅?cè)A;基于概念格的空間數(shù)據(jù)規(guī)則提取[D];江西理工大學(xué);2015年
4 項天宋;非洲綜合資源環(huán)境信息空間可視化系統(tǒng)設(shè)計與應(yīng)用研究[D];福建師范大學(xué);2015年
5 梁杰超;空間數(shù)據(jù)的訪問控制技術(shù)研究[D];浙江大學(xué);2015年
6 崔洪博;重慶配電網(wǎng)基礎(chǔ)地理信息系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年
7 黃正中;空間環(huán)境數(shù)據(jù)處理及可視化交互技術(shù)研究[D];電子科技大學(xué);2014年
8 李青巖;Android下的移動空間數(shù)據(jù)存取方法研究[D];江西理工大學(xué);2015年
9 何拴;基于ArcGIS的黑河中游水資源信息化平臺研究[D];蘭州大學(xué);2015年
10 李真;海防雷達(dá)實訓(xùn)數(shù)據(jù)管理系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2015年
,本文編號:1699705
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1699705.html