矢量空間數(shù)據(jù)云存儲與馬爾可夫并行聚類算法研究
本文關鍵詞:矢量空間數(shù)據(jù)云存儲與馬爾可夫并行聚類算法研究
更多相關文章: 云存儲 MongoDB 矢量空間數(shù)據(jù) MapReduce 馬爾可夫聚類
【摘要】:近年來隨著地理空間數(shù)據(jù)的爆炸型增長,矢量空間數(shù)據(jù)存儲與挖掘日益成為空間信息科學領域的研究熱點。如何高效地存儲和管理海量矢量空間數(shù)據(jù),并從中挖掘有用的地學知識,成為地學領域亟待解決的問題。本文在非關系數(shù)據(jù)庫和MapReduce模型等理論的基礎上,以矢量空間數(shù)據(jù)為研究對象,提出了在云環(huán)境下多用戶存儲、多類型數(shù)據(jù)轉換和海量矢量空間數(shù)據(jù)處理等三種矢量空間數(shù)據(jù)存儲與處理機制,基于文檔型數(shù)據(jù)庫MongoDB和并行計算框架Hadoop實現(xiàn)了矢量空間數(shù)據(jù)云存儲系統(tǒng),并最終實現(xiàn)與自主研發(fā)的地理知識云服務平臺GeoKSCloud的緊密集成;總結了MapReduce模型下對圖算法進行整體優(yōu)化設計的三種途徑及其具體解決方法,據(jù)此設計并實現(xiàn)了馬爾可夫并行聚類算法。主要研究內(nèi)容和成果如下:1.綜述了矢量空間數(shù)據(jù)存儲理論與技術的研究現(xiàn)狀,探討了NoSQL數(shù)據(jù)庫的特點,闡述了MongoDB數(shù)據(jù)數(shù)據(jù)庫的特點及應用場景;從并行聚類和數(shù)據(jù)挖掘平臺兩個方面總結了云環(huán)境下的并行聚類研究現(xiàn)狀,并詳細介紹了MapReduce模型、聚類概念與流程、經(jīng)典聚類算法、圖聚類算法等相關理論與技術。2.開展了矢量空間數(shù)據(jù)存儲機制以及云存儲系統(tǒng)設計與實現(xiàn)方面的研究。提出了多用戶存儲、多類型數(shù)據(jù)轉換和海量矢量空間數(shù)據(jù)處理等三種存儲與處理機制:即利用MongoDB存儲矢量空間數(shù)據(jù)及其元數(shù)據(jù),利用開源簡單要素庫OGR實現(xiàn)異構矢量空間數(shù)據(jù)的轉換與讀寫,借助Hadoop完成海量矢量空間數(shù)據(jù)的處理與挖掘任務。之后,依托于地理知識云平臺GeoKSClou d的基本框架,提出了由數(shù)據(jù)層、業(yè)務層和表現(xiàn)層三部分組成的系統(tǒng)架構,通過集群搭建、數(shù)據(jù)存儲、導入導出、數(shù)據(jù)庫訪問、數(shù)據(jù)處理等方面對系統(tǒng)進行了詳細設計,最終實現(xiàn)了矢量空間數(shù)據(jù)云存儲系統(tǒng)。3.開展了在MapReduce模型下圖算法的優(yōu)化設計方法,以及馬爾可夫聚類算法并行化方面的研究。根據(jù)圖結構拓撲關系的復雜性,探討了MapReduce模型下圖算法的優(yōu)化設計方法,主要對消息傳遞機制、基于本地聚合的數(shù)據(jù)約簡、基于Mapper內(nèi)部聚合的數(shù)據(jù)約簡等三個途徑進行了優(yōu)化,并提出了相應的具體解決方法。之后,將MCL算法分解為矩陣表示、擴張操作、膨脹操作和算法整合等部分。采用子矩陣方式表達矩陣,在擴張操作和膨脹操作中提出了并行化方案,并進行了并行策略的多次優(yōu)化。最終,通過整合各操作實現(xiàn)了并行化算法MR-MCL。4.開展了VectorDB云存儲系統(tǒng)、MR-MC L算法的性能測試與評價工作。結果顯示,VectorDB比PostGIS具有更加強大的讀取性能,VectorDB在并行處理方面比MongoDB更有優(yōu)勢,MR-MCL算法具有良好的擴展性與高效性。
【關鍵詞】:云存儲 MongoDB 矢量空間數(shù)據(jù) MapReduce 馬爾可夫聚類
【學位授予單位】:福州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:P208
【目錄】:
- 中文摘要3-4
- Abstract4-9
- 第一章 緒論9-19
- 1.1 研究背景9-10
- 1.2 研究目標與內(nèi)容10
- 1.3 研究技術路線10-11
- 1.4 文章章節(jié)安排11-13
- 1.5 國內(nèi)外研究現(xiàn)狀13-19
- 1.5.1 矢量空間數(shù)據(jù)存儲13-15
- 1.5.2 云環(huán)境下并行聚類15-19
- 第二章 相關理論基礎19-29
- 2.1 空間數(shù)據(jù)云存儲概述19-22
- 2.1.1 NoSQL數(shù)據(jù)庫19-21
- 2.1.2 MongoDB21-22
- 2.2 并行聚類概述22-27
- 2.2.1 MapReduce模型概述22-24
- 2.2.2 聚類挖掘概述24-27
- 2.3 本章小結27-29
- 第三章 基于MongoDB的矢量空間數(shù)據(jù)存儲與處理29-56
- 3.1 地理知識云服務平臺GeoKSCloud29-32
- 3.1.1 體系結構29-31
- 3.1.2 平臺主要功能31-32
- 3.2 需求分析32-34
- 3.2.1 功能要求32-33
- 3.2.2 性能要求33-34
- 3.3 存儲與處理機制34-37
- 3.3.1 多用戶存儲機制34-35
- 3.3.2 矢量空間數(shù)據(jù)存儲35-36
- 3.3.3 海量數(shù)據(jù)處理機制36-37
- 3.4 系統(tǒng)架構37-42
- 3.4.1 數(shù)據(jù)層38-39
- 3.4.2 業(yè)務層39-41
- 3.4.3 表現(xiàn)層41-42
- 3.5 系統(tǒng)設計與實現(xiàn)42-54
- 3.5.1 MongoDB集群搭建42-44
- 3.5.2 數(shù)據(jù)存儲44-46
- 3.5.3 導入導出模塊46-48
- 3.5.4 數(shù)據(jù)庫訪問模塊48-50
- 3.5.5 數(shù)據(jù)處理模塊50-52
- 3.5.6 系統(tǒng)主要界面52-54
- 3.6 本章小結54-56
- 第四章 基于MapReduce的MCL并行算法56-73
- 4.1 馬爾可夫聚類算法56-59
- 4.1.1 基本概念56-57
- 4.1.2 算法過程57-58
- 4.1.3 特點58-59
- 4.2 圖算法的優(yōu)化設計方法59-61
- 4.2.1 分布式消息傳遞機制59-60
- 4.2.2 基于本地聚合的數(shù)據(jù)約簡60
- 4.2.3 基于Mapper內(nèi)部聚合的數(shù)據(jù)約簡60-61
- 4.3 MR-MCL設計與實現(xiàn)61-71
- 4.3.1 矩陣表示62-64
- 4.3.2 擴張操作64-70
- 4.3.3 膨脹操作70-71
- 4.3.4 整合71
- 4.4 本章小結71-73
- 第五章 性能測試與評價73-80
- 5.1 試驗環(huán)境的軟硬件配置73-74
- 5.2 實驗數(shù)據(jù)準備74-75
- 5.3 VectorDB讀寫性能分析75-76
- 5.4 VectorDB并行計算性能分析76-77
- 5.5 MCL算法性能分析77-79
- 5.6 小結79-80
- 第六章 總結與展望80-83
- 6.1 工作總結80-81
- 6.2 創(chuàng)新與特色81
- 6.3 展望81-83
- 參考文獻83-88
- 致謝88-89
- 個人簡歷89
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李軍;地球科學數(shù)據(jù)研究的初步探討[J];地理學報;1996年S1期
2 狄明遠;周鐵城;;云計算淺析[J];科技風;2009年13期
3 張珊珊;;基于Oracle的海量DEM數(shù)據(jù)建庫研究[J];地理空間信息;2007年03期
4 陳少雄;盧尚龍;丁建勛;;數(shù)據(jù)監(jiān)理在基礎信息系統(tǒng)數(shù)據(jù)入庫中的應用[J];地理空間信息;2008年04期
5 何非;何克清;;大數(shù)據(jù)及其科學問題與方法的探討[J];武漢大學學報(理學版);2014年01期
6 韓雪培;涂瓊;;CAD數(shù)據(jù)空間參考的判斷與參數(shù)獲取[J];地理與地理信息科學;2010年02期
7 金君,李成名,印潔,林宗堅;人口數(shù)據(jù)空間分布化模型研究[J];測繪學報;2003年03期
8 王星捷;;MapGIS點文件數(shù)據(jù)分析與讀取實驗[J];測繪科學;2013年01期
9 李景葉;張連群;陳小宏;;時移地震數(shù)據(jù)空間偏差校正方法[J];物探與化探;2012年04期
10 徐壽成,高文;GIS支持的城市土地定級方法的研究——離散型數(shù)據(jù)空間相關分析法[J];自然資源;1993年01期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎地理信息系統(tǒng)的設計和建設[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關聯(lián)關系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
5 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
中國重要報紙全文數(shù)據(jù)庫 前6條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報;2013年
3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅動,,奮力奔向大數(shù)據(jù)時代[N];貴陽日報;2014年
4 中國人民大學信息學院 李玉坤;云計算與數(shù)據(jù)空間[N];中國計算機報;2008年
5 整理 本報記者 蘇丹丹;把握大數(shù)據(jù)機遇 推動文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報;2013年
6 安徽國稅局 趙為民;稅務綜合數(shù)據(jù)平臺的設想[N];計算機世界;2007年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 李曉娜;面向SaaS應用的多租戶數(shù)據(jù)放置機制研究[D];山東大學;2015年
2 張德兵;基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究[D];浙江大學;2015年
3 劉思彤;空間文本數(shù)據(jù)的查詢處理技術研究[D];清華大學;2015年
4 侯振隆;重力全張量梯度數(shù)據(jù)的并行反演算法研究及應用[D];吉林大學;2016年
5 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關鍵問題研究[D];東華大學;2014年
6 陳鵬;面向情景感知計算的時空數(shù)據(jù)管理、查詢、分析與相關算法研究[D];華東師范大學;2013年
7 楊丹;數(shù)據(jù)空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年
8 王曉蕊;華北克拉通地球化學科學數(shù)據(jù)的管理及應用研究[D];中國地質大學;2008年
9 張曉東;數(shù)字河口平臺建設關鍵技術研究[D];中國海洋大學;2009年
10 汪陳應;XML數(shù)據(jù)編碼與存儲管理關鍵技術研究[D];南開大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 權西瑞;云環(huán)境下數(shù)據(jù)版權保護方法的研究[D];西安建筑科技大學;2015年
2 向兵;中藥顆粒調(diào)劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年
3 朱躍龍;公安情報自動分類系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
4 張鵬遠;大數(shù)據(jù)分類存儲及檢索方法研究[D];西安電子科技大學;2014年
5 王夢佳;DOA下數(shù)據(jù)注冊方法的初步研究與實現(xiàn)[D];成都理工大學;2015年
6 陳啟偉;電機狀態(tài)云監(jiān)測系統(tǒng)研究與實現(xiàn)[D];浙江大學;2016年
7 王照清;大數(shù)據(jù)環(huán)境下數(shù)據(jù)查詢優(yōu)化技術應用研究[D];北方工業(yè)大學;2016年
8 賈振美;面向稀疏軌跡數(shù)據(jù)的位置預測方法研究[D];東北大學;2014年
9 雷德龍;矢量空間數(shù)據(jù)云存儲與馬爾可夫并行聚類算法研究[D];福州大學;2014年
10 崔晨;基于活動的數(shù)據(jù)空間的數(shù)據(jù)關系發(fā)現(xiàn)和數(shù)據(jù)重要性評價[D];華僑大學;2011年
本文編號:939893
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/939893.html