天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于Hadoop的時空大數(shù)據(jù)的分布式檢索方法

發(fā)布時間:2018-02-03 04:14

  本文關(guān)鍵詞: 時空大數(shù)據(jù) Hadoop 分布式檢索方法 出處:《中國科學(xué)院大學(xué)(中國科學(xué)院國家空間科學(xué)中心)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著空間任務(wù)變得越來越復(fù)雜和頻繁,科學(xué)衛(wèi)星產(chǎn)生的數(shù)據(jù)量級也呈現(xiàn)指數(shù)式增長的趨勢,并且一顆科學(xué)衛(wèi)星在軌運(yùn)行階段會產(chǎn)生數(shù)量龐大的數(shù)據(jù),這些海量數(shù)據(jù)具有種類繁多、異構(gòu)、實(shí)時、規(guī)模龐大和存儲分散、時間周期長等大數(shù)據(jù)的特點(diǎn),遭遇到計算能力、存儲系統(tǒng)和通信速度三方面的挑戰(zhàn),基于關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和文件系統(tǒng)開發(fā)的傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)對于存儲海量結(jié)構(gòu)化數(shù)據(jù)的能力支持不夠,無法應(yīng)對高并發(fā)訪問與高擴(kuò)展性的挑戰(zhàn),所以需要采用新方法對其進(jìn)行有效地管理。傳統(tǒng)上對空間數(shù)據(jù)的組織通常采用球體剖分的方式,它是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫系統(tǒng)或者文件系統(tǒng),以空間剖分網(wǎng)格為基礎(chǔ),將空間數(shù)據(jù)按照空間區(qū)域位置進(jìn)行編碼,通過對編碼的檢索從而完成對數(shù)據(jù)的查詢過程。但是由于這種數(shù)據(jù)組織方式是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,因而對存儲海量結(jié)構(gòu)化數(shù)據(jù)的支持能力不足。Hadoop是當(dāng)前處理海量數(shù)據(jù)的分布式系統(tǒng)框架,在支持大規(guī)模數(shù)據(jù)方面表現(xiàn)出了巨大的優(yōu)勢。但是,由于Hadoop最初是基于處理一維非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)開發(fā)的存儲和處理大數(shù)據(jù)的框架,因而無法直接用于組織和處理結(jié)構(gòu)化的空間科學(xué)大數(shù)據(jù)。本文針對傳統(tǒng)的數(shù)據(jù)管理無法支持海量數(shù)據(jù),并且分布式系統(tǒng)框架Hadoop無法直接用于組織和處理結(jié)構(gòu)化的空間科學(xué)大數(shù)據(jù)的問題,提出了基于Hadoop的空間科學(xué)大數(shù)據(jù)的分布式區(qū)域檢索算法,以支持?jǐn)?shù)據(jù)的快速檢索,并用多組數(shù)據(jù)進(jìn)行了試驗(yàn)和分析。論文的主要研究內(nèi)容如下:首先,系統(tǒng)闡述了當(dāng)前國內(nèi)外在時空數(shù)據(jù)的索引方法、二維空間科學(xué)大數(shù)據(jù)的組織方法這兩方面的國內(nèi)外的研究成果,以及對Hadoop相關(guān)組件,包括HDFS、MapReduce和Hive的工作機(jī)制做了詳細(xì)的闡述,為之后的研究提供了理論依據(jù)。其次,基于Hadoop基礎(chǔ)架構(gòu)設(shè)計了時空數(shù)據(jù)的索引方法,包括數(shù)據(jù)源索引、時間索引和兩級空間索引。其中,兩級空間索引包括用于分布式從節(jié)點(diǎn)間的數(shù)據(jù)塊Block查詢的空間全局索引和用于分布式從節(jié)點(diǎn)內(nèi)對數(shù)據(jù)塊Block進(jìn)行查詢的空間局部索引。提出了利用Hive組件建立數(shù)據(jù)源索引和時間索引的方法,以及提出了基于立方體的Block Grid三維網(wǎng)格剖分方法,設(shè)計了分布式環(huán)境下的數(shù)據(jù)查詢算法。第三,設(shè)計了數(shù)據(jù)源索引信息、時間索引信息、空間索引信息在分布式系統(tǒng)架構(gòu)Hadoop,即分布式主從節(jié)點(diǎn)中的分布策略,以及在進(jìn)行數(shù)據(jù)查詢操作時對數(shù)據(jù)進(jìn)行檢索的執(zhí)行流程。提出了目標(biāo)查詢區(qū)域覆蓋空間網(wǎng)格序列的計算方法,該方法能夠有效地提高數(shù)據(jù)的檢索效率。第四,基于Hadoop基礎(chǔ)架構(gòu),設(shè)計了能夠處理結(jié)構(gòu)化的空間科學(xué)數(shù)據(jù)的NSSC Hadoop分布式系統(tǒng)架構(gòu),詳細(xì)介紹了系統(tǒng)的整體結(jié)構(gòu),搭建分布式集群過程,集群配置過程,并進(jìn)行了多組試驗(yàn),對算法進(jìn)行驗(yàn)證并對試驗(yàn)結(jié)果進(jìn)行了分析。最后,對本文的研究工作進(jìn)行了總結(jié)和進(jìn)一步展望。
[Abstract]:闅忕潃絀洪棿浠誨姟鍙樺緱瓚婃潵瓚婂鏉傚拰棰戠箒,縐戝鍗槦浜х敓鐨勬暟鎹噺綰т篃鍛堢幇鎸囨暟寮忓闀跨殑瓚嬪娍,騫朵笖涓,

本文編號:1486385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1486385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8b386***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com