基于Hadoop的時態(tài)信息存儲與檢索策略的研究
發(fā)布時間:2017-08-18 09:26
本文關(guān)鍵詞:基于Hadoop的時態(tài)信息存儲與檢索策略的研究
更多相關(guān)文章: 時態(tài)信息 Hadoop HBase 存儲模型 關(guān)系演算 索引
【摘要】:隨著信息技術(shù)的深入發(fā)展,蜂擁而至的信息演變成了各個領(lǐng)域和行業(yè)分析、處理以及應(yīng)用的關(guān)鍵,成為左右決策最重要的因素。幾乎所有信息都顯式或隱式地具備時態(tài)特征,探討時態(tài)信息的存儲與檢索技術(shù)成為是時態(tài)信息處理的核心之一。當(dāng)前架構(gòu)在傳統(tǒng)關(guān)系數(shù)據(jù)庫之上的時態(tài)數(shù)據(jù)模型在進(jìn)行超大規(guī)模和高并發(fā)的時態(tài)數(shù)據(jù)存儲和處理時遭遇了性能瓶頸,暴露了諸多難以克服的問題,既無法滿足對時態(tài)數(shù)據(jù)的高并發(fā)讀寫需求,同時也難以處理大量存在的類型復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),學(xué)者們開始逐步關(guān)注分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop下的應(yīng)用。Hadoop是一個開源的云計算架構(gòu),具有大規(guī)模擴(kuò)展和水平分布的特點,可以提供動態(tài)的存儲和計算能力,這就為海量時態(tài)數(shù)據(jù)的存儲和快速檢索提供了一個新思路。 針對海量非結(jié)構(gòu)化時態(tài)信息,構(gòu)建了在分布式環(huán)境下的數(shù)據(jù)存儲模型并在此基礎(chǔ)上提出一種基本的時態(tài)數(shù)據(jù)處理方法。使用Hadoop平臺下的分布式、非結(jié)構(gòu)化數(shù)據(jù)庫HBase對時態(tài)數(shù)據(jù)進(jìn)行存儲,構(gòu)造以時態(tài)集合為時態(tài)存儲單元的時態(tài)數(shù)據(jù)存儲模型;對于時態(tài)信息的查詢需求,針對分布式處理特征和時態(tài)集合數(shù)據(jù)類型,提出一種在Map/Reduce編程計算模式下進(jìn)行時態(tài)信息關(guān)系演算的實現(xiàn)方法;通過擴(kuò)展時態(tài)區(qū)間關(guān)系運(yùn)算,實現(xiàn)以時態(tài)集合為基本時態(tài)數(shù)據(jù)操作對象的交、并等關(guān)系運(yùn)算,并以醫(yī)療時態(tài)數(shù)據(jù)作為研究實例,表明了所提出的時態(tài)數(shù)據(jù)存儲模型和關(guān)系演算方案在分布式應(yīng)用系統(tǒng)下的適用性。對于時態(tài)信息的快速檢索需求,設(shè)計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速的檢索。通過將時態(tài)屬性值向二維空間映射,實現(xiàn)時態(tài)數(shù)據(jù)向空間對象的轉(zhuǎn)化,采用對空間數(shù)據(jù)的處理方法對時態(tài)數(shù)據(jù)區(qū)域進(jìn)行劃分,生成多級時態(tài)數(shù)據(jù)子區(qū)域,利用分布式哈希表思想設(shè)計HBase存儲的多級索引表目錄。 論文的創(chuàng)新之處包括:(1)針對傳統(tǒng)的時態(tài)數(shù)據(jù)庫在存儲海量非結(jié)構(gòu)化時態(tài)信息遭遇性能瓶頸,構(gòu)建分布式存儲結(jié)構(gòu)HBase下的海量時態(tài)信息存儲模型,設(shè)計了海量時態(tài)信息的存儲架構(gòu);(2)對于存儲體系中時態(tài)信息的查詢、分析操作,提出一種在Map/Reduce編程模式下進(jìn)行海量時態(tài)信息關(guān)系演算的方案,實現(xiàn)了以時態(tài)集合為操作對象的并、交以及笛卡爾積等時態(tài)關(guān)系演算過程;(3)針對海量時態(tài)信息的快速、高效檢索需求,設(shè)計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速檢索。 根據(jù)設(shè)計方案,文章最后進(jìn)行了相應(yīng)的性能測試和數(shù)據(jù)分析,從實驗結(jié)果可以看出,本文提出的海量時態(tài)信息的存儲、查詢與檢索方案在云計算平臺下展現(xiàn)了良好的適用性,較大程度上提高了對海量時態(tài)數(shù)據(jù)的處理能力,表現(xiàn)出了較好的性能。
【關(guān)鍵詞】:時態(tài)信息 Hadoop HBase 存儲模型 關(guān)系演算 索引
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333;TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 緒論12-17
- 1.1 課題研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-15
- 1.3 本文的研究內(nèi)容和論文結(jié)構(gòu)15-17
- 1.3.1 本文的研究內(nèi)容15-16
- 1.3.2 論文結(jié)構(gòu)16-17
- 第二章 時態(tài)信息以及Hadoop相關(guān)技術(shù)概述17-31
- 2.1 時態(tài)信息的表示及時態(tài)關(guān)系17-18
- 2.2 時態(tài)數(shù)據(jù)庫的發(fā)展18-19
- 2.2.1 時態(tài)數(shù)據(jù)庫的發(fā)展現(xiàn)狀18-19
- 2.2.2 實現(xiàn)時態(tài)數(shù)據(jù)庫的方法19
- 2.3 Hadoop云計算框架19-24
- 2.3.1 Hadoop集群20-21
- 2.3.2 HDFS存儲體系21-22
- 2.3.3 Map/Reduce并行編程模式22-24
- 2.4 HBase分布式數(shù)據(jù)庫24-30
- 2.4.1 HBase概述24-25
- 2.4.2 HBase數(shù)據(jù)模型25-27
- 2.4.3 HBase系統(tǒng)架構(gòu)27-30
- 2.5 本章小結(jié)30-31
- 第三章 海量時態(tài)信息的存儲架構(gòu)與查詢方案31-48
- 3.1 HBase時態(tài)信息存儲模型的設(shè)計31-33
- 3.1.1 時態(tài)信息的重構(gòu)31-32
- 3.1.2 時態(tài)信息存儲模型的構(gòu)建32-33
- 3.2 時態(tài)信息存儲系統(tǒng)的架構(gòu)設(shè)計33-38
- 3.2.1 配置模塊34-35
- 3.2.2 數(shù)據(jù)讀寫控制模塊35
- 3.2.3 數(shù)據(jù)寫入模塊35
- 3.2.4 數(shù)據(jù)刪除模塊35-36
- 3.2.5 數(shù)據(jù)查詢模塊36-38
- 3.2.6 時態(tài)數(shù)據(jù)檢索模塊38
- 3.3 時態(tài)關(guān)系演算的實現(xiàn)方案38-47
- 3.3.1 關(guān)系代數(shù)的運(yùn)算擴(kuò)展39-42
- 3.3.2 基于Map/Reduce的時態(tài)集合關(guān)系演算42-47
- 3.4 本章小結(jié)47-48
- 第四章 基于HBase時態(tài)信息的索引策略48-56
- 4.1 時態(tài)集合的聚類策略48-51
- 4.1.1 時態(tài)集合的空間映射48-50
- 4.1.2 時態(tài)數(shù)據(jù)區(qū)域的劃分策略50-51
- 4.2 基于HBase多級哈希索引表的設(shè)計51-55
- 4.2.1 一級索引表結(jié)構(gòu)的設(shè)計53-54
- 4.2.2 多級索引表結(jié)構(gòu)的設(shè)計54-55
- 4.3 本章小結(jié)55-56
- 第五章 仿真實驗及數(shù)據(jù)分析56-62
- 5.1 測試環(huán)境部署56-58
- 5.2 實驗方案及結(jié)果分析58-61
- 5.3 實驗小結(jié)61-62
- 結(jié)論62-64
- 參考文獻(xiàn)64-67
- 攻讀學(xué)位期間發(fā)表的論文67-69
- 致謝69
【引證文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳磊;不確定時態(tài)信息的粒度建模及其時態(tài)關(guān)系研究[D];廣東工業(yè)大學(xué);2015年
,本文編號:693812
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/693812.html
最近更新
教材專著