當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)論文 >

基于Hadoop的時(shí)態(tài)信息存儲(chǔ)與檢索策略的研究

發(fā)布時(shí)間：2017-08-18 09:26

本文關(guān)鍵詞：基于Hadoop的時(shí)態(tài)信息存儲(chǔ)與檢索策略的研究

【摘要】：隨著信息技術(shù)的深入發(fā)展,蜂擁而至的信息演變成了各個(gè)領(lǐng)域和行業(yè)分析、處理以及應(yīng)用的關(guān)鍵,成為左右決策最重要的因素。幾乎所有信息都顯式或隱式地具備時(shí)態(tài)特征,探討時(shí)態(tài)信息的存儲(chǔ)與檢索技術(shù)成為是時(shí)態(tài)信息處理的核心之一。當(dāng)前架構(gòu)在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)之上的時(shí)態(tài)數(shù)據(jù)模型在進(jìn)行超大規(guī)模和高并發(fā)的時(shí)態(tài)數(shù)據(jù)存儲(chǔ)和處理時(shí)遭遇了性能瓶頸,暴露了諸多難以克服的問(wèn)題,既無(wú)法滿足對(duì)時(shí)態(tài)數(shù)據(jù)的高并發(fā)讀寫需求,同時(shí)也難以處理大量存在的類型復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),學(xué)者們開(kāi)始逐步關(guān)注分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop下的應(yīng)用。Hadoop是一個(gè)開(kāi)源的云計(jì)算架構(gòu),具有大規(guī)模擴(kuò)展和水平分布的特點(diǎn),可以提供動(dòng)態(tài)的存儲(chǔ)和計(jì)算能力,這就為海量時(shí)態(tài)數(shù)據(jù)的存儲(chǔ)和快速檢索提供了一個(gè)新思路。針對(duì)海量非結(jié)構(gòu)化時(shí)態(tài)信息,構(gòu)建了在分布式環(huán)境下的數(shù)據(jù)存儲(chǔ)模型并在此基礎(chǔ)上提出一種基本的時(shí)態(tài)數(shù)據(jù)處理方法。使用Hadoop平臺(tái)下的分布式、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)HBase對(duì)時(shí)態(tài)數(shù)據(jù)進(jìn)行存儲(chǔ),構(gòu)造以時(shí)態(tài)集合為時(shí)態(tài)存儲(chǔ)單元的時(shí)態(tài)數(shù)據(jù)存儲(chǔ)模型；對(duì)于時(shí)態(tài)信息的查詢需求,針對(duì)分布式處理特征和時(shí)態(tài)集合數(shù)據(jù)類型,提出一種在Map/Reduce編程計(jì)算模式下進(jìn)行時(shí)態(tài)信息關(guān)系演算的實(shí)現(xiàn)方法；通過(guò)擴(kuò)展時(shí)態(tài)區(qū)間關(guān)系運(yùn)算,實(shí)現(xiàn)以時(shí)態(tài)集合為基本時(shí)態(tài)數(shù)據(jù)操作對(duì)象的交、并等關(guān)系運(yùn)算,并以醫(yī)療時(shí)態(tài)數(shù)據(jù)作為研究實(shí)例,表明了所提出的時(shí)態(tài)數(shù)據(jù)存儲(chǔ)模型和關(guān)系演算方案在分布式應(yīng)用系統(tǒng)下的適用性。對(duì)于時(shí)態(tài)信息的快速檢索需求,設(shè)計(jì)了多級(jí)分布式哈希索引表算法(tDHT),實(shí)現(xiàn)對(duì)時(shí)態(tài)列族的時(shí)態(tài)屬性值的高效、快速的檢索。通過(guò)將時(shí)態(tài)屬性值向二維空間映射,實(shí)現(xiàn)時(shí)態(tài)數(shù)據(jù)向空間對(duì)象的轉(zhuǎn)化,采用對(duì)空間數(shù)據(jù)的處理方法對(duì)時(shí)態(tài)數(shù)據(jù)區(qū)域進(jìn)行劃分,生成多級(jí)時(shí)態(tài)數(shù)據(jù)子區(qū)域,利用分布式哈希表思想設(shè)計(jì)HBase存儲(chǔ)的多級(jí)索引表目錄。論文的創(chuàng)新之處包括：(1)針對(duì)傳統(tǒng)的時(shí)態(tài)數(shù)據(jù)庫(kù)在存儲(chǔ)海量非結(jié)構(gòu)化時(shí)態(tài)信息遭遇性能瓶頸,構(gòu)建分布式存儲(chǔ)結(jié)構(gòu)HBase下的海量時(shí)態(tài)信息存儲(chǔ)模型,設(shè)計(jì)了海量時(shí)態(tài)信息的存儲(chǔ)架構(gòu)；(2)對(duì)于存儲(chǔ)體系中時(shí)態(tài)信息的查詢、分析操作,提出一種在Map/Reduce編程模式下進(jìn)行海量時(shí)態(tài)信息關(guān)系演算的方案,實(shí)現(xiàn)了以時(shí)態(tài)集合為操作對(duì)象的并、交以及笛卡爾積等時(shí)態(tài)關(guān)系演算過(guò)程；(3)針對(duì)海量時(shí)態(tài)信息的快速、高效檢索需求,設(shè)計(jì)了多級(jí)分布式哈希索引表算法(tDHT),實(shí)現(xiàn)對(duì)時(shí)態(tài)列族的時(shí)態(tài)屬性值的高效、快速檢索。根據(jù)設(shè)計(jì)方案,文章最后進(jìn)行了相應(yīng)的性能測(cè)試和數(shù)據(jù)分析,從實(shí)驗(yàn)結(jié)果可以看出,本文提出的海量時(shí)態(tài)信息的存儲(chǔ)、查詢與檢索方案在云計(jì)算平臺(tái)下展現(xiàn)了良好的適用性,較大程度上提高了對(duì)海量時(shí)態(tài)數(shù)據(jù)的處理能力,表現(xiàn)出了較好的性能。
【關(guān)鍵詞】：時(shí)態(tài)信息 Hadoop HBase 存儲(chǔ)模型 關(guān)系演算 索引
【學(xué)位授予單位】：廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP333;TP391.3
【目錄】：

摘要4-6
ABSTRACT6-12
第一章緒論12-17
1.1 課題研究背景及意義12-14
1.2 國(guó)內(nèi)外研究現(xiàn)狀14-15
1.3 本文的研究?jī)?nèi)容和論文結(jié)構(gòu)15-17
1.3.1 本文的研究?jī)?nèi)容15-16
1.3.2 論文結(jié)構(gòu)16-17
第二章時(shí)態(tài)信息以及Hadoop相關(guān)技術(shù)概述17-31
2.1 時(shí)態(tài)信息的表示及時(shí)態(tài)關(guān)系17-18
2.2 時(shí)態(tài)數(shù)據(jù)庫(kù)的發(fā)展18-19
2.2.1 時(shí)態(tài)數(shù)據(jù)庫(kù)的發(fā)展現(xiàn)狀18-19
2.2.2 實(shí)現(xiàn)時(shí)態(tài)數(shù)據(jù)庫(kù)的方法19
2.3 Hadoop云計(jì)算框架19-24
2.3.1 Hadoop集群20-21
2.3.2 HDFS存儲(chǔ)體系21-22
2.3.3 Map/Reduce并行編程模式22-24
2.4 HBase分布式數(shù)據(jù)庫(kù)24-30
2.4.1 HBase概述24-25
2.4.2 HBase數(shù)據(jù)模型25-27
2.4.3 HBase系統(tǒng)架構(gòu)27-30
2.5 本章小結(jié)30-31
第三章海量時(shí)態(tài)信息的存儲(chǔ)架構(gòu)與查詢方案31-48
3.1 HBase時(shí)態(tài)信息存儲(chǔ)模型的設(shè)計(jì)31-33
3.1.1 時(shí)態(tài)信息的重構(gòu)31-32
3.1.2 時(shí)態(tài)信息存儲(chǔ)模型的構(gòu)建32-33
3.2 時(shí)態(tài)信息存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)33-38
3.2.1 配置模塊34-35
3.2.2 數(shù)據(jù)讀寫控制模塊35
3.2.3 數(shù)據(jù)寫入模塊35
3.2.4 數(shù)據(jù)刪除模塊35-36
3.2.5 數(shù)據(jù)查詢模塊36-38
3.2.6 時(shí)態(tài)數(shù)據(jù)檢索模塊38
3.3 時(shí)態(tài)關(guān)系演算的實(shí)現(xiàn)方案38-47
3.3.1 關(guān)系代數(shù)的運(yùn)算擴(kuò)展39-42
3.3.2 基于Map/Reduce的時(shí)態(tài)集合關(guān)系演算42-47
3.4 本章小結(jié)47-48
第四章基于HBase時(shí)態(tài)信息的索引策略48-56
4.1 時(shí)態(tài)集合的聚類策略48-51
4.1.1 時(shí)態(tài)集合的空間映射48-50
4.1.2 時(shí)態(tài)數(shù)據(jù)區(qū)域的劃分策略50-51
4.2 基于HBase多級(jí)哈希索引表的設(shè)計(jì)51-55
4.2.1 一級(jí)索引表結(jié)構(gòu)的設(shè)計(jì)53-54
4.2.2 多級(jí)索引表結(jié)構(gòu)的設(shè)計(jì)54-55
4.3 本章小結(jié)55-56
第五章仿真實(shí)驗(yàn)及數(shù)據(jù)分析56-62
5.1 測(cè)試環(huán)境部署56-58
5.2 實(shí)驗(yàn)方案及結(jié)果分析58-61
5.3 實(shí)驗(yàn)小結(jié)61-62
結(jié)論62-64
參考文獻(xiàn)64-67
攻讀學(xué)位期間發(fā)表的論文67-69
致謝69

【引證文獻(xiàn)】

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 陳磊;不確定時(shí)態(tài)信息的粒度建模及其時(shí)態(tài)關(guān)系研究[D];廣東工業(yè)大學(xué);2015年

，

本文編號(hào)：693812

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/693812.html

上一篇：韓國(guó)可穿戴運(yùn)動(dòng)管理設(shè)備
下一篇：華夏銀行數(shù)據(jù)中心災(zāi)備體系建設(shè)實(shí)踐

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的時(shí)態(tài)信息存儲(chǔ)與檢索策略的研究