海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2017-05-24 14:16
本文關(guān)鍵詞:海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:海量數(shù)據(jù)的存儲和實時查詢正在成為時下研究的熱點。公司生成的數(shù)據(jù)量極速增長,急需一個新的方法來存儲和分析數(shù)據(jù)集。傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)難以處理海量數(shù)據(jù)的規(guī)模,存儲這樣規(guī)模的數(shù)據(jù)比較緩慢,并且需要前期做更多的設計和準備。 本文利用Kafka消息隊列、Storm流處理框架、HBase數(shù)據(jù)庫等大數(shù)據(jù)技術(shù),改進Impala大數(shù)據(jù)搜索引擎,設計并實現(xiàn)一個能夠滿足海量數(shù)據(jù)高吞吐量可靠存儲和準實時查詢需求的系統(tǒng)。系統(tǒng)具有高并發(fā)性、健壯性、動態(tài)伸縮和高容錯性等特性,易于使用,支持高性能存儲,改進的Impala搜索引擎可直接基于HBase快照查詢,不再影響HBase的性能,可用于復雜的查詢統(tǒng)計類需求。首先利用Protocol Buffer對數(shù)據(jù)序列化并推入Kafka消息隊列,Storm流處理系統(tǒng)從Kafka隊列拉取消息,KafkaSpout作為數(shù)據(jù)源向Storm組件發(fā)射消息流,本文實現(xiàn)的FilterBolt將過濾掉不安全的數(shù)據(jù),HBaseBolt會最終將數(shù)據(jù)存儲到分布式文件系統(tǒng)中,如果由于異常導致存儲失敗,會再次拉取這個消息處理,直至處理成功,提高了系統(tǒng)的高容錯性。Impala集群和HBase集群共享同一個分布式文件系統(tǒng),當數(shù)據(jù)存儲在分布式文件系統(tǒng)后,系統(tǒng)基于分布式文件系統(tǒng)機架感知原理,將數(shù)據(jù)會同時分布到Impala和HBase集群中。改進的Impala引擎支持可直接查詢HBase快照,保證了Impala和HBase不影響彼此之間的性能,提高了系統(tǒng)的實用性。 最后,本文搭建實驗環(huán)境完成系統(tǒng)性能測試,監(jiān)測系統(tǒng)存儲的性能和對于異常情況的容錯能力,最后與Hive+HBase系統(tǒng)性能進行比較。通過實驗結(jié)果得出,本文構(gòu)建的新系統(tǒng)提供高性能存儲和可擴展性,實現(xiàn)了海量數(shù)據(jù)的準實時查詢。
【關(guān)鍵詞】:Kafka消息隊列 Storm流處理框架 HBase分布式數(shù)據(jù)庫 Impala搜索引擎 機架感知
【學位授予單位】:西南石油大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- Abstract4-5
- 目錄5-7
- 第1章 緒論7-12
- 1.1 研究背景7
- 1.2 國內(nèi)外研究現(xiàn)狀7-9
- 1.2.1 存在的主要問題8-9
- 1.3 主要研究內(nèi)容9-10
- 1.4 本文組織結(jié)構(gòu)10-12
- 第2章 海量數(shù)據(jù)存儲和查詢系統(tǒng)關(guān)鍵技術(shù)研究12-25
- 2.1 KAFKA消息隊列概述12-13
- 2.1.1 Kafka存儲13
- 2.2 Storm流處理框架概述13-15
- 2.2.1 拓撲14-15
- 2.3 HBase分布式數(shù)據(jù)庫簡介15-17
- 2.3.1 HBase快照17
- 2.4 Impala系統(tǒng)分析17-23
- 2.4.1 Dremel關(guān)鍵技術(shù)17-19
- 2.4.2 Impala系統(tǒng)架構(gòu)19-20
- 2.4.3 Impala客戶端20-21
- 2.4.3.1 Impala支持SQL語言20-21
- 2.4.4 Impala執(zhí)行計劃樹21-23
- 2.5 機架感知23-24
- 2.6 本章小結(jié)24-25
- 第3章 海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)的設計和分析25-33
- 3.1 設計目標25
- 3.2 關(guān)鍵問題分析與解決25-29
- 3.2.1 安全策略25-26
- 3.2.2 容錯性26
- 3.2.3 改進的Impala架構(gòu)26-29
- 3.3 系統(tǒng)設計29-32
- 3.3.1 系統(tǒng)整體架構(gòu)29-30
- 3.3.2 主要模塊30-32
- 3.4 本章小結(jié)32-33
- 第4章 海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)的實現(xiàn)33-41
- 4.0 發(fā)布和訂閱消息模塊實現(xiàn)33-34
- 4.1 數(shù)據(jù)加工處理34-36
- 4.2 數(shù)據(jù)存儲36-37
- 4.3 數(shù)據(jù)查詢37-40
- 4.4 本章小結(jié)40-41
- 第5章 海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)的測試與結(jié)果分析41-48
- 5.1 實驗系統(tǒng)搭建41-46
- 5.1.1 搭建實驗環(huán)境41
- 5.1.2 Impala源碼編譯部署41-44
- 5.1.3 實驗數(shù)據(jù)和測試用例設計44-46
- 5.2 測試結(jié)果與分析46-47
- 5.2.1 消息處理加工46-47
- 5.3 本章小結(jié)47-48
- 第6章 總結(jié)與展望48-50
- 致謝50-51
- 參考文獻51-54
- 攻讀碩士學位期間發(fā)表的論文及科研成果54
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 嵇智輝;倪宏;劉磊;;動態(tài)消息隊列負載均衡策略的研究與應用[J];計算機工程;2009年08期
2 閔應驊;可信系統(tǒng)與網(wǎng)絡[J];計算機工程與科學;2001年05期
3 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期
4 周強;陳嶺;馬驕陽;趙宇亮;吳勇;王敬昌;;基于改進DPhyp算法的Impala查詢優(yōu)化[J];計算機研究與發(fā)展;2013年S2期
5 張鵬;李鵬霄;任彥;林海倫;楊嶸;鄭超;;面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J];計算機研究與發(fā)展;2014年S2期
本文關(guān)鍵詞:海量數(shù)據(jù)存儲和準實時查詢系統(tǒng)設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:391073
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/391073.html
最近更新
教材專著