天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2017-05-24 14:16

  本文關(guān)鍵詞:海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:海量數(shù)據(jù)的存儲和實時查詢正在成為時下研究的熱點。公司生成的數(shù)據(jù)量極速增長,急需一個新的方法來存儲和分析數(shù)據(jù)集。傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)難以處理海量數(shù)據(jù)的規(guī)模,存儲這樣規(guī)模的數(shù)據(jù)比較緩慢,并且需要前期做更多的設(shè)計和準(zhǔn)備。 本文利用Kafka消息隊列、Storm流處理框架、HBase數(shù)據(jù)庫等大數(shù)據(jù)技術(shù),改進(jìn)Impala大數(shù)據(jù)搜索引擎,設(shè)計并實現(xiàn)一個能夠滿足海量數(shù)據(jù)高吞吐量可靠存儲和準(zhǔn)實時查詢需求的系統(tǒng)。系統(tǒng)具有高并發(fā)性、健壯性、動態(tài)伸縮和高容錯性等特性,易于使用,支持高性能存儲,改進(jìn)的Impala搜索引擎可直接基于HBase快照查詢,不再影響HBase的性能,可用于復(fù)雜的查詢統(tǒng)計類需求。首先利用Protocol Buffer對數(shù)據(jù)序列化并推入Kafka消息隊列,Storm流處理系統(tǒng)從Kafka隊列拉取消息,KafkaSpout作為數(shù)據(jù)源向Storm組件發(fā)射消息流,本文實現(xiàn)的FilterBolt將過濾掉不安全的數(shù)據(jù),HBaseBolt會最終將數(shù)據(jù)存儲到分布式文件系統(tǒng)中,如果由于異常導(dǎo)致存儲失敗,會再次拉取這個消息處理,直至處理成功,提高了系統(tǒng)的高容錯性。Impala集群和HBase集群共享同一個分布式文件系統(tǒng),當(dāng)數(shù)據(jù)存儲在分布式文件系統(tǒng)后,系統(tǒng)基于分布式文件系統(tǒng)機(jī)架感知原理,將數(shù)據(jù)會同時分布到Impala和HBase集群中。改進(jìn)的Impala引擎支持可直接查詢HBase快照,保證了Impala和HBase不影響彼此之間的性能,提高了系統(tǒng)的實用性。 最后,本文搭建實驗環(huán)境完成系統(tǒng)性能測試,監(jiān)測系統(tǒng)存儲的性能和對于異常情況的容錯能力,最后與Hive+HBase系統(tǒng)性能進(jìn)行比較。通過實驗結(jié)果得出,本文構(gòu)建的新系統(tǒng)提供高性能存儲和可擴(kuò)展性,實現(xiàn)了海量數(shù)據(jù)的準(zhǔn)實時查詢。
【關(guān)鍵詞】:Kafka消息隊列 Storm流處理框架 HBase分布式數(shù)據(jù)庫 Impala搜索引擎 機(jī)架感知
【學(xué)位授予單位】:西南石油大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要3-4
  • Abstract4-5
  • 目錄5-7
  • 第1章 緒論7-12
  • 1.1 研究背景7
  • 1.2 國內(nèi)外研究現(xiàn)狀7-9
  • 1.2.1 存在的主要問題8-9
  • 1.3 主要研究內(nèi)容9-10
  • 1.4 本文組織結(jié)構(gòu)10-12
  • 第2章 海量數(shù)據(jù)存儲和查詢系統(tǒng)關(guān)鍵技術(shù)研究12-25
  • 2.1 KAFKA消息隊列概述12-13
  • 2.1.1 Kafka存儲13
  • 2.2 Storm流處理框架概述13-15
  • 2.2.1 拓?fù)?/span>14-15
  • 2.3 HBase分布式數(shù)據(jù)庫簡介15-17
  • 2.3.1 HBase快照17
  • 2.4 Impala系統(tǒng)分析17-23
  • 2.4.1 Dremel關(guān)鍵技術(shù)17-19
  • 2.4.2 Impala系統(tǒng)架構(gòu)19-20
  • 2.4.3 Impala客戶端20-21
  • 2.4.3.1 Impala支持SQL語言20-21
  • 2.4.4 Impala執(zhí)行計劃樹21-23
  • 2.5 機(jī)架感知23-24
  • 2.6 本章小結(jié)24-25
  • 第3章 海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)的設(shè)計和分析25-33
  • 3.1 設(shè)計目標(biāo)25
  • 3.2 關(guān)鍵問題分析與解決25-29
  • 3.2.1 安全策略25-26
  • 3.2.2 容錯性26
  • 3.2.3 改進(jìn)的Impala架構(gòu)26-29
  • 3.3 系統(tǒng)設(shè)計29-32
  • 3.3.1 系統(tǒng)整體架構(gòu)29-30
  • 3.3.2 主要模塊30-32
  • 3.4 本章小結(jié)32-33
  • 第4章 海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)的實現(xiàn)33-41
  • 4.0 發(fā)布和訂閱消息模塊實現(xiàn)33-34
  • 4.1 數(shù)據(jù)加工處理34-36
  • 4.2 數(shù)據(jù)存儲36-37
  • 4.3 數(shù)據(jù)查詢37-40
  • 4.4 本章小結(jié)40-41
  • 第5章 海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)的測試與結(jié)果分析41-48
  • 5.1 實驗系統(tǒng)搭建41-46
  • 5.1.1 搭建實驗環(huán)境41
  • 5.1.2 Impala源碼編譯部署41-44
  • 5.1.3 實驗數(shù)據(jù)和測試用例設(shè)計44-46
  • 5.2 測試結(jié)果與分析46-47
  • 5.2.1 消息處理加工46-47
  • 5.3 本章小結(jié)47-48
  • 第6章 總結(jié)與展望48-50
  • 致謝50-51
  • 參考文獻(xiàn)51-54
  • 攻讀碩士學(xué)位期間發(fā)表的論文及科研成果54

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 嵇智輝;倪宏;劉磊;;動態(tài)消息隊列負(fù)載均衡策略的研究與應(yīng)用[J];計算機(jī)工程;2009年08期

2 閔應(yīng)驊;可信系統(tǒng)與網(wǎng)絡(luò)[J];計算機(jī)工程與科學(xué);2001年05期

3 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機(jī)研究與發(fā)展;2013年01期

4 周強(qiáng);陳嶺;馬驕陽;趙宇亮;吳勇;王敬昌;;基于改進(jìn)DPhyp算法的Impala查詢優(yōu)化[J];計算機(jī)研究與發(fā)展;2013年S2期

5 張鵬;李鵬霄;任彥;林海倫;楊嶸;鄭超;;面向大數(shù)據(jù)的分布式流處理技術(shù)綜述[J];計算機(jī)研究與發(fā)展;2014年S2期


  本文關(guān)鍵詞:海量數(shù)據(jù)存儲和準(zhǔn)實時查詢系統(tǒng)設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號:391073

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/391073.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c7d8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com