企業(yè)環(huán)境下分布式數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與優(yōu)化技術(shù)的研究
本文選題:分布式系統(tǒng) + 數(shù)據(jù)倉(cāng)庫(kù)。 參考:《北京郵電大學(xué)》2016年碩士論文
【摘要】:進(jìn)入新世紀(jì)以來,在互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)的帶動(dòng)下,企業(yè)可獲得的數(shù)據(jù)量也越來越大。企業(yè)對(duì)數(shù)據(jù)的需求也不再只針對(duì)日常的事務(wù)處理,很多企業(yè)開始構(gòu)建大型的數(shù)據(jù)倉(cāng)庫(kù)來存儲(chǔ)和分析面臨的海量數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)收集不同來源和不同結(jié)構(gòu)的用戶數(shù)據(jù),并把這些數(shù)據(jù)按主題進(jìn)行分類和集成,使得對(duì)同一主題的數(shù)據(jù)的分析結(jié)果更有針對(duì)性和可靠性,對(duì)管理人員的決策也更有參考價(jià)值。目前傳統(tǒng)集中式的數(shù)據(jù)倉(cāng)庫(kù)由于在擴(kuò)展性和性能方面的不足,已開始無法承受對(duì)海量數(shù)據(jù)的處理壓力。Hadoop的興起使人們認(rèn)識(shí)到分布式技術(shù)的強(qiáng)大計(jì)算能力,分布式架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)將成為未來數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的發(fā)展方向。針對(duì)這種情況,本文從數(shù)據(jù)倉(cāng)庫(kù)的分布式架構(gòu)設(shè)計(jì)、元數(shù)據(jù)的統(tǒng)一管理、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與Hadoop開源框架相結(jié)合三方面做出分析和設(shè)計(jì)。結(jié)合Hadoop開源框架、My SQL數(shù)據(jù)庫(kù)、分布式存儲(chǔ)技術(shù)、impala并行查詢技術(shù),設(shè)計(jì)了一套完整的系統(tǒng)架構(gòu)方案。以MapReduce任務(wù)的方式完成對(duì)源數(shù)據(jù)的集成,即ETL(Extract-Transform-Load)工作。在元數(shù)據(jù)管理方面,研究了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的元數(shù)據(jù)管理機(jī)制,以及impala查詢引擎的元數(shù)據(jù)實(shí)現(xiàn)方案,設(shè)計(jì)和實(shí)現(xiàn)了基于MySQL的集中式元數(shù)據(jù)管理模塊。該系統(tǒng)首先通過MapReduce任務(wù)對(duì)源數(shù)據(jù)進(jìn)行抽取和轉(zhuǎn)換,將中間結(jié)果數(shù)據(jù)按照用戶指定的數(shù)據(jù)切分方式進(jìn)行數(shù)據(jù)的分布式劃分,之后進(jìn)行并行導(dǎo)入;由MySQL數(shù)據(jù)庫(kù)以lib的形式存儲(chǔ)和管理系統(tǒng)的元數(shù)據(jù);存儲(chǔ)部分使用一種高效單機(jī)存儲(chǔ)引擎,實(shí)現(xiàn)各存儲(chǔ)節(jié)點(diǎn)對(duì)數(shù)據(jù)的高效存儲(chǔ)和掃描;數(shù)據(jù)的查詢通過impala并行查詢引擎實(shí)現(xiàn),查詢與存儲(chǔ)共用一套元數(shù)據(jù)方案,實(shí)現(xiàn)了元數(shù)據(jù)信息的統(tǒng)一管理。通過該系統(tǒng),企業(yè)用戶不僅可以實(shí)現(xiàn)海量數(shù)據(jù)的高效管理,也可對(duì)數(shù)據(jù)進(jìn)行多維分析處理,為企業(yè)策略的指定和調(diào)整提供數(shù)據(jù)支持。最后,通過實(shí)驗(yàn)測(cè)試分布式系統(tǒng)的導(dǎo)入和查詢性能,通過對(duì)測(cè)試結(jié)果的分析說明該系統(tǒng)在處理企業(yè)數(shù)據(jù)方面是有效的。
[Abstract]:Since entering the new century, with the Internet of things and Internet of things technology, enterprises can obtain more and more data. The demand of enterprises for data is no longer only for daily transaction processing, many enterprises begin to build large data warehouse to store and analyze the huge amount of data. The data warehouse collects user data from different sources and structures, classifies and integrates the data by topic, making the analysis of data on the same subject more relevant and reliable, It is also more valuable for managers to make decisions. At present, due to the lack of scalability and performance of traditional centralized data warehouse, it has been unable to bear the pressure of processing mass data. Hadoop has made people realize the powerful computing power of distributed technology. Data warehouse with distributed architecture will become the development direction of data warehouse system in the future. Aiming at this situation, this paper analyzes and designs the distributed architecture design of data warehouse, the unified management of metadata, the combination of data warehouse technology and Hadoop open source framework. Combined with Hadoop open source framework, my SQL database, distributed storage technology and impala parallel query technology, a complete system architecture scheme is designed. The integration of source data is accomplished by MapReduce task, that is, ETLX Extract-Transform-Load. In the aspect of metadata management, the metadata management mechanism of data warehouse system and the metadata implementation scheme of impala query engine are studied. The centralized metadata management module based on MySQL is designed and implemented. The system firstly extracts and transforms the source data through the MapReduce task, divides the intermediate result data according to the data segmentation mode specified by the user, and then carries on the parallel import. The metadata of the system is stored and managed by the MySQL database in the form of lib. The storage part uses an efficient single-machine storage engine to realize the efficient storage and scanning of the data of each storage node, and the query of the data is realized by the impala parallel query engine. Query and storage share a set of metadata scheme to realize the unified management of metadata information. Through this system, enterprise users can not only realize the efficient management of massive data, but also carry out multidimensional analysis and processing of the data, and provide data support for the designation and adjustment of enterprise policies. Finally, the paper tests the import and query performance of the distributed system through experiments. The analysis of the test results shows that the system is effective in dealing with enterprise data.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 金巖;數(shù)據(jù)倉(cāng)庫(kù)與圖書館的發(fā)展[J];現(xiàn)代圖書情報(bào)技術(shù);2000年03期
2 史金紅,吳永明;影響數(shù)據(jù)倉(cāng)庫(kù)成功的關(guān)鍵因素[J];電子工程師;2000年01期
3 宋玉長(zhǎng),李本勇,郭小紅;如何構(gòu)建銀行數(shù)據(jù)倉(cāng)庫(kù)[J];上海微型計(jì)算機(jī);2000年47期
4 賈納豫;數(shù)據(jù)倉(cāng)庫(kù)的概念與機(jī)制[J];玉溪師范學(xué)院學(xué)報(bào);2000年S1期
5 陳京民;數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的規(guī)劃研究[J];計(jì)算機(jī)與網(wǎng)絡(luò);2000年09期
6 楊順生;數(shù)據(jù)倉(cāng)庫(kù)鎖緊商業(yè)銀行(上)[J];中國(guó)計(jì)算機(jī)用戶;2000年04期
7 ;數(shù)據(jù)倉(cāng)庫(kù)仔細(xì)看[J];每周電腦報(bào);2000年10期
8 禾川;;數(shù)據(jù)倉(cāng)庫(kù)起熱潮之應(yīng)用篇[J];每周電腦報(bào);2000年48期
9 楊順生;;中國(guó)商業(yè)銀行應(yīng)實(shí)施數(shù)據(jù)倉(cāng)庫(kù)[J];金融電子化;2000年03期
10 顧曉姝;;數(shù)據(jù)倉(cāng)庫(kù)體系及其實(shí)現(xiàn)[J];運(yùn)城高等專科學(xué)校學(xué)報(bào);2000年S1期
相關(guān)會(huì)議論文 前10條
1 陳金雄;劉雄飛;王慶森;;醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[A];首屆中國(guó)IT與醫(yī)藥衛(wèi)生高層論壇論文集[C];2004年
2 何朝紅;;數(shù)據(jù)倉(cāng)庫(kù)在我國(guó)企業(yè)的應(yīng)用現(xiàn)狀及實(shí)施策略分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2006年年會(huì)論文集[C];2006年
3 劉奇;;腫瘤專業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建立[A];第四屆中國(guó)腫瘤學(xué)術(shù)大會(huì)暨第五屆海峽兩岸腫瘤學(xué)術(shù)會(huì)議教育集[C];2006年
4 郭遠(yuǎn)遠(yuǎn);舒紅平;宮蕊;;基于數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建和馬爾可夫過程的應(yīng)用研究[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
5 金周;;基于數(shù)據(jù)倉(cāng)庫(kù)的能耗指標(biāo)查詢體系[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2009年會(huì)論文集[C];2009年
6 李潔;李慶忠;王海洋;;一種有效的在線修改數(shù)據(jù)倉(cāng)庫(kù)算法[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
7 馮建華;蔣旭東;劉建民;周立柱;;面向市場(chǎng)分析與預(yù)測(cè)的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
8 王曉玲;謝鴻強(qiáng);劉安;董逸生;;數(shù)據(jù)倉(cāng)庫(kù)建模工具的研制[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
9 張德輝;李建中;;多維壓縮數(shù)據(jù)倉(cāng)庫(kù)上的并行聚集算法[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
10 潘海為;李建中;;數(shù)據(jù)倉(cāng)庫(kù)的并行加載算法[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 于 岫;建設(shè)數(shù)據(jù)倉(cāng)庫(kù) 打造信息時(shí)代的“航母”[N];中國(guó)國(guó)門時(shí)報(bào);2005年
2 莊川 編譯;如何邁出實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的第一步[N];中國(guó)計(jì)算機(jī)報(bào);2005年
3 本報(bào)記者 龔杰;數(shù)據(jù)倉(cāng)庫(kù)解決策之惑[N];計(jì)算機(jī)世界;2004年
4 記者 王璐;上證所建成中國(guó)金融業(yè)最大數(shù)據(jù)倉(cāng)庫(kù)[N];上海證券報(bào);2005年
5 ;數(shù)據(jù)倉(cāng)庫(kù)的歷史[N];中華讀書報(bào);2003年
6 萬振龍;動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)承接歷史與未來[N];網(wǎng)絡(luò)世界;2009年
7 本報(bào)記者 薛斐;數(shù)據(jù)倉(cāng)庫(kù)沙中淘金[N];計(jì)算機(jī)世界;2002年
8 本報(bào)記者 王向東;“數(shù)據(jù)倉(cāng)庫(kù)不是玩酷”[N];計(jì)算機(jī)世界;2003年
9 本報(bào)記者 潘永花;數(shù)據(jù)倉(cāng)庫(kù)崢嶸時(shí)[N];網(wǎng)絡(luò)世界;2003年
10 本報(bào)記者 潘永花;數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)新與眾不同[N];網(wǎng)絡(luò)世界;2010年
相關(guān)博士學(xué)位論文 前10條
1 宋旭東;企業(yè)集團(tuán)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)關(guān)鍵技術(shù)研究[D];大連理工大學(xué);2010年
2 陳燕;數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2000年
3 馮玉;數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中近似查詢處理技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年
4 孫劍;海洋環(huán)境數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘應(yīng)用研究[D];中國(guó)海洋大學(xué);2011年
5 栗然;電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘研究[D];華北電力大學(xué)(河北);2009年
6 李學(xué)鋒;礦山企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用研究[D];昆明理工大學(xué);2005年
7 馬軍杰;基于數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)處理的區(qū)域經(jīng)濟(jì)發(fā)展管理決策支持系統(tǒng)研究[D];華東師范大學(xué);2007年
8 陳金玉;數(shù)據(jù)倉(cāng)庫(kù)實(shí)體化視圖聯(lián)機(jī)—致性維護(hù)研究[D];重慶大學(xué);2002年
9 趙貴菊;勘探開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的模型研究和應(yīng)用[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
10 朱傳華;三峽庫(kù)區(qū)地質(zhì)災(zāi)害數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘應(yīng)用研究[D];中國(guó)地質(zhì)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 高鑫磊;企業(yè)環(huán)境下分布式數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與優(yōu)化技術(shù)的研究[D];北京郵電大學(xué);2016年
2 李佳航;基于數(shù)據(jù)倉(cāng)庫(kù)的銀行中間業(yè)務(wù)系統(tǒng)研究[D];廈門大學(xué);2008年
3 王R,
本文編號(hào):1853721
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1853721.html