基于Hive的物流數(shù)據(jù)倉庫研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Hive的物流數(shù)據(jù)倉庫研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,Hadoop已經(jīng)得到學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可。Hive作為構(gòu)建于Hadoop集群之上的開源數(shù)據(jù)倉庫應(yīng)用,具備模式自由、高可擴(kuò)展性和高容錯(cuò)性的特點(diǎn),能夠很好地滿足企業(yè)級(jí)數(shù)據(jù)倉庫的需求。因此,越來越多的物流企業(yè)開始考慮如何利用Hive數(shù)據(jù)倉庫帶來的優(yōu)勢(shì),完善自身的信息化建設(shè)。本文以某物流信息系統(tǒng)軟件公司(以下稱DK公司)的智慧物流大數(shù)據(jù)平臺(tái)項(xiàng)目為背景,在充分研究物流公司業(yè)務(wù)需求的基礎(chǔ)上,對(duì)基于Hive的物流數(shù)據(jù)倉庫進(jìn)行了總體架構(gòu)設(shè)計(jì),同時(shí)選擇了開發(fā)語言,并分析了實(shí)現(xiàn)方法。針對(duì)物流企業(yè)數(shù)據(jù)倉庫擴(kuò)展性不好、運(yùn)行自動(dòng)化程度不高、處理大規(guī)模數(shù)據(jù)效果較差等問題,在對(duì)基于Hive的物流數(shù)據(jù)倉庫進(jìn)行分析和設(shè)計(jì)的基礎(chǔ)上,本文提出物流數(shù)據(jù)倉庫的具體實(shí)現(xiàn)方案,該數(shù)據(jù)倉庫結(jié)合高校云平臺(tái)虛擬化技術(shù),能夠提供高可擴(kuò)展性。另外,數(shù)據(jù)倉庫的數(shù)據(jù)抽取轉(zhuǎn)換加載過程和數(shù)據(jù)查詢分析處理過程能夠滿足自動(dòng)化需求,不需要任何人工干預(yù)。并且利用MapReduce并行計(jì)算的優(yōu)勢(shì),能夠很好地支持大規(guī)模物流數(shù)據(jù)的處理。本文首先對(duì)國(guó)內(nèi)外現(xiàn)狀和大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行介紹,主要對(duì)比了Hive數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫,研究了Hive數(shù)據(jù)倉庫的優(yōu)缺點(diǎn),并提出其適用場(chǎng)景。然后,以DK公司智慧物流大數(shù)據(jù)平臺(tái)項(xiàng)目為背景,對(duì)基于Hive的物流數(shù)據(jù)倉庫進(jìn)行需求分析和系統(tǒng)架構(gòu)設(shè)計(jì),提出實(shí)現(xiàn)該數(shù)據(jù)倉庫的技術(shù)方案。進(jìn)而基于學(xué)校云平臺(tái),部署了Hadoop、Sqoop和Hive環(huán)境,搭建了基于虛擬化技術(shù)的大數(shù)據(jù)處理平臺(tái),同時(shí),基于此平臺(tái),從數(shù)據(jù)ETL和數(shù)據(jù)查詢分析處理兩方面實(shí)現(xiàn)了基于Hive的物流數(shù)據(jù)倉庫,包括數(shù)據(jù)倉庫的可擴(kuò)展性研究、自動(dòng)化多線程ETL腳本編寫及其最佳線程數(shù)研究、Hive數(shù)據(jù)存儲(chǔ)分析、Hive數(shù)據(jù)前置處理、查詢分析處理、后置處理腳本實(shí)現(xiàn)。最后通過Hive數(shù)據(jù)倉庫運(yùn)行效果,評(píng)估了本項(xiàng)目的價(jià)值,從不同業(yè)務(wù)角度證明了該系統(tǒng)能夠很好地支持企業(yè)管理層決策。
【關(guān)鍵詞】:智慧物流大數(shù)據(jù)平臺(tái) Hive數(shù)據(jù)倉庫 ETL 查詢分析
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-6
- ABSTRACT6-9
- 1 緒論9-16
- 1.1 選題背景和意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
- 1.3 研究?jī)?nèi)容11-14
- 1.4 論文組織結(jié)構(gòu)14-16
- 2 相關(guān)技術(shù)16-30
- 2.1 Hadoop16-17
- 2.2 傳統(tǒng)數(shù)據(jù)倉庫17-20
- 2.3 Hive數(shù)據(jù)倉庫20-26
- 2.4 Sqoop26-28
- 2.5 數(shù)據(jù)ETL28-29
- 2.6 本章小結(jié)29-30
- 3 基于Hive的物流數(shù)據(jù)倉庫分析與設(shè)計(jì)30-42
- 3.1 需求整理30-34
- 3.1.1 功能性需求30-33
- 3.1.2 非功能性需求33-34
- 3.2 系統(tǒng)設(shè)計(jì)34-36
- 3.2.1 總體架構(gòu)設(shè)計(jì)34-35
- 3.2.2 開發(fā)語言選擇35-36
- 3.3 技術(shù)方案36-41
- 3.3.0 數(shù)據(jù)處理平臺(tái)36-37
- 3.3.1 數(shù)據(jù)ETL37
- 3.3.2 數(shù)據(jù)存儲(chǔ)37-39
- 3.3.3 前置處理39-40
- 3.3.4 查詢分析處理40
- 3.3.5 后置處理40-41
- 3.3.6 Web設(shè)計(jì)41
- 3.4 本章小結(jié)41-42
- 4 基于Hive的物流數(shù)據(jù)倉庫實(shí)現(xiàn)42-68
- 4.1 基于虛擬化的大數(shù)據(jù)平臺(tái)搭建42-54
- 4.1.1 Hadoop集群搭建42-49
- 4.1.2 Hive環(huán)境部署49-51
- 4.1.3 Sqoop環(huán)境部署51-53
- 4.1.4 數(shù)據(jù)倉庫擴(kuò)展53-54
- 4.2 數(shù)據(jù)ETL自動(dòng)化54-59
- 4.2.1 多線程ETL自動(dòng)化54-57
- 4.2.2 ETL最佳線程數(shù)研究57-59
- 4.3 數(shù)據(jù)處理實(shí)現(xiàn)59-64
- 4.3.1 前置處理59-61
- 4.3.2 查詢分析處理61-63
- 4.3.3 后置處理63-64
- 4.4 Web應(yīng)用64-67
- 4.5 本章小結(jié)67-68
- 5 基于Hive的物流數(shù)據(jù)倉庫運(yùn)行68-77
- 5.1 Hive數(shù)據(jù)倉庫運(yùn)行68-70
- 5.1.1 ETL過程監(jiān)控68-69
- 5.1.2 數(shù)據(jù)處理過程監(jiān)控69-70
- 5.2 Web展示70-76
- 5.2.1 面單全程分析71
- 5.2.2 面單妥投分析71-74
- 5.2.3 掃描流量分析74
- 5.2.4 網(wǎng)點(diǎn)吞吐分析74-75
- 5.2.5 流向時(shí)效分析75-76
- 5.2.6 快遞財(cái)務(wù)看板76
- 5.3 本章小結(jié)76-77
- 6 總結(jié)與展望77-79
- 6.1 總結(jié)77
- 6.2 展望77-79
- 參考文獻(xiàn)79-81
- 攻讀碩士期間發(fā)表的論文81-82
- 致謝82
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 馮強(qiáng);鄭垂勇;;商業(yè)智能技術(shù)在物流企業(yè)數(shù)據(jù)倉庫設(shè)計(jì)中的應(yīng)用[J];物流技術(shù);2015年14期
2 王緩緩;郭敬義;張警燦;余肖生;;基于Hadoop的數(shù)據(jù)倉庫構(gòu)建模式研究[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2015年07期
3 孔曉華;;OLAP技術(shù)在進(jìn)口圖書數(shù)據(jù)分析中的應(yīng)用研究[J];電子科學(xué)技術(shù);2015年04期
4 吳明禮;張宏安;李也白;;基于Hadoop的高性能數(shù)據(jù)倉庫建設(shè)研究[J];信息與電腦(理論版);2015年09期
5 于鵑;;數(shù)據(jù)倉庫與大數(shù)據(jù)融合的探討[J];電信科學(xué);2015年03期
6 鄭柏恒;孟文;易東;梁曉波;;在Hadoop集群下的智能電網(wǎng)數(shù)據(jù)云倉庫設(shè)計(jì)[J];制造業(yè)自動(dòng)化;2014年19期
7 黃永勤;;國(guó)外大數(shù)據(jù)研究熱點(diǎn)及發(fā)展趨勢(shì)探析[J];情報(bào)雜志;2014年06期
8 王德文;肖凱;肖磊;;基于Hive的電力設(shè)備狀態(tài)信息數(shù)據(jù)倉庫[J];電力系統(tǒng)保護(hù)與控制;2013年09期
9 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計(jì)算機(jī)研究與發(fā)展;2013年01期
10 牛瑞瑞;;一種基于數(shù)據(jù)倉庫的物流系統(tǒng)構(gòu)建研究[J];信息與電腦(理論版);2012年11期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 盧偉濤;海量數(shù)據(jù)分析平臺(tái)中數(shù)據(jù)交換模塊的研究和實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
2 張京一;基于Hadoop的Web查詢平臺(tái)的權(quán)限控制與性能優(yōu)化模塊[D];北京郵電大學(xué);2015年
3 胡靖楓;商務(wù)智能在企業(yè)物流決策中的應(yīng)用研究[D];浙江理工大學(xué);2015年
4 費(fèi)仕憶;Hadoop大數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D];東華大學(xué);2014年
5 王玉梅;T公司物流管理信息系統(tǒng)的方案設(shè)計(jì)[D];大連海事大學(xué);2014年
6 黃佳;并行ETL工具可擴(kuò)展技術(shù)的研究和開發(fā)[D];北京郵電大學(xué);2014年
7 吳娟;一個(gè)視頻網(wǎng)站數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2012年
8 肖之慰;面向多核集群的層次化MapReduce模型的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年
9 賈文娟;基于hive分布式計(jì)算與數(shù)據(jù)挖掘的關(guān)聯(lián)性營(yíng)銷的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
10 葉文宸;基于hive的性能優(yōu)化方法的研究與實(shí)踐[D];南京大學(xué);2011年
本文關(guān)鍵詞:基于Hive的物流數(shù)據(jù)倉庫研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):424964
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/424964.html