基于Hadoop的離線數(shù)據(jù)分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-13 03:33
近幾年,隨著電子商務(wù)的飛速發(fā)展,用戶所產(chǎn)生的日志數(shù)據(jù)與日俱增。但原始的海量數(shù)據(jù)存在大量的噪音、不一致、甚至垃圾數(shù)據(jù),需要將數(shù)據(jù)進(jìn)行清洗、過濾、解析等一系列過程,才能凝練出具有應(yīng)用價(jià)值的信息。針對上述問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一套基于Hadoop的離線數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)了離線數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)收集模塊、數(shù)據(jù)解析模塊以及數(shù)據(jù)展示模塊。其中數(shù)據(jù)收集模塊主要通過編寫JavaScript文件使用戶的操作行為觸發(fā)自定義方法來收集用戶數(shù)據(jù);數(shù)據(jù)解析模塊主要運(yùn)用Hadoop技術(shù)中的MapReduce編程模型和Hive腳本對數(shù)據(jù)進(jìn)行解析處理,并將數(shù)據(jù)按照自定義的八個(gè)分析角度進(jìn)行具體計(jì)算,達(dá)到數(shù)據(jù)解析的主要功能實(shí)現(xiàn);數(shù)據(jù)展示模塊則主要通過將解析后數(shù)據(jù)與開源的HighCharts圖表相結(jié)合的方式展示在平臺(tái)頁面中,便于對數(shù)據(jù)解析結(jié)果的探究工作。由此,電商網(wǎng)站通過對本文所搭建平臺(tái)的使用,可使其得出是否存在用戶流失問題、會(huì)員中性別或年齡段占比問題、用戶對各個(gè)瀏覽器以及手機(jī)系統(tǒng)使用的偏好問題、會(huì)員訂單量的地區(qū)分布問題、網(wǎng)站頁面是否因用戶體驗(yàn)不舒服造成瀏覽層級較少問題、節(jié)日或營銷活動(dòng)銷售額占比以及訂單量對比問題等。并通過...
【文章來源】:河北工程大學(xué)河北省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
平臺(tái)具體過程圖
第 3 章 離線數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)塊的具體工作流程可概括為:編寫收集數(shù)據(jù)信息的面按鈕以及瀏覽前端頁面的行為能夠觸發(fā)JavaScrip后,將 JavaScript 文件收集到的數(shù)據(jù)通過 sdk 工具包 Linux 系統(tǒng)的某個(gè)文件中。最后,使用 Flume日志收文件,將文件寫進(jìn) Hadoop 的 HDFS 文件系統(tǒng)中,并旦日志文件發(fā)生變化,F(xiàn)lume 系統(tǒng)就會(huì)將變化的數(shù)據(jù)。數(shù)據(jù)收集模塊流程圖如圖 3-2 所示:
河北工程大學(xué)碩士學(xué)位論文并將清洗后的數(shù)據(jù)導(dǎo)出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的數(shù)據(jù),然后將數(shù)據(jù)經(jīng)過自定義編寫MapReduce 文件或 Hive 文件進(jìn)行數(shù)據(jù)解析計(jì)算,最后將分析后的數(shù)據(jù)分別導(dǎo)MySQL 數(shù)據(jù)庫中。數(shù)據(jù)解析模塊流程圖如圖 3-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)的應(yīng)用現(xiàn)狀與未來展望[J]. 白建森. 電腦迷. 2018(09)
[2]利用Mysql存儲(chǔ)過程方法產(chǎn)生模擬表數(shù)據(jù)[J]. 俞海. 電腦知識(shí)與技術(shù). 2018(20)
[3]基于Nginx技術(shù)的直播平臺(tái)[J]. 陸亮. 視聽界(廣播電視技術(shù)). 2018(03)
[4]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識(shí)與技術(shù). 2018(09)
[5]Sqoop數(shù)據(jù)收集與入庫系統(tǒng)的應(yīng)用[J]. 楊彬. 電子制作. 2017(21)
[6]大數(shù)據(jù)分析對電子商務(wù)營銷的促進(jìn)意義[J]. 陳悅. 產(chǎn)業(yè)與科技論壇. 2017(16)
[7]基于Hive的支付SDK日志分析系統(tǒng)的設(shè)計(jì)研究[J]. 王建輝,李濤. 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[8]基于Hadoop的分布式文件系統(tǒng)[J]. 陳忠義. 電子技術(shù)與軟件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳飛,艾中良. 軟件. 2016(12)
[10]關(guān)于Mybatis持久層框架的應(yīng)用研究[J]. 榮艷冬. 信息安全與技術(shù). 2015(12)
碩士論文
[1]基于Hive的日志分析系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 王建輝.南京郵電大學(xué) 2017
[2]日志數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 許長福.北京交通大學(xué) 2017
[3]基于大數(shù)據(jù)平臺(tái)的電信用戶行為日志分析研究[D]. 袁丹.成都理工大學(xué) 2017
[4]基于Hadoop的電信大數(shù)據(jù)分析的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹茜茜.西安科技大學(xué) 2015
[5]基于Hadoop的Web日志的分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 付偉.北京郵電大學(xué) 2015
[6]HBase存儲(chǔ)的研究與應(yīng)用[D]. 馮曉普.北京郵電大學(xué) 2014
[7]Spring框架技術(shù)分析及應(yīng)用研究[D]. 翟劍錕.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2013
本文編號(hào):3492235
【文章來源】:河北工程大學(xué)河北省
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
平臺(tái)具體過程圖
第 3 章 離線數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)塊的具體工作流程可概括為:編寫收集數(shù)據(jù)信息的面按鈕以及瀏覽前端頁面的行為能夠觸發(fā)JavaScrip后,將 JavaScript 文件收集到的數(shù)據(jù)通過 sdk 工具包 Linux 系統(tǒng)的某個(gè)文件中。最后,使用 Flume日志收文件,將文件寫進(jìn) Hadoop 的 HDFS 文件系統(tǒng)中,并旦日志文件發(fā)生變化,F(xiàn)lume 系統(tǒng)就會(huì)將變化的數(shù)據(jù)。數(shù)據(jù)收集模塊流程圖如圖 3-2 所示:
河北工程大學(xué)碩士學(xué)位論文并將清洗后的數(shù)據(jù)導(dǎo)出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的數(shù)據(jù),然后將數(shù)據(jù)經(jīng)過自定義編寫MapReduce 文件或 Hive 文件進(jìn)行數(shù)據(jù)解析計(jì)算,最后將分析后的數(shù)據(jù)分別導(dǎo)MySQL 數(shù)據(jù)庫中。數(shù)據(jù)解析模塊流程圖如圖 3-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)的應(yīng)用現(xiàn)狀與未來展望[J]. 白建森. 電腦迷. 2018(09)
[2]利用Mysql存儲(chǔ)過程方法產(chǎn)生模擬表數(shù)據(jù)[J]. 俞海. 電腦知識(shí)與技術(shù). 2018(20)
[3]基于Nginx技術(shù)的直播平臺(tái)[J]. 陸亮. 視聽界(廣播電視技術(shù)). 2018(03)
[4]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識(shí)與技術(shù). 2018(09)
[5]Sqoop數(shù)據(jù)收集與入庫系統(tǒng)的應(yīng)用[J]. 楊彬. 電子制作. 2017(21)
[6]大數(shù)據(jù)分析對電子商務(wù)營銷的促進(jìn)意義[J]. 陳悅. 產(chǎn)業(yè)與科技論壇. 2017(16)
[7]基于Hive的支付SDK日志分析系統(tǒng)的設(shè)計(jì)研究[J]. 王建輝,李濤. 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[8]基于Hadoop的分布式文件系統(tǒng)[J]. 陳忠義. 電子技術(shù)與軟件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳飛,艾中良. 軟件. 2016(12)
[10]關(guān)于Mybatis持久層框架的應(yīng)用研究[J]. 榮艷冬. 信息安全與技術(shù). 2015(12)
碩士論文
[1]基于Hive的日志分析系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 王建輝.南京郵電大學(xué) 2017
[2]日志數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 許長福.北京交通大學(xué) 2017
[3]基于大數(shù)據(jù)平臺(tái)的電信用戶行為日志分析研究[D]. 袁丹.成都理工大學(xué) 2017
[4]基于Hadoop的電信大數(shù)據(jù)分析的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹茜茜.西安科技大學(xué) 2015
[5]基于Hadoop的Web日志的分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 付偉.北京郵電大學(xué) 2015
[6]HBase存儲(chǔ)的研究與應(yīng)用[D]. 馮曉普.北京郵電大學(xué) 2014
[7]Spring框架技術(shù)分析及應(yīng)用研究[D]. 翟劍錕.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2013
本文編號(hào):3492235
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3492235.html
最近更新
教材專著