基于Hadoop的離線數(shù)據(jù)分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-13 03:33
近幾年,隨著電子商務(wù)的飛速發(fā)展,用戶所產(chǎn)生的日志數(shù)據(jù)與日俱增。但原始的海量數(shù)據(jù)存在大量的噪音、不一致、甚至垃圾數(shù)據(jù),需要將數(shù)據(jù)進(jìn)行清洗、過(guò)濾、解析等一系列過(guò)程,才能凝練出具有應(yīng)用價(jià)值的信息。針對(duì)上述問(wèn)題,本文設(shè)計(jì)并實(shí)現(xiàn)了一套基于Hadoop的離線數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)了離線數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)收集模塊、數(shù)據(jù)解析模塊以及數(shù)據(jù)展示模塊。其中數(shù)據(jù)收集模塊主要通過(guò)編寫(xiě)JavaScript文件使用戶的操作行為觸發(fā)自定義方法來(lái)收集用戶數(shù)據(jù);數(shù)據(jù)解析模塊主要運(yùn)用Hadoop技術(shù)中的MapReduce編程模型和Hive腳本對(duì)數(shù)據(jù)進(jìn)行解析處理,并將數(shù)據(jù)按照自定義的八個(gè)分析角度進(jìn)行具體計(jì)算,達(dá)到數(shù)據(jù)解析的主要功能實(shí)現(xiàn);數(shù)據(jù)展示模塊則主要通過(guò)將解析后數(shù)據(jù)與開(kāi)源的HighCharts圖表相結(jié)合的方式展示在平臺(tái)頁(yè)面中,便于對(duì)數(shù)據(jù)解析結(jié)果的探究工作。由此,電商網(wǎng)站通過(guò)對(duì)本文所搭建平臺(tái)的使用,可使其得出是否存在用戶流失問(wèn)題、會(huì)員中性別或年齡段占比問(wèn)題、用戶對(duì)各個(gè)瀏覽器以及手機(jī)系統(tǒng)使用的偏好問(wèn)題、會(huì)員訂單量的地區(qū)分布問(wèn)題、網(wǎng)站頁(yè)面是否因用戶體驗(yàn)不舒服造成瀏覽層級(jí)較少問(wèn)題、節(jié)日或營(yíng)銷(xiāo)活動(dòng)銷(xiāo)售額占比以及訂單量對(duì)比問(wèn)題等。并通過(guò)...
【文章來(lái)源】:河北工程大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
平臺(tái)具體過(guò)程圖
第 3 章 離線數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)塊的具體工作流程可概括為:編寫(xiě)收集數(shù)據(jù)信息的面按鈕以及瀏覽前端頁(yè)面的行為能夠觸發(fā)JavaScrip后,將 JavaScript 文件收集到的數(shù)據(jù)通過(guò) sdk 工具包 Linux 系統(tǒng)的某個(gè)文件中。最后,使用 Flume日志收文件,將文件寫(xiě)進(jìn) Hadoop 的 HDFS 文件系統(tǒng)中,并旦日志文件發(fā)生變化,F(xiàn)lume 系統(tǒng)就會(huì)將變化的數(shù)據(jù)。數(shù)據(jù)收集模塊流程圖如圖 3-2 所示:
河北工程大學(xué)碩士學(xué)位論文并將清洗后的數(shù)據(jù)導(dǎo)出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的數(shù)據(jù),然后將數(shù)據(jù)經(jīng)過(guò)自定義編寫(xiě)MapReduce 文件或 Hive 文件進(jìn)行數(shù)據(jù)解析計(jì)算,最后將分析后的數(shù)據(jù)分別導(dǎo)MySQL 數(shù)據(jù)庫(kù)中。數(shù)據(jù)解析模塊流程圖如圖 3-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)的應(yīng)用現(xiàn)狀與未來(lái)展望[J]. 白建森. 電腦迷. 2018(09)
[2]利用Mysql存儲(chǔ)過(guò)程方法產(chǎn)生模擬表數(shù)據(jù)[J]. 俞海. 電腦知識(shí)與技術(shù). 2018(20)
[3]基于Nginx技術(shù)的直播平臺(tái)[J]. 陸亮. 視聽(tīng)界(廣播電視技術(shù)). 2018(03)
[4]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識(shí)與技術(shù). 2018(09)
[5]Sqoop數(shù)據(jù)收集與入庫(kù)系統(tǒng)的應(yīng)用[J]. 楊彬. 電子制作. 2017(21)
[6]大數(shù)據(jù)分析對(duì)電子商務(wù)營(yíng)銷(xiāo)的促進(jìn)意義[J]. 陳悅. 產(chǎn)業(yè)與科技論壇. 2017(16)
[7]基于Hive的支付SDK日志分析系統(tǒng)的設(shè)計(jì)研究[J]. 王建輝,李濤. 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[8]基于Hadoop的分布式文件系統(tǒng)[J]. 陳忠義. 電子技術(shù)與軟件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳飛,艾中良. 軟件. 2016(12)
[10]關(guān)于Mybatis持久層框架的應(yīng)用研究[J]. 榮艷冬. 信息安全與技術(shù). 2015(12)
碩士論文
[1]基于Hive的日志分析系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 王建輝.南京郵電大學(xué) 2017
[2]日志數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 許長(zhǎng)福.北京交通大學(xué) 2017
[3]基于大數(shù)據(jù)平臺(tái)的電信用戶行為日志分析研究[D]. 袁丹.成都理工大學(xué) 2017
[4]基于Hadoop的電信大數(shù)據(jù)分析的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹茜茜.西安科技大學(xué) 2015
[5]基于Hadoop的Web日志的分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 付偉.北京郵電大學(xué) 2015
[6]HBase存儲(chǔ)的研究與應(yīng)用[D]. 馮曉普.北京郵電大學(xué) 2014
[7]Spring框架技術(shù)分析及應(yīng)用研究[D]. 翟劍錕.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2013
本文編號(hào):3492235
【文章來(lái)源】:河北工程大學(xué)河北省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
平臺(tái)具體過(guò)程圖
第 3 章 離線數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)塊的具體工作流程可概括為:編寫(xiě)收集數(shù)據(jù)信息的面按鈕以及瀏覽前端頁(yè)面的行為能夠觸發(fā)JavaScrip后,將 JavaScript 文件收集到的數(shù)據(jù)通過(guò) sdk 工具包 Linux 系統(tǒng)的某個(gè)文件中。最后,使用 Flume日志收文件,將文件寫(xiě)進(jìn) Hadoop 的 HDFS 文件系統(tǒng)中,并旦日志文件發(fā)生變化,F(xiàn)lume 系統(tǒng)就會(huì)將變化的數(shù)據(jù)。數(shù)據(jù)收集模塊流程圖如圖 3-2 所示:
河北工程大學(xué)碩士學(xué)位論文并將清洗后的數(shù)據(jù)導(dǎo)出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的數(shù)據(jù),然后將數(shù)據(jù)經(jīng)過(guò)自定義編寫(xiě)MapReduce 文件或 Hive 文件進(jìn)行數(shù)據(jù)解析計(jì)算,最后將分析后的數(shù)據(jù)分別導(dǎo)MySQL 數(shù)據(jù)庫(kù)中。數(shù)據(jù)解析模塊流程圖如圖 3-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)的應(yīng)用現(xiàn)狀與未來(lái)展望[J]. 白建森. 電腦迷. 2018(09)
[2]利用Mysql存儲(chǔ)過(guò)程方法產(chǎn)生模擬表數(shù)據(jù)[J]. 俞海. 電腦知識(shí)與技術(shù). 2018(20)
[3]基于Nginx技術(shù)的直播平臺(tái)[J]. 陸亮. 視聽(tīng)界(廣播電視技術(shù)). 2018(03)
[4]Hadoop綜述[J]. 李元亨,鄒學(xué)玉. 電腦知識(shí)與技術(shù). 2018(09)
[5]Sqoop數(shù)據(jù)收集與入庫(kù)系統(tǒng)的應(yīng)用[J]. 楊彬. 電子制作. 2017(21)
[6]大數(shù)據(jù)分析對(duì)電子商務(wù)營(yíng)銷(xiāo)的促進(jìn)意義[J]. 陳悅. 產(chǎn)業(yè)與科技論壇. 2017(16)
[7]基于Hive的支付SDK日志分析系統(tǒng)的設(shè)計(jì)研究[J]. 王建輝,李濤. 計(jì)算機(jī)應(yīng)用與軟件. 2017(07)
[8]基于Hadoop的分布式文件系統(tǒng)[J]. 陳忠義. 電子技術(shù)與軟件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳飛,艾中良. 軟件. 2016(12)
[10]關(guān)于Mybatis持久層框架的應(yīng)用研究[J]. 榮艷冬. 信息安全與技術(shù). 2015(12)
碩士論文
[1]基于Hive的日志分析系統(tǒng)的實(shí)現(xiàn)與優(yōu)化[D]. 王建輝.南京郵電大學(xué) 2017
[2]日志數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 許長(zhǎng)福.北京交通大學(xué) 2017
[3]基于大數(shù)據(jù)平臺(tái)的電信用戶行為日志分析研究[D]. 袁丹.成都理工大學(xué) 2017
[4]基于Hadoop的電信大數(shù)據(jù)分析的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹茜茜.西安科技大學(xué) 2015
[5]基于Hadoop的Web日志的分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 付偉.北京郵電大學(xué) 2015
[6]HBase存儲(chǔ)的研究與應(yīng)用[D]. 馮曉普.北京郵電大學(xué) 2014
[7]Spring框架技術(shù)分析及應(yīng)用研究[D]. 翟劍錕.中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2013
本文編號(hào):3492235
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3492235.html
最近更新
教材專(zhuān)著