基于hadoop的網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2017-04-06 08:05
本文關(guān)鍵詞:基于hadoop的網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:在大型的企業(yè)和互聯(lián)網(wǎng)公司中,每天都會產(chǎn)生非常多的日志文件,數(shù)據(jù)的量級早已突破了TB (Terabyte)的范疇,如何解決日志數(shù)據(jù)分散的問題,如何快速而高效的處理這些日志中的數(shù)據(jù),如何和業(yè)務(wù)數(shù)據(jù)庫相互結(jié)合,將用戶的訪問行為、動作偏好分析出來,已經(jīng)是每一個開始接觸大數(shù)據(jù)的公司都需要考慮的問題。這些問題的解決,可以使企業(yè)在發(fā)展的路上更清晰的了解自身,能使平時累積的數(shù)據(jù)為公司帶來更大的商業(yè)價值。本文從數(shù)據(jù)分析人員的角度出發(fā),研究企業(yè)中常用的數(shù)據(jù)分析技術(shù)和方案,同時參照大數(shù)據(jù)環(huán)境下不斷涌現(xiàn)出的各種新興技術(shù)和工具,將各種技術(shù)的特點進(jìn)行分析,提出了利用它們的配合來優(yōu)化用戶行為數(shù)據(jù)分析的方案,最后設(shè)計出一套涵蓋數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)計算、數(shù)據(jù)可視化的用戶行為分析系統(tǒng)。本文主要研究和完成的主要工作包括:(1)對系統(tǒng)中所需的相關(guān)技術(shù)工具進(jìn)行分析,包括數(shù)據(jù)收集部分中的Flume、 Kafka,構(gòu)建數(shù)據(jù)倉庫的MySQ LInfobrigh、Hive,可用于數(shù)據(jù)計算的Pig,Impa、Spark,生成的可視化圖表的Kibana及用于它源數(shù)據(jù)存儲分析和管理的 Elasticsearch等,通過整理它們的特點,確定最后整個系統(tǒng)中對于技術(shù)工具的選擇。(2)構(gòu)建數(shù)據(jù)倉庫,通過對不同種類不同類型的日志文件做格式的梳理、數(shù)據(jù)的清洗,產(chǎn)生格式標(biāo)準(zhǔn)的干凈數(shù)據(jù)文件,將其和從業(yè)務(wù)數(shù)據(jù)庫導(dǎo)入的數(shù)據(jù)相互配合,來構(gòu)建每個產(chǎn)品的數(shù)據(jù)集,形成數(shù)據(jù)倉庫,以此作為整個用戶行為分析系統(tǒng)的核心數(shù)據(jù)。(3)設(shè)計和研發(fā)自動的數(shù)據(jù)可視化工具,將我們在數(shù)據(jù)倉庫之中產(chǎn)生的數(shù)據(jù),自動映射至Elasticsearch的文件系統(tǒng),同時,在Kibana系統(tǒng)里生成默認(rèn)的圖表,解決常規(guī)數(shù)據(jù)可視化方案操作繁瑣的問題。依照本文設(shè)計方案來構(gòu)建的用戶行為分析系統(tǒng)已在國內(nèi)某社區(qū)互聯(lián)網(wǎng)公司部署使用,經(jīng)過數(shù)月的運行,情況穩(wěn)定,效果良好,大大提升了數(shù)據(jù)分析人員的工作效率,讓針對用戶行為的分析變的更簡單,分析人員也更專注于分析時的邏輯。
【關(guān)鍵詞】:大數(shù)據(jù)管理 行為分析 日志處理 大數(shù)據(jù)存儲 數(shù)據(jù)可視化
【學(xué)位授予單位】:中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52;TP393.092
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-17
- 1.1 研究背景與意義11-12
- 1.2 本課題的研究進(jìn)展12-14
- 1.2.1 OLTP與OLAP12-13
- 1.2.2 OLAP與廣義的數(shù)據(jù)分析13-14
- 1.3 本文主要研究內(nèi)容14-17
- 第二章 系統(tǒng)相關(guān)技術(shù)分析17-35
- 2.1 Hadoop核心技術(shù)分析17-20
- 2.1.1 分布式數(shù)據(jù)存儲技術(shù)17-19
- 2.1.2 分布式數(shù)據(jù)計算技術(shù)19-20
- 2.1.3 資源調(diào)度與任務(wù)管理20
- 2.2 基于Hadoop的數(shù)據(jù)收集技術(shù)20-23
- 2.2.1 數(shù)據(jù)收集的方法與策略20-21
- 2.2.2 分布式的收集策略21-22
- 2.2.3 流式數(shù)據(jù)分發(fā)策略22-23
- 2.3 基于Hadoop的數(shù)據(jù)倉庫技術(shù)23-30
- 2.3.1 數(shù)據(jù)倉庫的意義和特點23-25
- 2.3.2 數(shù)據(jù)清洗技術(shù)分析25-27
- 2.3.3 數(shù)據(jù)倉庫構(gòu)建技術(shù)分析27-30
- 2.4 數(shù)據(jù)可視化相關(guān)技術(shù)30-33
- 2.4.1 可視化的意義30
- 2.4.2 數(shù)據(jù)預(yù)載可視化技術(shù)30-32
- 2.4.3 數(shù)據(jù)動態(tài)可視化技術(shù)32-33
- 2.5 本章小結(jié)33-35
- 第三章 網(wǎng)站用戶的行為分析35-45
- 3.1 用戶行為分析意義35-36
- 3.1.1 網(wǎng)站用戶行為的特點35-36
- 3.1.2 行為分析的目的36
- 3.2 網(wǎng)站用戶行為構(gòu)成與分類36-39
- 3.2.1 網(wǎng)站用戶行為的構(gòu)成36-37
- 3.2.2 用戶瀏覽型行為分析37-38
- 3.2.3 用戶業(yè)務(wù)型行為分析38-39
- 3.3 用戶行為分析方法39-43
- 3.3.1 通過用戶行為細(xì)分用戶40-42
- 3.3.2 通過用戶行為進(jìn)行用戶畫像42-43
- 3.4 本章小結(jié)43-45
- 第四章 網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)45-79
- 4.1 行為分析系統(tǒng)需求分析45-47
- 4.1.1 系統(tǒng)介紹及功能需求45
- 4.1.2 數(shù)據(jù)收集和存儲功能需求45-46
- 4.1.3 數(shù)據(jù)計算功能需求46-47
- 4.1.4 數(shù)據(jù)可視化功能需求47
- 4.2 系統(tǒng)架構(gòu)設(shè)計47-54
- 4.2.1 系統(tǒng)整體架構(gòu)設(shè)計47-48
- 4.2.2 數(shù)據(jù)采集功能設(shè)計48-52
- 4.2.3 數(shù)據(jù)存儲功能設(shè)計52-53
- 4.2.4 數(shù)據(jù)可視化功能設(shè)計53-54
- 4.3 數(shù)據(jù)倉庫架構(gòu)設(shè)計54-60
- 4.3.1 用戶主題倉庫的設(shè)計與建設(shè)54-56
- 4.3.2 問題主題倉庫的設(shè)計與建設(shè)56-57
- 4.3.3 回答主題倉庫的設(shè)計與建設(shè)57-58
- 4.3.4 訪問主題倉庫的設(shè)計與建設(shè)58-60
- 4.4 系統(tǒng)架構(gòu)的實現(xiàn)與部署60-77
- 4.4.1 對HDFS的配置和優(yōu)化60-61
- 4.4.2 對Hive的配置和優(yōu)化61-63
- 4.4.3 Impala和Hive的互相搭配63-65
- 4.4.4 針對Spark的修改和優(yōu)化65-67
- 4.4.5 通過YARN管理計算資源的分配67-70
- 4.4.6 對數(shù)據(jù)倉庫中數(shù)據(jù)的預(yù)處理70-73
- 4.4.7 可視化圖表生成服務(wù)實現(xiàn)與部署73-77
- 4.5 系統(tǒng)部署環(huán)境77-78
- 4.6 本章小結(jié)78-79
- 第五章 系統(tǒng)的實際應(yīng)用及評估79-93
- 5.1 系統(tǒng)運行環(huán)境79-83
- 5.1.1 硬件環(huán)境79-81
- 5.1.2 軟件環(huán)境81-83
- 5.2 部署實施83-88
- 5.2.1 數(shù)據(jù)收集與存儲的部署83-85
- 5.2.2 數(shù)據(jù)倉庫的構(gòu)建85-86
- 5.2.3 計算工具的集成86-87
- 5.2.4 可視化服務(wù)的部署與設(shè)置87-88
- 5.3 效果評估88-92
- 5.3.1 數(shù)據(jù)收集的效果評估88-89
- 5.3.2 計算能力的效果評估89
- 5.3.3 數(shù)據(jù)可視化的效果評估89-92
- 5.4 本章小結(jié)92-93
- 第六章 結(jié)論與展望93-95
- 6.1 論文工作總結(jié)93
- 6.2 未來工作展望93-95
- 參考文獻(xiàn)95-99
- 致謝99-101
- 個人簡歷、在學(xué)期間發(fā)表的論文與研究成果101
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳峰科;孫眾毅;池明e
本文編號:288522
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/288522.html
最近更新
教材專著