天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于hadoop的網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2017-04-06 08:05

  本文關(guān)鍵詞:基于hadoop的網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:在大型的企業(yè)和互聯(lián)網(wǎng)公司中,每天都會產(chǎn)生非常多的日志文件,數(shù)據(jù)的量級早已突破了TB (Terabyte)的范疇,如何解決日志數(shù)據(jù)分散的問題,如何快速而高效的處理這些日志中的數(shù)據(jù),如何和業(yè)務(wù)數(shù)據(jù)庫相互結(jié)合,將用戶的訪問行為、動作偏好分析出來,已經(jīng)是每一個開始接觸大數(shù)據(jù)的公司都需要考慮的問題。這些問題的解決,可以使企業(yè)在發(fā)展的路上更清晰的了解自身,能使平時累積的數(shù)據(jù)為公司帶來更大的商業(yè)價值。本文從數(shù)據(jù)分析人員的角度出發(fā),研究企業(yè)中常用的數(shù)據(jù)分析技術(shù)和方案,同時參照大數(shù)據(jù)環(huán)境下不斷涌現(xiàn)出的各種新興技術(shù)和工具,將各種技術(shù)的特點進(jìn)行分析,提出了利用它們的配合來優(yōu)化用戶行為數(shù)據(jù)分析的方案,最后設(shè)計出一套涵蓋數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)計算、數(shù)據(jù)可視化的用戶行為分析系統(tǒng)。本文主要研究和完成的主要工作包括:(1)對系統(tǒng)中所需的相關(guān)技術(shù)工具進(jìn)行分析,包括數(shù)據(jù)收集部分中的Flume、 Kafka,構(gòu)建數(shù)據(jù)倉庫的MySQ LInfobrigh、Hive,可用于數(shù)據(jù)計算的Pig,Impa、Spark,生成的可視化圖表的Kibana及用于它源數(shù)據(jù)存儲分析和管理的 Elasticsearch等,通過整理它們的特點,確定最后整個系統(tǒng)中對于技術(shù)工具的選擇。(2)構(gòu)建數(shù)據(jù)倉庫,通過對不同種類不同類型的日志文件做格式的梳理、數(shù)據(jù)的清洗,產(chǎn)生格式標(biāo)準(zhǔn)的干凈數(shù)據(jù)文件,將其和從業(yè)務(wù)數(shù)據(jù)庫導(dǎo)入的數(shù)據(jù)相互配合,來構(gòu)建每個產(chǎn)品的數(shù)據(jù)集,形成數(shù)據(jù)倉庫,以此作為整個用戶行為分析系統(tǒng)的核心數(shù)據(jù)。(3)設(shè)計和研發(fā)自動的數(shù)據(jù)可視化工具,將我們在數(shù)據(jù)倉庫之中產(chǎn)生的數(shù)據(jù),自動映射至Elasticsearch的文件系統(tǒng),同時,在Kibana系統(tǒng)里生成默認(rèn)的圖表,解決常規(guī)數(shù)據(jù)可視化方案操作繁瑣的問題。依照本文設(shè)計方案來構(gòu)建的用戶行為分析系統(tǒng)已在國內(nèi)某社區(qū)互聯(lián)網(wǎng)公司部署使用,經(jīng)過數(shù)月的運行,情況穩(wěn)定,效果良好,大大提升了數(shù)據(jù)分析人員的工作效率,讓針對用戶行為的分析變的更簡單,分析人員也更專注于分析時的邏輯。
【關(guān)鍵詞】:大數(shù)據(jù)管理 行為分析 日志處理 大數(shù)據(jù)存儲 數(shù)據(jù)可視化
【學(xué)位授予單位】:中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52;TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 緒論11-17
  • 1.1 研究背景與意義11-12
  • 1.2 本課題的研究進(jìn)展12-14
  • 1.2.1 OLTP與OLAP12-13
  • 1.2.2 OLAP與廣義的數(shù)據(jù)分析13-14
  • 1.3 本文主要研究內(nèi)容14-17
  • 第二章 系統(tǒng)相關(guān)技術(shù)分析17-35
  • 2.1 Hadoop核心技術(shù)分析17-20
  • 2.1.1 分布式數(shù)據(jù)存儲技術(shù)17-19
  • 2.1.2 分布式數(shù)據(jù)計算技術(shù)19-20
  • 2.1.3 資源調(diào)度與任務(wù)管理20
  • 2.2 基于Hadoop的數(shù)據(jù)收集技術(shù)20-23
  • 2.2.1 數(shù)據(jù)收集的方法與策略20-21
  • 2.2.2 分布式的收集策略21-22
  • 2.2.3 流式數(shù)據(jù)分發(fā)策略22-23
  • 2.3 基于Hadoop的數(shù)據(jù)倉庫技術(shù)23-30
  • 2.3.1 數(shù)據(jù)倉庫的意義和特點23-25
  • 2.3.2 數(shù)據(jù)清洗技術(shù)分析25-27
  • 2.3.3 數(shù)據(jù)倉庫構(gòu)建技術(shù)分析27-30
  • 2.4 數(shù)據(jù)可視化相關(guān)技術(shù)30-33
  • 2.4.1 可視化的意義30
  • 2.4.2 數(shù)據(jù)預(yù)載可視化技術(shù)30-32
  • 2.4.3 數(shù)據(jù)動態(tài)可視化技術(shù)32-33
  • 2.5 本章小結(jié)33-35
  • 第三章 網(wǎng)站用戶的行為分析35-45
  • 3.1 用戶行為分析意義35-36
  • 3.1.1 網(wǎng)站用戶行為的特點35-36
  • 3.1.2 行為分析的目的36
  • 3.2 網(wǎng)站用戶行為構(gòu)成與分類36-39
  • 3.2.1 網(wǎng)站用戶行為的構(gòu)成36-37
  • 3.2.2 用戶瀏覽型行為分析37-38
  • 3.2.3 用戶業(yè)務(wù)型行為分析38-39
  • 3.3 用戶行為分析方法39-43
  • 3.3.1 通過用戶行為細(xì)分用戶40-42
  • 3.3.2 通過用戶行為進(jìn)行用戶畫像42-43
  • 3.4 本章小結(jié)43-45
  • 第四章 網(wǎng)站用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)45-79
  • 4.1 行為分析系統(tǒng)需求分析45-47
  • 4.1.1 系統(tǒng)介紹及功能需求45
  • 4.1.2 數(shù)據(jù)收集和存儲功能需求45-46
  • 4.1.3 數(shù)據(jù)計算功能需求46-47
  • 4.1.4 數(shù)據(jù)可視化功能需求47
  • 4.2 系統(tǒng)架構(gòu)設(shè)計47-54
  • 4.2.1 系統(tǒng)整體架構(gòu)設(shè)計47-48
  • 4.2.2 數(shù)據(jù)采集功能設(shè)計48-52
  • 4.2.3 數(shù)據(jù)存儲功能設(shè)計52-53
  • 4.2.4 數(shù)據(jù)可視化功能設(shè)計53-54
  • 4.3 數(shù)據(jù)倉庫架構(gòu)設(shè)計54-60
  • 4.3.1 用戶主題倉庫的設(shè)計與建設(shè)54-56
  • 4.3.2 問題主題倉庫的設(shè)計與建設(shè)56-57
  • 4.3.3 回答主題倉庫的設(shè)計與建設(shè)57-58
  • 4.3.4 訪問主題倉庫的設(shè)計與建設(shè)58-60
  • 4.4 系統(tǒng)架構(gòu)的實現(xiàn)與部署60-77
  • 4.4.1 對HDFS的配置和優(yōu)化60-61
  • 4.4.2 對Hive的配置和優(yōu)化61-63
  • 4.4.3 Impala和Hive的互相搭配63-65
  • 4.4.4 針對Spark的修改和優(yōu)化65-67
  • 4.4.5 通過YARN管理計算資源的分配67-70
  • 4.4.6 對數(shù)據(jù)倉庫中數(shù)據(jù)的預(yù)處理70-73
  • 4.4.7 可視化圖表生成服務(wù)實現(xiàn)與部署73-77
  • 4.5 系統(tǒng)部署環(huán)境77-78
  • 4.6 本章小結(jié)78-79
  • 第五章 系統(tǒng)的實際應(yīng)用及評估79-93
  • 5.1 系統(tǒng)運行環(huán)境79-83
  • 5.1.1 硬件環(huán)境79-81
  • 5.1.2 軟件環(huán)境81-83
  • 5.2 部署實施83-88
  • 5.2.1 數(shù)據(jù)收集與存儲的部署83-85
  • 5.2.2 數(shù)據(jù)倉庫的構(gòu)建85-86
  • 5.2.3 計算工具的集成86-87
  • 5.2.4 可視化服務(wù)的部署與設(shè)置87-88
  • 5.3 效果評估88-92
  • 5.3.1 數(shù)據(jù)收集的效果評估88-89
  • 5.3.2 計算能力的效果評估89
  • 5.3.3 數(shù)據(jù)可視化的效果評估89-92
  • 5.4 本章小結(jié)92-93
  • 第六章 結(jié)論與展望93-95
  • 6.1 論文工作總結(jié)93
  • 6.2 未來工作展望93-95
  • 參考文獻(xiàn)95-99
  • 致謝99-101
  • 個人簡歷、在學(xué)期間發(fā)表的論文與研究成果101

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳峰科;孫眾毅;池明e

本文編號:288522


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/288522.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6d62***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com