天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

實時分布式Web日志分析系統(tǒng)的設計與實現

發(fā)布時間:2017-10-22 01:27

  本文關鍵詞:實時分布式Web日志分析系統(tǒng)的設計與實現


  更多相關文章: 分布式計算 日志分析 Hadoop Map Reduce


【摘要】:Web日志是由Web服務器產生的數據記錄,包含著網站運行的重要信息。通過日志分析,我們可以獲取網站頁面的訪問量、分析用戶行為、計算用戶搜索的關鍵詞排行等,從而實現企業(yè)的數據化運營。通常單日訪問量在10萬以上的中小型網站每天會產生1GB以上的日志文件,對于更大型的網站,可能每小時都會產生10GB以上的日志文件。當日志數據以每天10GB、100GB的速度增長的時候,使用單臺主機已無法滿足對數據的計算和存儲性能需求。因此,采用分布式計算和存儲技術來完成對Web日志的分析處理已成為必然的發(fā)展趨勢。目前較為流行的分布式計算框架是Hadoop,已被廣泛應用于日志分析、數據挖掘等領域。Hadoop的核心是通過Map Reduce并行計算模型和分布式存儲系統(tǒng)(HDFS)實現對程序、內存、存儲資源的管理。其本質是一種后計算流的過程,已足夠應對海量數據計算,但在性能方面仍存在一定的缺陷:(1)日志元數據首先會存入到HDFS中,在計算時才重新讀取,這其中必定引起一定的計算延遲,時效性得不到保證;(2)HDFS會保存大量的原始日志數據,考慮到冗余備份,會對機器的資源造成極大的浪費。(3)用戶必須實現復雜并且難以重用和維護的Map Reduce程序,不具備良好的通用性。因此,針對Hadoop計算的不足,本文提出了一種全新的計算流方案,并設計和實現了一個可視化的Web日志分析系統(tǒng),具體內容包括:第一,針對日志分析的應用場景,定義系統(tǒng)需求,將系統(tǒng)分為數據采集和存儲、后臺計算、前端展現三個部分。用戶通過系統(tǒng)界面完成日志模型配置,然后系統(tǒng)根據用戶規(guī)則生成計算任務,并將每分鐘的數據統(tǒng)計結果以報表的形式返回給用戶。第二,設計系統(tǒng)架構及功能模塊,優(yōu)化系統(tǒng)的計算和存儲性能。本文基于Map Reduce并行計算模型,設計了一種更能滿足實時性、周期性需求的計算流,降低了計算過程中的延時,提高了數據的齊全度和系統(tǒng)的故障恢復能力。并根據數據結果的周期性,設計了一套優(yōu)化的存儲方案,降低了存儲系統(tǒng)的次級索引負擔,提高數據檢索效率。第三,根據系統(tǒng)各模塊處理流程,實現系統(tǒng)功能,包括日志模型管理、數據計算、數據存儲、前端展現。其中描述了各模塊間的交互數據格式和通信流程,并詳細闡述了任務的調度策略和執(zhí)行過程。第四,設計三個實驗場景,驗證本日志分析系統(tǒng)的功能及性能。首先通過對某電商網站訪問量的統(tǒng)計,分析系統(tǒng)運行情況,然后對比分析了單臺主機處理、并行處理、Hadoop計算處理的耗時。測試結果表明分布式計算比單機運算的效率更高,本系統(tǒng)的計算模型比Hadoop的實時性更高。本系統(tǒng)通過分布式計算和存儲方案解決了海量日志分析過程中的實時性和數據可靠性問題,并通過配置化的用戶界面完成日志分析過程的規(guī)范化管理,有效的提高了日志分析的效率,在大數據時代具有一定的現實意義和應用價值。
【關鍵詞】:分布式計算 日志分析 Hadoop Map Reduce
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
  • 摘要5-7
  • ABSTRACT7-16
  • 第一章 緒論16-22
  • 1.1 研究背景與意義16-18
  • 1.2 國內外研究現狀與發(fā)展趨勢18-19
  • 1.3 研究內容19-20
  • 1.4 論文結構與內容安排20-22
  • 第二章 分布式計算平臺技術現狀22-32
  • 2.1 分布式系統(tǒng)概述22-27
  • 2.1.1 分布式系統(tǒng)定義22-23
  • 2.1.2 分布式系統(tǒng)體系結構23-26
  • 2.1.3 分布式系統(tǒng)通信模型26-27
  • 2.2 Hadoop基本結構27-30
  • 2.2.1 Map Reduce計算模型27-30
  • 2.2.2 HDFS架構30
  • 2.3 本章小結30-32
  • 第三章 日志分析系統(tǒng)需求分析32-36
  • 3.1 設計目標32
  • 3.2 系統(tǒng)需求分析32-35
  • 3.2.1 功能性需求32-34
  • 3.2.2 非功能性需求34-35
  • 3.3 本章小結35-36
  • 第四章 日志分析系統(tǒng)的設計36-52
  • 4.1 系統(tǒng)架構設計36-37
  • 4.2 系統(tǒng)功能模塊設計37-48
  • 4.2.1 日志模型管理模塊設計37-38
  • 4.2.2 日志采集模塊設計38-39
  • 4.2.3 配置管理模塊設計39-41
  • 4.2.4 計算模塊設計41-44
  • 4.2.5 Key-Value存儲模塊設計44-46
  • 4.2.6 Web展現設計46-48
  • 4.3 數據處理流程設計48-51
  • 4.3.2 配置流48-49
  • 4.3.3 計算流49-50
  • 4.3.4 查詢流50-51
  • 4.4 本章小結51-52
  • 第五章 日志分析系統(tǒng)的實現52-76
  • 5.1 日志模型管理模塊實現52-53
  • 5.2 日志采集模塊的實現53-56
  • 5.3 日志計算模塊的實現56-70
  • 5.3.1 Job Manager任務調度中心57-60
  • 5.3.2 Reduce任務執(zhí)行層60-66
  • 5.3.3 Map任務執(zhí)行層66-70
  • 5.4 Key-Value存儲模塊的實現70-73
  • 5.5 Web展示模塊的實現73-75
  • 5.6 本章小結75-76
  • 第六章 系統(tǒng)測試與分析76-88
  • 6.1 測試環(huán)境配置76-77
  • 6.2 實驗場景設計77-82
  • 6.2.1 網站首頁訪問量統(tǒng)計77-80
  • 6.2.2 日志分析耗時80-82
  • 6.3 測試結果與分析82-87
  • 6.3.1 網站首頁訪問量82-85
  • 6.3.2 Mapper并行度分析85-86
  • 6.3.3 日志分析耗時對比86-87
  • 6.4 本章小結87-88
  • 第七章 結束語88-90
  • 7.1 全文總結及主要貢獻88
  • 7.2 下一步工作建議88-90
  • 致謝90-91
  • 參考文獻91-95
  • 個人簡歷95-96
  • 攻碩期間取得的研究成果96-97
  • 學位論文評審后修改說明表97-98

【參考文獻】

中國期刊全文數據庫 前3條

1 房鼎益,周興社,康繼昌;分布式系統(tǒng)研究進展[J];微電子學與計算機;2000年06期

2 彭國金;劉Z阪,

本文編號:1076161


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1076161.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b7576***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com