日志采集與分析在Web網(wǎng)站中的設計與實現(xiàn)
發(fā)布時間:2017-05-07 07:09
本文關鍵詞:日志采集與分析在Web網(wǎng)站中的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著大數(shù)據(jù)的流行,越來越多的企業(yè)對大數(shù)據(jù)變得重視起來,都希望能夠通過大數(shù)據(jù)來分析用戶的行為,為企業(yè)的決策提供進一步的指導。在這樣的前提下,Web站點采集用戶數(shù)據(jù)并加以分析變得越來越流行,并且切實地幫助了企業(yè)了解用戶行為,進一步改善產(chǎn)品質(zhì)量。本文主要研究Web網(wǎng)站的日志收集和分析,利用相關的JavaScript API對網(wǎng)頁上用戶的行為進行日志采集,然后對數(shù)據(jù)進行加工處理,最后利用分析的結果給企業(yè)提供決策支持。本文敘述了日志采集和分析的整個流程的關鍵技術、分析了系統(tǒng)的需求、設計了系統(tǒng)的整體架構。本文敘述了①日志采集系統(tǒng)的設計目標,然后圍繞設計目標對API進行設計,②考慮到日志內(nèi)容有可能比較大、網(wǎng)頁會在手機等設備上面運行、網(wǎng)頁不頻繁刷新等特點,出于節(jié)省流量以及提高性能的目的,本文使用隱藏iframe來提交日志,而非利用隱藏的gif的URL刷新來提交日志,③日志發(fā)送到日志服務器后,考慮到大規(guī)模日志的情況,我們將會使用多臺日志服務器并使用負載均衡,日志服務器把日志寫到微軟Azure存儲系統(tǒng),文件路徑由機器名和日志時間構成,每5分鐘生成一個新文件,④由后端分布式處理系統(tǒng)把文本日志轉(zhuǎn)化成結構化日志,再用定期運行的腳本讀取和處理結構化日志,生成一些常規(guī)性報表(比如每天用戶數(shù)、會話數(shù)、新用戶趨勢等),利用SQL SERVER的Reporting Service進行報表展現(xiàn),⑤把數(shù)據(jù)進行聚合再推送到數(shù)據(jù)庫,利用數(shù)據(jù)庫挖掘工具進行數(shù)據(jù)挖掘。在數(shù)據(jù)處理方面,考慮到數(shù)據(jù)量會很大,我們使用分布式處理系統(tǒng)COSMOS對數(shù)據(jù)進行處理,在大數(shù)據(jù)情況下得到了良好的性能。最后系統(tǒng)開發(fā)完成后通過了系統(tǒng)測試,并且在應用到實際生活中后系統(tǒng)的運行狀態(tài)良好,利用日志分析的結果幫企業(yè)提供了有用的決策,證明該系統(tǒng)是可行并且有效的。相比于其他的系統(tǒng),本文的研究內(nèi)容主要有以下特點:1.企業(yè)能夠得到完整的原始日志,并且基于原始日志生成多種自定義報表或者數(shù)據(jù)挖掘。2.本系統(tǒng)在瀏覽器客戶端使用隱藏iframe技術,優(yōu)點是一次能提交更大的數(shù)據(jù),不用頻繁提交數(shù)據(jù),對于使用ajax來交互的站點,本系統(tǒng)采集數(shù)據(jù)更加節(jié)省流量。
【關鍵詞】:日志采集 數(shù)據(jù)分析 數(shù)據(jù)挖掘
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要6-8
- ABSTRACT8-12
- 1 緒論12-16
- 1.1 日志采集與分析的背景和意義12-13
- 1.1.1 什么是日志采集12-13
- 1.1.2 什么是數(shù)據(jù)分析13
- 1.2 研究現(xiàn)狀13-15
- 1.2.1 Web網(wǎng)站日志采集的研究現(xiàn)狀13-14
- 1.2.2 數(shù)據(jù)分析的研究現(xiàn)狀14-15
- 1.3 研究目標及內(nèi)容15-16
- 2 數(shù)據(jù)分析的相關技術16-20
- 2.1 基礎數(shù)據(jù)分析法16
- 2.2 數(shù)據(jù)立方技術16-17
- 2.3 頻繁模式與數(shù)據(jù)挖掘相關性17
- 2.4 分類模式17-18
- 2.5 聚類模式18-20
- 3 日志采集分析系統(tǒng)的架構與設計20-29
- 3.1 業(yè)務分析20
- 3.2 需求分析20-22
- 3.2.1 功能性需求分析20-21
- 3.2.2 非功能性需求分析21-22
- 3.3 整體系統(tǒng)流程圖22
- 3.4 客戶端日志采集系統(tǒng)的設計22-29
- 3.4.1 TypeScript簡介23
- 3.4.2 日志采集API的設計23-25
- 3.4.3 日志采集客戶端的邏輯控制設計25-26
- 3.4.4 瀏覽器日志采集服務器端設計26-27
- 3.4.5 分布式讀取原始日志設計27-28
- 3.4.6 日志分析28-29
- 4 核心功能的設計與實現(xiàn)29-54
- 4.1 日志采集客戶端的設計與實現(xiàn)29-31
- 4.1.1 日志采集API的實現(xiàn)29-30
- 4.1.2 日志采集客戶端iframe的實現(xiàn)30-31
- 4.2 服務器端的設計與實現(xiàn)31-39
- 4.2.1 JavaScript日志服務器端的實現(xiàn)31-32
- 4.2.2 靜態(tài)文件的設計與緩存機制32-33
- 4.2.3 靜態(tài)文件的更新33
- 4.2.4 ASPX相關設計與實現(xiàn)33-36
- 4.2.5 服務端的部署與配置36-37
- 4.2.6 C#日志采集系統(tǒng)的實現(xiàn)37-39
- 4.3 日志處理系統(tǒng)的實現(xiàn)39
- 4.4 日志分析的設計與實現(xiàn)39-54
- 4.4.1 常規(guī)性報表39-42
- 4.4.2 數(shù)據(jù)立方的創(chuàng)建與分析42-50
- 4.4.3 基于SQL Server的數(shù)據(jù)挖掘50-54
- 5 測試與應用54-64
- 5.1 日志采集客戶端測試54-61
- 5.1.1 單元測試54-60
- 5.1.2 模塊測試60-61
- 5.1.3 性能測試61
- 5.2 集成測試61-62
- 5.3 系統(tǒng)應用62-64
- 6 總結與展望64-65
- 6.1 工作總結64
- 6.2 展望64-65
- 參考文獻65-67
- 致謝67-68
- 作者在攻讀學位期間發(fā)表的論文68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 程志;桂占吉;;Web挖掘的方法及教育應用[J];中國電化教育;2006年07期
本文關鍵詞:日志采集與分析在Web網(wǎng)站中的設計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:349422
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/349422.html
最近更新
教材專著