當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)

發(fā)布時間：2017-05-07 07:09

本文關(guān)鍵詞：日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著大數(shù)據(jù)的流行,越來越多的企業(yè)對大數(shù)據(jù)變得重視起來,都希望能夠通過大數(shù)據(jù)來分析用戶的行為,為企業(yè)的決策提供進一步的指導(dǎo)。在這樣的前提下,Web站點采集用戶數(shù)據(jù)并加以分析變得越來越流行,并且切實地幫助了企業(yè)了解用戶行為,進一步改善產(chǎn)品質(zhì)量。本文主要研究Web網(wǎng)站的日志收集和分析,利用相關(guān)的JavaScript API對網(wǎng)頁上用戶的行為進行日志采集,然后對數(shù)據(jù)進行加工處理,最后利用分析的結(jié)果給企業(yè)提供決策支持。本文敘述了日志采集和分析的整個流程的關(guān)鍵技術(shù)、分析了系統(tǒng)的需求、設(shè)計了系統(tǒng)的整體架構(gòu)。本文敘述了①日志采集系統(tǒng)的設(shè)計目標(biāo),然后圍繞設(shè)計目標(biāo)對API進行設(shè)計,②考慮到日志內(nèi)容有可能比較大、網(wǎng)頁會在手機等設(shè)備上面運行、網(wǎng)頁不頻繁刷新等特點,出于節(jié)省流量以及提高性能的目的,本文使用隱藏iframe來提交日志,而非利用隱藏的gif的URL刷新來提交日志,③日志發(fā)送到日志服務(wù)器后,考慮到大規(guī)模日志的情況,我們將會使用多臺日志服務(wù)器并使用負載均衡,日志服務(wù)器把日志寫到微軟Azure存儲系統(tǒng),文件路徑由機器名和日志時間構(gòu)成,每5分鐘生成一個新文件,④由后端分布式處理系統(tǒng)把文本日志轉(zhuǎn)化成結(jié)構(gòu)化日志,再用定期運行的腳本讀取和處理結(jié)構(gòu)化日志,生成一些常規(guī)性報表(比如每天用戶數(shù)、會話數(shù)、新用戶趨勢等),利用SQL SERVER的Reporting Service進行報表展現(xiàn),⑤把數(shù)據(jù)進行聚合再推送到數(shù)據(jù)庫,利用數(shù)據(jù)庫挖掘工具進行數(shù)據(jù)挖掘。在數(shù)據(jù)處理方面,考慮到數(shù)據(jù)量會很大,我們使用分布式處理系統(tǒng)COSMOS對數(shù)據(jù)進行處理,在大數(shù)據(jù)情況下得到了良好的性能。最后系統(tǒng)開發(fā)完成后通過了系統(tǒng)測試,并且在應(yīng)用到實際生活中后系統(tǒng)的運行狀態(tài)良好,利用日志分析的結(jié)果幫企業(yè)提供了有用的決策,證明該系統(tǒng)是可行并且有效的。相比于其他的系統(tǒng),本文的研究內(nèi)容主要有以下特點:1.企業(yè)能夠得到完整的原始日志,并且基于原始日志生成多種自定義報表或者數(shù)據(jù)挖掘。2.本系統(tǒng)在瀏覽器客戶端使用隱藏iframe技術(shù),優(yōu)點是一次能提交更大的數(shù)據(jù),不用頻繁提交數(shù)據(jù),對于使用ajax來交互的站點,本系統(tǒng)采集數(shù)據(jù)更加節(jié)省流量。
【關(guān)鍵詞】：日志采集 數(shù)據(jù)分析 數(shù)據(jù)挖掘
【學(xué)位授予單位】：上海交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP393.092
【目錄】：

摘要6-8
ABSTRACT8-12
1 緒論12-16
1.1 日志采集與分析的背景和意義12-13
1.1.1 什么是日志采集12-13
1.1.2 什么是數(shù)據(jù)分析13
1.2 研究現(xiàn)狀13-15
1.2.1 Web網(wǎng)站日志采集的研究現(xiàn)狀13-14
1.2.2 數(shù)據(jù)分析的研究現(xiàn)狀14-15
1.3 研究目標(biāo)及內(nèi)容15-16
2 數(shù)據(jù)分析的相關(guān)技術(shù)16-20
2.1 基礎(chǔ)數(shù)據(jù)分析法16
2.2 數(shù)據(jù)立方技術(shù)16-17
2.3 頻繁模式與數(shù)據(jù)挖掘相關(guān)性17
2.4 分類模式17-18
2.5 聚類模式18-20
3 日志采集分析系統(tǒng)的架構(gòu)與設(shè)計20-29
3.1 業(yè)務(wù)分析20
3.2 需求分析20-22
3.2.1 功能性需求分析20-21
3.2.2 非功能性需求分析21-22
3.3 整體系統(tǒng)流程圖22
3.4 客戶端日志采集系統(tǒng)的設(shè)計22-29
3.4.1 TypeScript簡介23
3.4.2 日志采集API的設(shè)計23-25
3.4.3 日志采集客戶端的邏輯控制設(shè)計25-26
3.4.4 瀏覽器日志采集服務(wù)器端設(shè)計26-27
3.4.5 分布式讀取原始日志設(shè)計27-28
3.4.6 日志分析28-29
4 核心功能的設(shè)計與實現(xiàn)29-54
4.1 日志采集客戶端的設(shè)計與實現(xiàn)29-31
4.1.1 日志采集API的實現(xiàn)29-30
4.1.2 日志采集客戶端iframe的實現(xiàn)30-31
4.2 服務(wù)器端的設(shè)計與實現(xiàn)31-39
4.2.1 JavaScript日志服務(wù)器端的實現(xiàn)31-32
4.2.2 靜態(tài)文件的設(shè)計與緩存機制32-33
4.2.3 靜態(tài)文件的更新33
4.2.4 ASPX相關(guān)設(shè)計與實現(xiàn)33-36
4.2.5 服務(wù)端的部署與配置36-37
4.2.6 C#日志采集系統(tǒng)的實現(xiàn)37-39
4.3 日志處理系統(tǒng)的實現(xiàn)39
4.4 日志分析的設(shè)計與實現(xiàn)39-54
4.4.1 常規(guī)性報表39-42
4.4.2 數(shù)據(jù)立方的創(chuàng)建與分析42-50
4.4.3 基于SQL Server的數(shù)據(jù)挖掘50-54
5 測試與應(yīng)用54-64
5.1 日志采集客戶端測試54-61
5.1.1 單元測試54-60
5.1.2 模塊測試60-61
5.1.3 性能測試61
5.2 集成測試61-62
5.3 系統(tǒng)應(yīng)用62-64
6 總結(jié)與展望64-65
6.1 工作總結(jié)64
6.2 展望64-65
參考文獻65-67
致謝67-68
作者在攻讀學(xué)位期間發(fā)表的論文68

【參考文獻】

中國期刊全文數(shù)據(jù)庫前1條

1 程志;桂占吉;;Web挖掘的方法及教育應(yīng)用[J];中國電化教育;2006年07期

本文關(guān)鍵詞：日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)，，由筆耕文化傳播整理發(fā)布。

本文編號：349422

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/349422.html

上一篇：基于BMHS4C和M-Apriori的Snort入侵檢測系統(tǒng)研究
下一篇：基于物理隔離技術(shù)的安全信息交換系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

日志采集與分析在Web網(wǎng)站中的設(shè)計與實現(xiàn)