基于Web應(yīng)用的日志異常檢測與用戶行為分析研究
發(fā)布時(shí)間:2020-05-06 23:53
【摘要】:移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展和移動(dòng)設(shè)備的普及使得移動(dòng)應(yīng)用和網(wǎng)頁的數(shù)量都在爆炸式增長,推動(dòng)著服務(wù)器、后端Web應(yīng)用的蓬勃發(fā)展,Web應(yīng)用成為人們獲取互聯(lián)網(wǎng)信息服務(wù)的重要入口和支撐。伴隨著互聯(lián)網(wǎng)漸漸滲透人們的生活,人們對互聯(lián)網(wǎng)應(yīng)用的服務(wù)質(zhì)量、用戶體驗(yàn)、安全狀態(tài)等要求也隨之提高。應(yīng)用開發(fā)商和網(wǎng)站運(yùn)營者爭先將互聯(lián)網(wǎng)產(chǎn)品投入市場的同時(shí),也非常注重產(chǎn)品優(yōu)化以提高用戶黏性,其中如何收集產(chǎn)品運(yùn)行過程中的日志數(shù)據(jù),分析產(chǎn)品性能、檢測異常狀態(tài)、挖掘用戶特點(diǎn),以進(jìn)一步提高運(yùn)行性能、改善服務(wù)質(zhì)量、提供個(gè)性化服務(wù),是一個(gè)非常重要的研究方向。本文針對Web應(yīng)用的性能及安全監(jiān)控和用戶行為研究的現(xiàn)狀和技術(shù)基礎(chǔ),搭建訪問日志采集與分析平臺(tái),實(shí)現(xiàn)Web應(yīng)用的運(yùn)行狀態(tài)監(jiān)控、日志異常檢測以及用戶行為分析,主要包括以下四個(gè)部分工作:(1)研究訪問日志的采集以及數(shù)據(jù)預(yù)處理方案,實(shí)現(xiàn)Web應(yīng)用基礎(chǔ)運(yùn)行數(shù)據(jù)的統(tǒng)計(jì)分析,并通過可視化圖表的方式展示分析結(jié)果。(2)應(yīng)用支持向量機(jī)進(jìn)行日志異常檢測,為了達(dá)到良好的檢測效果,進(jìn)行多方面的研究工作,包括研究針對Web日志請求URL的特征提取方法,通過統(tǒng)計(jì)分析手段對比正常請求語句、SQL注入語句、XSS注入語句的特點(diǎn),基于三者之間的差異進(jìn)行特征選擇和提取,提出一個(gè)三層SVM檢測模型;結(jié)合網(wǎng)格搜索和K重交叉驗(yàn)證法尋找最優(yōu)參數(shù);對數(shù)據(jù)集的特征屬性歸一化處理。最后通過實(shí)驗(yàn)證明這些方案有效提升了分類效果,三層檢測模型具有一定的應(yīng)用意義。(3)提出一種結(jié)合用戶聚類算法和關(guān)聯(lián)規(guī)則挖掘的分析流程來對用戶訪問行為進(jìn)行分析。從日志中提取用戶訪問興趣特征,建立用戶訪問偏好度模型,提出一種初始點(diǎn)選取優(yōu)化的K-Medoids算法并應(yīng)用于用戶聚類,根據(jù)用戶訪問興趣的相似程度劃分用戶群。進(jìn)一步地,應(yīng)用前后件約束改進(jìn)的FP-Growth算法挖掘同一群體用戶中網(wǎng)頁的關(guān)聯(lián)性,探究頁面之間的鏈接關(guān)系的合理性。(4)設(shè)計(jì)平臺(tái)整體架構(gòu)和運(yùn)行流程,結(jié)合當(dāng)下流行的微服務(wù),提供基于Dubbo和Docker的平臺(tái)搭建方案。最后通過案例驗(yàn)證研究方案的可行性和有效性。
【圖文】:
第二章 Web 訪問日志采集及預(yù)處理第二章 Web 訪問日志采集及預(yù)處理 Web 訪問日志采集本文的主要研究內(nèi)容是建立訪問日志采集與分析平臺(tái)實(shí)現(xiàn) Web 應(yīng)用的日志異及用戶行為分析,,本節(jié)首先討論 Web 訪問日志的采集方案設(shè)計(jì)與實(shí)現(xiàn),為后檢測和用戶行為分析提供數(shù)據(jù)來源。1 整體采集架構(gòu)如圖 2-1 所示,本文設(shè)計(jì)的 Web 訪問日志的采集架構(gòu)由三部分組成:應(yīng)用主機(jī)log 采集服務(wù)、FlumeAgent 進(jìn)程、Hadoop 文件系統(tǒng)(Hadoop Distributed File Sys HDFS)。
1.3 FlumeAgent 監(jiān)控實(shí)現(xiàn)啟動(dòng)一個(gè) Flume Agent 監(jiān)控 514 端口,匯聚各個(gè) Rsyslog 進(jìn)程采集的日志數(shù)據(jù)這些數(shù)據(jù)持久化到 HDFS 中。Flume[22]是一個(gè)開源、高可用、可擴(kuò)展的日志收集系統(tǒng),目前已經(jīng)成為 Hadoo的關(guān)鍵組件之一。Flume Agent 特指一個(gè) Flume 進(jìn)程,F(xiàn)lume 的基本功能是啟動(dòng)nt 匯集不同數(shù)據(jù)源的海量數(shù)據(jù),將這些數(shù)據(jù)高效地傳輸?shù)讲煌哪康牡剡M(jìn)行存進(jìn)一步傳輸,并且能夠通過簡單的配置保證這個(gè)過程的負(fù)載均衡和故障轉(zhuǎn)移。Flume 發(fā)展到 Flume-NG,提供了豐富的組件可供靈活配置、組合、自定義,為核心的 3 個(gè)組件是 Source、Channel、Sink,它們形成一個(gè)類似生產(chǎn)者-倉庫-消架構(gòu),如圖 2-2 所示。Source 代表數(shù)據(jù)收集模塊,從數(shù)據(jù)源收集數(shù)據(jù);Channel 可以看作是數(shù)據(jù)的緩沖時(shí)保留數(shù)據(jù),直到 Sink 來消費(fèi)數(shù)據(jù);Sink 從 Channel 中獲取數(shù)據(jù),傳輸?shù)街付空呦乱患?Agent。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.09;TP309
【圖文】:
第二章 Web 訪問日志采集及預(yù)處理第二章 Web 訪問日志采集及預(yù)處理 Web 訪問日志采集本文的主要研究內(nèi)容是建立訪問日志采集與分析平臺(tái)實(shí)現(xiàn) Web 應(yīng)用的日志異及用戶行為分析,,本節(jié)首先討論 Web 訪問日志的采集方案設(shè)計(jì)與實(shí)現(xiàn),為后檢測和用戶行為分析提供數(shù)據(jù)來源。1 整體采集架構(gòu)如圖 2-1 所示,本文設(shè)計(jì)的 Web 訪問日志的采集架構(gòu)由三部分組成:應(yīng)用主機(jī)log 采集服務(wù)、FlumeAgent 進(jìn)程、Hadoop 文件系統(tǒng)(Hadoop Distributed File Sys HDFS)。
1.3 FlumeAgent 監(jiān)控實(shí)現(xiàn)啟動(dòng)一個(gè) Flume Agent 監(jiān)控 514 端口,匯聚各個(gè) Rsyslog 進(jìn)程采集的日志數(shù)據(jù)這些數(shù)據(jù)持久化到 HDFS 中。Flume[22]是一個(gè)開源、高可用、可擴(kuò)展的日志收集系統(tǒng),目前已經(jīng)成為 Hadoo的關(guān)鍵組件之一。Flume Agent 特指一個(gè) Flume 進(jìn)程,F(xiàn)lume 的基本功能是啟動(dòng)nt 匯集不同數(shù)據(jù)源的海量數(shù)據(jù),將這些數(shù)據(jù)高效地傳輸?shù)讲煌哪康牡剡M(jìn)行存進(jìn)一步傳輸,并且能夠通過簡單的配置保證這個(gè)過程的負(fù)載均衡和故障轉(zhuǎn)移。Flume 發(fā)展到 Flume-NG,提供了豐富的組件可供靈活配置、組合、自定義,為核心的 3 個(gè)組件是 Source、Channel、Sink,它們形成一個(gè)類似生產(chǎn)者-倉庫-消架構(gòu),如圖 2-2 所示。Source 代表數(shù)據(jù)收集模塊,從數(shù)據(jù)源收集數(shù)據(jù);Channel 可以看作是數(shù)據(jù)的緩沖時(shí)保留數(shù)據(jù),直到 Sink 來消費(fèi)數(shù)據(jù);Sink 從 Channel 中獲取數(shù)據(jù),傳輸?shù)街付空呦乱患?Agent。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP393.09;TP309
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁帥;;社交網(wǎng)絡(luò)用戶行為分析[J];通訊世界;2017年01期
2 張治宇;;互聯(lián)網(wǎng)寬帶用戶行為分析系統(tǒng)的設(shè)計(jì)與應(yīng)用研究[J];數(shù)字通信世界;2017年08期
3 唐箭;;基于用戶行為分析的云計(jì)算計(jì)費(fèi)系統(tǒng)的分析與設(shè)計(jì)[J];遼寧經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院(遼寧經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào));2009年05期
4 吳愷;蘇新寧;鄧三鴻;;大數(shù)據(jù)、云計(jì)算與用戶行為分析[J];數(shù)字圖書館論壇;2013年06期
5 張國權(quán);顏燕紅;;基于用戶行為分析的交流充電樁設(shè)計(jì)研究[J];大眾文藝;2017年04期
6 丁筱;;網(wǎng)絡(luò)用戶行為分析專利技術(shù)[J];中國新通信;2016年04期
7 鄧博存;陳s
本文編號(hào):2652067
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2652067.html
最近更新
教材專著