大規(guī)模網(wǎng)站日志的并行分析技術(shù)研究
發(fā)布時(shí)間:2017-08-01 11:25
本文關(guān)鍵詞:大規(guī)模網(wǎng)站日志的并行分析技術(shù)研究
更多相關(guān)文章: Web日志 事務(wù)識(shí)別 頻繁模式 并行化
【摘要】:通過(guò)Web日志分析挖掘用戶的行為模式和訪問(wèn)意圖,廣泛應(yīng)用于網(wǎng)站的頁(yè)面推薦和鏈接結(jié)構(gòu)優(yōu)化。隨著日志數(shù)據(jù)規(guī)模的增長(zhǎng),日志分析的可擴(kuò)展性技術(shù)研究成為日志分析的研究方向。頻繁模式挖掘是日志分析的基礎(chǔ)應(yīng)用,本文側(cè)重研究集合頻繁模式和序列頻繁模式挖掘的可擴(kuò)展性技術(shù)方法,分別通過(guò)基于磁盤(pán)的MapReduce平臺(tái)和基于內(nèi)存的Spark平臺(tái)實(shí)現(xiàn)海量日志頻繁模式的并行挖據(jù),解決日志數(shù)據(jù)的分割和并行挖掘的負(fù)載均衡,以及分布式環(huán)境下大規(guī)模候選數(shù)據(jù)的支持度計(jì)數(shù)等問(wèn)題,具體研究?jī)?nèi)容包括:(1)針對(duì)Web日志數(shù)據(jù)預(yù)處理的關(guān)鍵階段—事務(wù)識(shí)別,提出一種基于候選路徑的事務(wù)識(shí)別算法,主要思想是用空間換時(shí)間,與基于用戶訪問(wèn)樹(shù)的算法相比,將對(duì)日志數(shù)據(jù)的兩次遍歷降為一次,節(jié)省了遍歷用戶訪問(wèn)樹(shù)的時(shí)間開(kāi)銷。(2)研究基于壓縮結(jié)構(gòu)FP-Tree的日志集合頻繁模式并行挖掘,提出一種近似負(fù)載均衡的并行FP-Growth算法,利用item的最大前綴路徑長(zhǎng)度的上界來(lái)衡量挖掘item的條件模式樹(shù)的工作量,工作量的近似值用于負(fù)載分組,所有計(jì)算節(jié)點(diǎn)根據(jù)分組結(jié)果并行地進(jìn)行數(shù)據(jù)庫(kù)的劃分。與完全負(fù)載均衡的并行FP-Growth算法相比,無(wú)需構(gòu)建全局FP-Tree,消除了數(shù)據(jù)劃分過(guò)程中的單點(diǎn)局限,兼顧了負(fù)載的計(jì)算分配和整個(gè)計(jì)算過(guò)程的負(fù)載均衡。(3)研究日志序列頻繁模式的并行挖掘,提出一種基于Spark的并行AprioriAll算法。首先,迭代過(guò)程中的數(shù)據(jù)掃描可以直接在內(nèi)存中的RDD上進(jìn)行,不用去掃描硬盤(pán)。其次,計(jì)算過(guò)程中的中間結(jié)果也可以直接持久化到RDD,下一步的計(jì)算可以直接從內(nèi)存中讀取數(shù)據(jù)。最后,對(duì)于分布式環(huán)境下大規(guī)模候選數(shù)據(jù)的支持度計(jì)數(shù)問(wèn)題,提出了基于reduce端join的數(shù)據(jù)劃分方案。與基于MapReduce的并行AprioriAll算法相比,整個(gè)計(jì)算過(guò)程節(jié)省了大量的磁盤(pán)IO和數(shù)據(jù)Shuffle。(4)最后,通過(guò)實(shí)驗(yàn)驗(yàn)證,基于候選的事務(wù)識(shí)別方法可以有效應(yīng)對(duì)大規(guī)模日志的事務(wù)識(shí)別,近似負(fù)載均衡的并行FP-Growth算法擁有比較好的性能優(yōu)勢(shì),且穩(wěn)定性更好,基于Spark的并行AprioriAll算法擁有更好的性能和擴(kuò)展性。
【關(guān)鍵詞】:Web日志 事務(wù)識(shí)別 頻繁模式 并行化
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.092
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-13
- 1.1 研究背景9-10
- 1.2 研究現(xiàn)狀10-11
- 1.2.1 Web日志挖掘的研究現(xiàn)狀10
- 1.2.2 并行計(jì)算平臺(tái)的研究現(xiàn)狀10-11
- 1.3 研究?jī)?nèi)容11-12
- 1.4 論文組織結(jié)構(gòu)12-13
- 第二章 相關(guān)技術(shù)與研究13-24
- 2.1 Web日志挖掘的相關(guān)理論13-15
- 2.1.1 數(shù)據(jù)挖掘13
- 2.1.2 Web挖掘13-14
- 2.1.3 Web日志挖掘的過(guò)程14-15
- 2.1.4 Web日志挖掘的應(yīng)用15
- 2.2 并行計(jì)算平臺(tái)的相關(guān)技術(shù)15-23
- 2.2.1 Hadoop計(jì)算平臺(tái)16-20
- 2.2.2 Spark計(jì)算平臺(tái)20-23
- 2.2.3 Spark和Hadoop的關(guān)系23
- 2.3 本章小結(jié)23-24
- 第三章 Web日志數(shù)據(jù)預(yù)處理24-35
- 3.1 引言24
- 3.2 Web日志24-25
- 3.3 Web日志預(yù)處理流程25-28
- 3.3.1 數(shù)據(jù)清洗26-27
- 3.3.2 用戶識(shí)別27
- 3.3.3 會(huì)話識(shí)別27-28
- 3.3.4 路徑完善28
- 3.4 事務(wù)識(shí)別28-33
- 3.4.1 事務(wù)識(shí)別的改進(jìn)29-32
- 3.4.2 實(shí)驗(yàn)分析32-33
- 3.5 基于MapReduce的日志預(yù)處理33-34
- 3.6 本章小結(jié)34-35
- 第四章 集合頻繁模式挖掘35-49
- 4.1 引言35
- 4.2 集合頻繁模式挖掘算法35-38
- 4.3 近似負(fù)載均衡的并行FP-Growth算法38-44
- 4.3.1 數(shù)據(jù)分區(qū)的依據(jù)38-39
- 4.3.2 負(fù)載度量和分組39-41
- 4.3.3 事務(wù)數(shù)據(jù)庫(kù)的劃分41-42
- 4.3.4 不同負(fù)載均衡策略的比較42-44
- 4.4 基于MapReduce的近似負(fù)載均衡的并行FP-Growth算法44-46
- 4.5 實(shí)驗(yàn)分析46-48
- 4.6 Web日志集合頻繁模式的應(yīng)用48
- 4.7 本章小結(jié)48-49
- 第五章 序列頻繁模式挖掘49-58
- 5.1 引言49
- 5.2 序列頻繁模式挖掘算法49-50
- 5.3 AprioriAll算法的并行化50-55
- 5.3.1 AprioriAll算法的并行化分析50-52
- 5.3.2 基于Spark的并行AprioriAll算法52-54
- 5.3.3 分布式環(huán)境下的支持度計(jì)數(shù)54-55
- 5.4 實(shí)驗(yàn)分析55-57
- 5.5 Web日志序列頻繁模式的應(yīng)用57
- 5.6 本章小結(jié)57-58
- 第六章 總結(jié)與展望58-59
- 6.1 總結(jié)58
- 6.2 未來(lái)工作58-59
- 致謝59-60
- 參考文獻(xiàn)60-63
- 碩士期間發(fā)表的論文63
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 于飛;丁華福;姜倫;;Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年05期
2 曾志勇;楊呈智;陶冶;;負(fù)載均衡的FP-growth并行算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年04期
3 趙偉,何丕廉,陳霞,謝振亮;Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J];計(jì)算機(jī)應(yīng)用;2003年05期
,本文編號(hào):604013
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/604013.html
最近更新
教材專著