天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大規(guī)模網(wǎng)站日志的并行分析技術(shù)研究

發(fā)布時(shí)間:2017-08-01 11:25

  本文關(guān)鍵詞:大規(guī)模網(wǎng)站日志的并行分析技術(shù)研究


  更多相關(guān)文章: Web日志 事務(wù)識(shí)別 頻繁模式 并行化


【摘要】:通過(guò)Web日志分析挖掘用戶的行為模式和訪問(wèn)意圖,廣泛應(yīng)用于網(wǎng)站的頁(yè)面推薦和鏈接結(jié)構(gòu)優(yōu)化。隨著日志數(shù)據(jù)規(guī)模的增長(zhǎng),日志分析的可擴(kuò)展性技術(shù)研究成為日志分析的研究方向。頻繁模式挖掘是日志分析的基礎(chǔ)應(yīng)用,本文側(cè)重研究集合頻繁模式和序列頻繁模式挖掘的可擴(kuò)展性技術(shù)方法,分別通過(guò)基于磁盤(pán)的MapReduce平臺(tái)和基于內(nèi)存的Spark平臺(tái)實(shí)現(xiàn)海量日志頻繁模式的并行挖據(jù),解決日志數(shù)據(jù)的分割和并行挖掘的負(fù)載均衡,以及分布式環(huán)境下大規(guī)模候選數(shù)據(jù)的支持度計(jì)數(shù)等問(wèn)題,具體研究?jī)?nèi)容包括:(1)針對(duì)Web日志數(shù)據(jù)預(yù)處理的關(guān)鍵階段—事務(wù)識(shí)別,提出一種基于候選路徑的事務(wù)識(shí)別算法,主要思想是用空間換時(shí)間,與基于用戶訪問(wèn)樹(shù)的算法相比,將對(duì)日志數(shù)據(jù)的兩次遍歷降為一次,節(jié)省了遍歷用戶訪問(wèn)樹(shù)的時(shí)間開(kāi)銷。(2)研究基于壓縮結(jié)構(gòu)FP-Tree的日志集合頻繁模式并行挖掘,提出一種近似負(fù)載均衡的并行FP-Growth算法,利用item的最大前綴路徑長(zhǎng)度的上界來(lái)衡量挖掘item的條件模式樹(shù)的工作量,工作量的近似值用于負(fù)載分組,所有計(jì)算節(jié)點(diǎn)根據(jù)分組結(jié)果并行地進(jìn)行數(shù)據(jù)庫(kù)的劃分。與完全負(fù)載均衡的并行FP-Growth算法相比,無(wú)需構(gòu)建全局FP-Tree,消除了數(shù)據(jù)劃分過(guò)程中的單點(diǎn)局限,兼顧了負(fù)載的計(jì)算分配和整個(gè)計(jì)算過(guò)程的負(fù)載均衡。(3)研究日志序列頻繁模式的并行挖掘,提出一種基于Spark的并行AprioriAll算法。首先,迭代過(guò)程中的數(shù)據(jù)掃描可以直接在內(nèi)存中的RDD上進(jìn)行,不用去掃描硬盤(pán)。其次,計(jì)算過(guò)程中的中間結(jié)果也可以直接持久化到RDD,下一步的計(jì)算可以直接從內(nèi)存中讀取數(shù)據(jù)。最后,對(duì)于分布式環(huán)境下大規(guī)模候選數(shù)據(jù)的支持度計(jì)數(shù)問(wèn)題,提出了基于reduce端join的數(shù)據(jù)劃分方案。與基于MapReduce的并行AprioriAll算法相比,整個(gè)計(jì)算過(guò)程節(jié)省了大量的磁盤(pán)IO和數(shù)據(jù)Shuffle。(4)最后,通過(guò)實(shí)驗(yàn)驗(yàn)證,基于候選的事務(wù)識(shí)別方法可以有效應(yīng)對(duì)大規(guī)模日志的事務(wù)識(shí)別,近似負(fù)載均衡的并行FP-Growth算法擁有比較好的性能優(yōu)勢(shì),且穩(wěn)定性更好,基于Spark的并行AprioriAll算法擁有更好的性能和擴(kuò)展性。
【關(guān)鍵詞】:Web日志 事務(wù)識(shí)別 頻繁模式 并行化
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.092
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-13
  • 1.1 研究背景9-10
  • 1.2 研究現(xiàn)狀10-11
  • 1.2.1 Web日志挖掘的研究現(xiàn)狀10
  • 1.2.2 并行計(jì)算平臺(tái)的研究現(xiàn)狀10-11
  • 1.3 研究?jī)?nèi)容11-12
  • 1.4 論文組織結(jié)構(gòu)12-13
  • 第二章 相關(guān)技術(shù)與研究13-24
  • 2.1 Web日志挖掘的相關(guān)理論13-15
  • 2.1.1 數(shù)據(jù)挖掘13
  • 2.1.2 Web挖掘13-14
  • 2.1.3 Web日志挖掘的過(guò)程14-15
  • 2.1.4 Web日志挖掘的應(yīng)用15
  • 2.2 并行計(jì)算平臺(tái)的相關(guān)技術(shù)15-23
  • 2.2.1 Hadoop計(jì)算平臺(tái)16-20
  • 2.2.2 Spark計(jì)算平臺(tái)20-23
  • 2.2.3 Spark和Hadoop的關(guān)系23
  • 2.3 本章小結(jié)23-24
  • 第三章 Web日志數(shù)據(jù)預(yù)處理24-35
  • 3.1 引言24
  • 3.2 Web日志24-25
  • 3.3 Web日志預(yù)處理流程25-28
  • 3.3.1 數(shù)據(jù)清洗26-27
  • 3.3.2 用戶識(shí)別27
  • 3.3.3 會(huì)話識(shí)別27-28
  • 3.3.4 路徑完善28
  • 3.4 事務(wù)識(shí)別28-33
  • 3.4.1 事務(wù)識(shí)別的改進(jìn)29-32
  • 3.4.2 實(shí)驗(yàn)分析32-33
  • 3.5 基于MapReduce的日志預(yù)處理33-34
  • 3.6 本章小結(jié)34-35
  • 第四章 集合頻繁模式挖掘35-49
  • 4.1 引言35
  • 4.2 集合頻繁模式挖掘算法35-38
  • 4.3 近似負(fù)載均衡的并行FP-Growth算法38-44
  • 4.3.1 數(shù)據(jù)分區(qū)的依據(jù)38-39
  • 4.3.2 負(fù)載度量和分組39-41
  • 4.3.3 事務(wù)數(shù)據(jù)庫(kù)的劃分41-42
  • 4.3.4 不同負(fù)載均衡策略的比較42-44
  • 4.4 基于MapReduce的近似負(fù)載均衡的并行FP-Growth算法44-46
  • 4.5 實(shí)驗(yàn)分析46-48
  • 4.6 Web日志集合頻繁模式的應(yīng)用48
  • 4.7 本章小結(jié)48-49
  • 第五章 序列頻繁模式挖掘49-58
  • 5.1 引言49
  • 5.2 序列頻繁模式挖掘算法49-50
  • 5.3 AprioriAll算法的并行化50-55
  • 5.3.1 AprioriAll算法的并行化分析50-52
  • 5.3.2 基于Spark的并行AprioriAll算法52-54
  • 5.3.3 分布式環(huán)境下的支持度計(jì)數(shù)54-55
  • 5.4 實(shí)驗(yàn)分析55-57
  • 5.5 Web日志序列頻繁模式的應(yīng)用57
  • 5.6 本章小結(jié)57-58
  • 第六章 總結(jié)與展望58-59
  • 6.1 總結(jié)58
  • 6.2 未來(lái)工作58-59
  • 致謝59-60
  • 參考文獻(xiàn)60-63
  • 碩士期間發(fā)表的論文63

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

1 于飛;丁華福;姜倫;;Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年05期

2 曾志勇;楊呈智;陶冶;;負(fù)載均衡的FP-growth并行算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年04期

3 趙偉,何丕廉,陳霞,謝振亮;Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J];計(jì)算機(jī)應(yīng)用;2003年05期

,

本文編號(hào):604013

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/604013.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶80886***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
久久精视频免费视频观看| 欧美性欧美一区二区三区| 丰满人妻熟妇乱又伦精另类视频| 东京热男人的天堂一二三区| 国产精品一区欧美二区| 亚洲一区二区三区一区| 国产国产精品精品在线| 国产又粗又长又爽又猛的视频| 欧美午夜性刺激在线观看| 日韩国产中文在线视频| 精品日韩视频在线观看| 国产农村妇女成人精品| 日韩一区二区三区嘿嘿| 国产精品日韩精品最新| 久久天堂夜夜一本婷婷| 少妇人妻一级片一区二区三区| 日本 一区二区 在线| 久久人人爽人人爽大片av| 欧美不卡午夜中文字幕| 欧美成人黄色一区二区三区| 黄片免费在线观看日韩| 98精品永久免费视频| 亚洲精品偷拍一区二区三区| 初尝人妻少妇中文字幕在线| 中文字幕日韩欧美一区| 国产肥女老熟女激情视频一区| 欧美日韩人妻中文一区二区| 国产成人午夜av一区二区| 在线观看日韩欧美综合黄片| 亚洲一区二区精品免费| 国产成人精品一区二三区在线观看| 久久精品a毛片看国产成人| 国产高清在线不卡一区| 成年人黄片大全在线观看| 五月综合婷婷在线伊人| 亚洲中文字幕人妻系列| 亚洲男人的天堂色偷偷| 亚洲婷婷开心色四房播播| 男人把女人操得嗷嗷叫| 国产成人精品一区在线观看 | 黄片美女在线免费观看|