天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式數(shù)據(jù)挖掘在網(wǎng)站日志分析中的開發(fā)與應(yīng)用

發(fā)布時間:2017-12-16 18:10

  本文關(guān)鍵詞:分布式數(shù)據(jù)挖掘在網(wǎng)站日志分析中的開發(fā)與應(yīng)用


  更多相關(guān)文章: Web挖掘 個性化會話識別 D-DBDC D-FP-Growth Hadoop


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,Web技術(shù)被廣泛使用,上網(wǎng)用戶增加,用戶產(chǎn)生的數(shù)據(jù)劇增,這些數(shù)據(jù)中往往蘊(yùn)藏著潛在的有價值的規(guī)律。對這些數(shù)據(jù)進(jìn)行挖掘,將挖掘結(jié)果反作用于各網(wǎng)站,能夠更加了解用戶的需求,為企業(yè)帶來價值。然而傳統(tǒng)集中式數(shù)據(jù)挖掘算法不能很好地處理大數(shù)據(jù)量的Web日志挖掘,所以本文旨在將挖掘算法與Hadoop分布式平臺結(jié)合,并針對Web日志挖掘主題提出改進(jìn)。 本文首先對Web日志預(yù)處理進(jìn)行分析,并且根據(jù)目前會話識別中的缺陷提出個性化會話分割,使不同用戶采用適合其自身行為習(xí)慣的會話分割閾值,并且將預(yù)處理與Hadoop平臺進(jìn)行結(jié)合,加快處理的速度。由于頻繁模式挖掘采用基于聚類的動態(tài)決策,所以接著實現(xiàn)了Hadoop平臺的D-DBDC聚類算法,根據(jù)Web日志數(shù)據(jù)的特點自定義了前綴相似性度量方式,針對DBDC的局部聚類中對噪聲的處理容易丟簇的現(xiàn)象,提出對噪聲數(shù)據(jù)的處理方案,對局部調(diào)整部分提出適合Web日志挖掘主題的修改方式。最后對于頻繁模式挖掘在Web日志中的應(yīng)用,分析了Web日志挖掘往往具有多個感興趣主題的特點,提出基于聚類動態(tài)決策的D-FP-Growth算法,該算法根據(jù)聚簇的數(shù)目,即用戶感興趣點的多少,動態(tài)決定采用基于水平分割的或者基于垂直分割的分布式FP-Growth算法,并且為充分利用Hadoop集群的計算能力,采用分別適用于兩種方式的平衡策略。 最后對系統(tǒng)挖掘算法,采用多組數(shù)據(jù)進(jìn)行測試,證明了個性化會話識別算法的有效性,D-DBDC算法的準(zhǔn)確性有所提高,同時對于Web日志挖掘這一應(yīng)用,D-FP-Growth算法不僅減小了分布式節(jié)點之間的重復(fù)性工作,而且能夠很好得平衡各機(jī)器節(jié)點的計算量,從總體上降低了算法的平均運(yùn)行時間。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13;TP393.092

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 賈超;代理服務(wù)器在校園網(wǎng)中的應(yīng)用[J];信息技術(shù);2001年08期

2 張石磊;武裝;;一種基于Hadoop云計算平臺的聚類算法優(yōu)化的研究[J];計算機(jī)科學(xué);2012年S2期

3 徐嘉莉;楊洪軍;趙茂娟;樊云;;一種基于位運(yùn)算的頻繁閉項集挖掘算法[J];計算機(jī)應(yīng)用研究;2013年11期

4 王宏宇;;Hadoop平臺在云計算中的應(yīng)用[J];軟件;2011年04期

5 袁志;;基于日志監(jiān)視主動防御HTTP泛洪攻擊[J];計算機(jī)系統(tǒng)應(yīng)用;2012年05期

6 郝樹魁;;Hadoop HDFS和MapReduce架構(gòu)淺析[J];郵電設(shè)計技術(shù);2012年07期

7 王瑛;;WEB數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[J];時代金融;2013年35期

,

本文編號:1296961

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1296961.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶79745***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com