并行分布式Web訪問模式聚類

發(fā)布時間：2023-05-31 19:08

　　隨著大數(shù)據(jù)時代的到來,廣泛的資源共享帶來了數(shù)據(jù)的指數(shù)級增長,人們對Web個性化服務(wù)、智能推薦等需求也越來越大,如何通過Web挖掘獲取用戶的興趣是至關(guān)重要的。Web使用挖掘通過挖掘網(wǎng)頁中用戶的訪問信息來分析用戶的興趣偏好和行為模式,從而提高推薦系統(tǒng)的推薦質(zhì)量。Web用戶聚類通過分析用戶的訪問行為,把瀏覽行為相似的用戶劃分為一類,進而更精確地為用戶提供個性化服務(wù)。在傳統(tǒng)的聚類算法中,類與類劃分的界限是確定的,但在現(xiàn)實生活當中,類邊界的劃分是模糊的,因此基于模糊粗糙的聚類在現(xiàn)實生活中得到廣泛應(yīng)用,是當前聚類研究的主流趨勢。目前,大多數(shù)的Web日志挖掘是基于訪問頻率的,其挖掘的信息沒有太大的價值。而本文提出的兩種改進的聚類技術(shù)是基于訪問時間的,使用模糊向量表示用戶瀏覽模式,記錄用戶是否瀏覽過該頁面以及停留的時間。本文在模糊粗糙k-均值聚類方法的基礎(chǔ)上提出了兩種改進算法,主要所做工作如下:(1)針對模糊粗糙k-均值收斂速度慢的問題,本文將模糊粗糙k-均值和夾角余弦相結(jié)合,提出了一種雙層聚類技術(shù)。通過一系列實驗,論證了該聚類方法的可行性,而且,使用Davies-Bouldin指標驗證了該算法的聚類...

【文章頁數(shù)】：65 頁

【學位級別】：碩士

【文章目錄】：
中文摘要
Abstract
1 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 論文的研究思想和內(nèi)容安排
        1.3.1 本文的研究內(nèi)容
        1.3.2 本文的組織和安排
2 Web數(shù)據(jù)挖掘和聚類算法研究
    2.1 數(shù)據(jù)挖掘概述
        2.1.1 數(shù)據(jù)挖掘
        2.1.2 數(shù)據(jù)挖掘算法
    2.2 Web數(shù)據(jù)挖掘概述
    2.3 k-means聚類算法研究
    2.4 Fuzzy k-means聚類算法研究
        2.4.1 模糊集相關(guān)概念
        2.4.2 模糊k-均值聚類算法
    2.5 Rough k-means聚類算法研究
        2.5.1 粗糙集相關(guān)概念
        2.5.2 粗糙k-均值聚類算法
    2.6 模糊粗糙k-means聚類算法研究
3 基于模糊向量的Web訪問模式聚類研究及分析
    3.1 數(shù)據(jù)預(yù)處理
    3.2 基于模糊粗糙k-均值的Web訪問模式聚類
    3.3 基于夾角余弦的Web訪問模式聚類
        3.3.1 基于夾角余弦的Web訪問模式聚類思想概述
        3.3.2 實例分析
    3.4 基于歐式距離的Web訪問模式聚類
        3.4.1 基于歐式距離的Web訪問模式聚類思想概述
        3.4.2 實例分析
    3.5 基于模糊集的Web訪問模式聚類
        3.5.1 基于模糊集的Web訪問模式聚類思想概述
        3.5.2 實例分析
    3.6 基于模糊向量的Web訪問模式聚類算法對比分析
4 基于模糊粗糙k-均值和夾角余弦雙層聚類
    4.1 問題提出
    4.2 基于模糊粗糙k-均值和夾角余弦雙層聚類算法描述
    4.3 實例分析
    4.4 實驗分析
        4.4.1 相似度算法對比
        4.4.2 模糊粗糙k-均值和雙層聚類的對比
5 基于模糊粗糙k-均值聚類改進算法及分析
    5.1 問題提出
    5.2 較優(yōu)聚類數(shù)的確定
    5.3 基于模糊粗糙k-均值聚類改進算法描述
    5.4 實例分析
    5.5 實驗分析
6 基于MapReduce的并行分布式聚類
    6.1 Hadoop概述
    6.2 HDFS體系結(jié)構(gòu)
    6.3 MapReduce計算框架
        6.3.1 MapReduce體系結(jié)構(gòu)
        6.3.2 MapReduce工作流程
    6.4 基于MapReduce的并行分布式雙層聚類
        6.4.1 聚類中心計算模塊設(shè)計
        6.4.2 主函數(shù)判斷模塊的設(shè)計
        6.4.3 夾角余弦相似度計算模塊設(shè)計
    6.5 基于MapReduce的并行分布式模糊粗糙k-均值改進
        6.5.1 較優(yōu)聚類數(shù)計算模塊的設(shè)計
        6.5.2 初始聚類中心計算模塊的設(shè)計
        6.5.3 其它模塊設(shè)計
    6.6 實驗分析
        6.6.1 兩種改進算法的擴展性分析
        6.6.2 兩種改進算法的加速比分析
7 結(jié)論與展望
參考文獻
在校期間的研究成果
致謝

本文編號：3825848

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3825848.html

上一篇：小型超市及零售行業(yè)信息管理系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：悟空問答社區(qū)系統(tǒng)服務(wù)端的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

并行分布式Web訪問模式聚類