并行分布式Web訪問模式聚類
發(fā)布時間:2023-05-31 19:08
隨著大數(shù)據(jù)時代的到來,廣泛的資源共享帶來了數(shù)據(jù)的指數(shù)級增長,人們對Web個性化服務(wù)、智能推薦等需求也越來越大,如何通過Web挖掘獲取用戶的興趣是至關(guān)重要的。Web使用挖掘通過挖掘網(wǎng)頁中用戶的訪問信息來分析用戶的興趣偏好和行為模式,從而提高推薦系統(tǒng)的推薦質(zhì)量。Web用戶聚類通過分析用戶的訪問行為,把瀏覽行為相似的用戶劃分為一類,進(jìn)而更精確地為用戶提供個性化服務(wù)。在傳統(tǒng)的聚類算法中,類與類劃分的界限是確定的,但在現(xiàn)實生活當(dāng)中,類邊界的劃分是模糊的,因此基于模糊粗糙的聚類在現(xiàn)實生活中得到廣泛應(yīng)用,是當(dāng)前聚類研究的主流趨勢。目前,大多數(shù)的Web日志挖掘是基于訪問頻率的,其挖掘的信息沒有太大的價值。而本文提出的兩種改進(jìn)的聚類技術(shù)是基于訪問時間的,使用模糊向量表示用戶瀏覽模式,記錄用戶是否瀏覽過該頁面以及停留的時間。本文在模糊粗糙k-均值聚類方法的基礎(chǔ)上提出了兩種改進(jìn)算法,主要所做工作如下:(1)針對模糊粗糙k-均值收斂速度慢的問題,本文將模糊粗糙k-均值和夾角余弦相結(jié)合,提出了一種雙層聚類技術(shù)。通過一系列實驗,論證了該聚類方法的可行性,而且,使用Davies-Bouldin指標(biāo)驗證了該算法的聚類...
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的研究思想和內(nèi)容安排
1.3.1 本文的研究內(nèi)容
1.3.2 本文的組織和安排
2 Web數(shù)據(jù)挖掘和聚類算法研究
2.1 數(shù)據(jù)挖掘概述
2.1.1 數(shù)據(jù)挖掘
2.1.2 數(shù)據(jù)挖掘算法
2.2 Web數(shù)據(jù)挖掘概述
2.3 k-means聚類算法研究
2.4 Fuzzy k-means聚類算法研究
2.4.1 模糊集相關(guān)概念
2.4.2 模糊k-均值聚類算法
2.5 Rough k-means聚類算法研究
2.5.1 粗糙集相關(guān)概念
2.5.2 粗糙k-均值聚類算法
2.6 模糊粗糙k-means聚類算法研究
3 基于模糊向量的Web訪問模式聚類研究及分析
3.1 數(shù)據(jù)預(yù)處理
3.2 基于模糊粗糙k-均值的Web訪問模式聚類
3.3 基于夾角余弦的Web訪問模式聚類
3.3.1 基于夾角余弦的Web訪問模式聚類思想概述
3.3.2 實例分析
3.4 基于歐式距離的Web訪問模式聚類
3.4.1 基于歐式距離的Web訪問模式聚類思想概述
3.4.2 實例分析
3.5 基于模糊集的Web訪問模式聚類
3.5.1 基于模糊集的Web訪問模式聚類思想概述
3.5.2 實例分析
3.6 基于模糊向量的Web訪問模式聚類算法對比分析
4 基于模糊粗糙k-均值和夾角余弦雙層聚類
4.1 問題提出
4.2 基于模糊粗糙k-均值和夾角余弦雙層聚類算法描述
4.3 實例分析
4.4 實驗分析
4.4.1 相似度算法對比
4.4.2 模糊粗糙k-均值和雙層聚類的對比
5 基于模糊粗糙k-均值聚類改進(jìn)算法及分析
5.1 問題提出
5.2 較優(yōu)聚類數(shù)的確定
5.3 基于模糊粗糙k-均值聚類改進(jìn)算法描述
5.4 實例分析
5.5 實驗分析
6 基于MapReduce的并行分布式聚類
6.1 Hadoop概述
6.2 HDFS體系結(jié)構(gòu)
6.3 MapReduce計算框架
6.3.1 MapReduce體系結(jié)構(gòu)
6.3.2 MapReduce工作流程
6.4 基于MapReduce的并行分布式雙層聚類
6.4.1 聚類中心計算模塊設(shè)計
6.4.2 主函數(shù)判斷模塊的設(shè)計
6.4.3 夾角余弦相似度計算模塊設(shè)計
6.5 基于MapReduce的并行分布式模糊粗糙k-均值改進(jìn)
6.5.1 較優(yōu)聚類數(shù)計算模塊的設(shè)計
6.5.2 初始聚類中心計算模塊的設(shè)計
6.5.3 其它模塊設(shè)計
6.6 實驗分析
6.6.1 兩種改進(jìn)算法的擴(kuò)展性分析
6.6.2 兩種改進(jìn)算法的加速比分析
7 結(jié)論與展望
參考文獻(xiàn)
在校期間的研究成果
致謝
本文編號:3825848
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文的研究思想和內(nèi)容安排
1.3.1 本文的研究內(nèi)容
1.3.2 本文的組織和安排
2 Web數(shù)據(jù)挖掘和聚類算法研究
2.1 數(shù)據(jù)挖掘概述
2.1.1 數(shù)據(jù)挖掘
2.1.2 數(shù)據(jù)挖掘算法
2.2 Web數(shù)據(jù)挖掘概述
2.3 k-means聚類算法研究
2.4 Fuzzy k-means聚類算法研究
2.4.1 模糊集相關(guān)概念
2.4.2 模糊k-均值聚類算法
2.5 Rough k-means聚類算法研究
2.5.1 粗糙集相關(guān)概念
2.5.2 粗糙k-均值聚類算法
2.6 模糊粗糙k-means聚類算法研究
3 基于模糊向量的Web訪問模式聚類研究及分析
3.1 數(shù)據(jù)預(yù)處理
3.2 基于模糊粗糙k-均值的Web訪問模式聚類
3.3 基于夾角余弦的Web訪問模式聚類
3.3.1 基于夾角余弦的Web訪問模式聚類思想概述
3.3.2 實例分析
3.4 基于歐式距離的Web訪問模式聚類
3.4.1 基于歐式距離的Web訪問模式聚類思想概述
3.4.2 實例分析
3.5 基于模糊集的Web訪問模式聚類
3.5.1 基于模糊集的Web訪問模式聚類思想概述
3.5.2 實例分析
3.6 基于模糊向量的Web訪問模式聚類算法對比分析
4 基于模糊粗糙k-均值和夾角余弦雙層聚類
4.1 問題提出
4.2 基于模糊粗糙k-均值和夾角余弦雙層聚類算法描述
4.3 實例分析
4.4 實驗分析
4.4.1 相似度算法對比
4.4.2 模糊粗糙k-均值和雙層聚類的對比
5 基于模糊粗糙k-均值聚類改進(jìn)算法及分析
5.1 問題提出
5.2 較優(yōu)聚類數(shù)的確定
5.3 基于模糊粗糙k-均值聚類改進(jìn)算法描述
5.4 實例分析
5.5 實驗分析
6 基于MapReduce的并行分布式聚類
6.1 Hadoop概述
6.2 HDFS體系結(jié)構(gòu)
6.3 MapReduce計算框架
6.3.1 MapReduce體系結(jié)構(gòu)
6.3.2 MapReduce工作流程
6.4 基于MapReduce的并行分布式雙層聚類
6.4.1 聚類中心計算模塊設(shè)計
6.4.2 主函數(shù)判斷模塊的設(shè)計
6.4.3 夾角余弦相似度計算模塊設(shè)計
6.5 基于MapReduce的并行分布式模糊粗糙k-均值改進(jìn)
6.5.1 較優(yōu)聚類數(shù)計算模塊的設(shè)計
6.5.2 初始聚類中心計算模塊的設(shè)計
6.5.3 其它模塊設(shè)計
6.6 實驗分析
6.6.1 兩種改進(jìn)算法的擴(kuò)展性分析
6.6.2 兩種改進(jìn)算法的加速比分析
7 結(jié)論與展望
參考文獻(xiàn)
在校期間的研究成果
致謝
本文編號:3825848
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3825848.html
最近更新
教材專著