基于分布式計算的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用
發(fā)布時間:2023-11-17 18:11
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中通過算法挖掘出有利于決策的信息的過程,關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個有效方法,能便捷地從數(shù)據(jù)中提取有用的知識。但是,傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法在處理至少數(shù)百萬的大數(shù)據(jù)時挖掘速度較慢,且容易挖掘到冗余的關(guān)聯(lián)規(guī)則。而且,傳統(tǒng)方法在處理增量式數(shù)據(jù)時存在歷史數(shù)據(jù)重復(fù)挖掘、規(guī)則挖掘準(zhǔn)確率不高的問題。針對以上問題,本文基于分布式計算的思想,分別在針對關(guān)聯(lián)規(guī)則的去冗余方面和對大數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘的速度優(yōu)化方面進(jìn)行了研究和探索,并且研究了一種增量關(guān)聯(lián)規(guī)則挖掘算法,最后將算法應(yīng)用到在線零售上為上層決策者提供有用的信息。本文主要工作如下:1.構(gòu)建了一種基于分布式計算的較優(yōu)關(guān)聯(lián)規(guī)則挖掘算法。針對現(xiàn)有方法在大數(shù)據(jù)環(huán)境下挖掘速度較慢且挖掘到的關(guān)聯(lián)規(guī)則存在大量冗余的問題,基于分布式計算將數(shù)據(jù)分為多個部分,采用針對不同項集長度的頻繁項集挖掘方法從各個部分挖掘局部頻繁項集并進(jìn)行整合;然后結(jié)合深度優(yōu)先搜索從最大頻繁項集出發(fā),根據(jù)提升度計算項集質(zhì)量,根據(jù)相對質(zhì)量大小去除冗余項集;最后僅對剩下的項集進(jìn)行挖掘并生成相應(yīng)的關(guān)聯(lián)規(guī)則,而不是根據(jù)置信度生成規(guī)則。該方法減少了對冗余頻繁項集的挖掘而產(chǎn)生的計算資源的浪...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 引言
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 關(guān)聯(lián)規(guī)則挖掘算法
1.2.2 分布式計算相關(guān)算法
1.3 存在的主要問題
1.4 研究內(nèi)容及技術(shù)路線
1.4.1 主要研究內(nèi)容
1.4.2 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
第2章 相關(guān)理論基礎(chǔ)
2.1 關(guān)聯(lián)規(guī)則挖掘基礎(chǔ)
2.2 關(guān)聯(lián)規(guī)則挖掘算法
2.2.1 Apriori算法
2.2.2 FP-Growth算法
2.3 分布式計算模型
2.4 本章小結(jié)
第3章 基于分布式計算的關(guān)聯(lián)規(guī)則挖掘算法
3.1 最大頻繁項集挖掘算法
3.1.1 整體框架設(shè)計
3.1.2 算法分析
3.2 基于分布式計算的關(guān)聯(lián)規(guī)則挖掘算法優(yōu)化
3.2.1 整體框架設(shè)計
3.2.2 算法詳細(xì)描述
3.2.3 時間復(fù)雜度分析
3.3 實驗設(shè)計與結(jié)果分析
3.3.1 實驗環(huán)境和數(shù)據(jù)集
3.3.2 運行時間對比
3.3.3 關(guān)聯(lián)規(guī)則質(zhì)量對比
3.4 本章小結(jié)
第4章 增量關(guān)聯(lián)規(guī)則挖掘算法
4.1 并行增量頻繁項集挖掘算法
4.1.1 整體框架設(shè)計
4.1.2 算法分析
4.2 基于分布式計算的增量關(guān)聯(lián)規(guī)則挖掘算法優(yōu)化
4.2.1 整體框架設(shè)計
4.2.2 算法詳細(xì)設(shè)計
4.3 實驗設(shè)計與結(jié)果分析
4.3.1 實驗環(huán)境及數(shù)據(jù)集
4.3.2 速度提升對比
4.3.3 頻繁項集準(zhǔn)確率對比
4.4 本章小結(jié)
第5章 基于關(guān)聯(lián)規(guī)則挖掘的在線零售應(yīng)用
5.1 在線零售的應(yīng)用背景
5.2 應(yīng)用實例
5.2.1 基于MR-IARM算法的在線零售決策過程
5.2.2 結(jié)果分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 研究工作總結(jié)與創(chuàng)新
6.2 未來研究展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號:3864631
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 引言
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 關(guān)聯(lián)規(guī)則挖掘算法
1.2.2 分布式計算相關(guān)算法
1.3 存在的主要問題
1.4 研究內(nèi)容及技術(shù)路線
1.4.1 主要研究內(nèi)容
1.4.2 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
第2章 相關(guān)理論基礎(chǔ)
2.1 關(guān)聯(lián)規(guī)則挖掘基礎(chǔ)
2.2 關(guān)聯(lián)規(guī)則挖掘算法
2.2.1 Apriori算法
2.2.2 FP-Growth算法
2.3 分布式計算模型
2.4 本章小結(jié)
第3章 基于分布式計算的關(guān)聯(lián)規(guī)則挖掘算法
3.1 最大頻繁項集挖掘算法
3.1.1 整體框架設(shè)計
3.1.2 算法分析
3.2 基于分布式計算的關(guān)聯(lián)規(guī)則挖掘算法優(yōu)化
3.2.1 整體框架設(shè)計
3.2.2 算法詳細(xì)描述
3.2.3 時間復(fù)雜度分析
3.3 實驗設(shè)計與結(jié)果分析
3.3.1 實驗環(huán)境和數(shù)據(jù)集
3.3.2 運行時間對比
3.3.3 關(guān)聯(lián)規(guī)則質(zhì)量對比
3.4 本章小結(jié)
第4章 增量關(guān)聯(lián)規(guī)則挖掘算法
4.1 并行增量頻繁項集挖掘算法
4.1.1 整體框架設(shè)計
4.1.2 算法分析
4.2 基于分布式計算的增量關(guān)聯(lián)規(guī)則挖掘算法優(yōu)化
4.2.1 整體框架設(shè)計
4.2.2 算法詳細(xì)設(shè)計
4.3 實驗設(shè)計與結(jié)果分析
4.3.1 實驗環(huán)境及數(shù)據(jù)集
4.3.2 速度提升對比
4.3.3 頻繁項集準(zhǔn)確率對比
4.4 本章小結(jié)
第5章 基于關(guān)聯(lián)規(guī)則挖掘的在線零售應(yīng)用
5.1 在線零售的應(yīng)用背景
5.2 應(yīng)用實例
5.2.1 基于MR-IARM算法的在線零售決策過程
5.2.2 結(jié)果分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 研究工作總結(jié)與創(chuàng)新
6.2 未來研究展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號:3864631
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3864631.html
最近更新
教材專著