基于Spark的FP-Growth算法的研究
發(fā)布時間:2023-02-19 17:05
隨著信息時代的數(shù)據(jù)量高速增長,人們越來越熱衷于從海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息。數(shù)據(jù)挖掘技術(shù)越來越成熟,數(shù)據(jù)挖掘理論與算法也日臻完善。隨著數(shù)據(jù)量爆炸式的增長,算法的運(yùn)行對計算機(jī)內(nèi)存的要求越來越高,FP-Growth算法本身也存在著算法邏輯復(fù)雜和需要多次迭代等缺點,難以完成對海量數(shù)據(jù)的挖掘任務(wù),這就需要開發(fā)全新的算法或者對傳統(tǒng)的算法進(jìn)行改進(jìn)。本文基于Spark并行計算框架,從存儲和分組兩個方面提出了FP-Growth算法的改進(jìn)策略,有效地提高了算法的性能。主要工作如下:第一,對存儲策略的改進(jìn)。Spark是基于內(nèi)存的并行計算框架,將產(chǎn)生的中間結(jié)果存儲于RDD中。面對海量數(shù)據(jù),RDD不能滿足存儲所有的中間結(jié)果時,會釋放暫時不需要的RDD,需要時再進(jìn)行重新計算。本文結(jié)合Spark自身的特點,提出一種對中間計算結(jié)果緩存的方法。針對產(chǎn)生條件模式基時需要對分區(qū)后的事務(wù)集重復(fù)計算的問題,將分區(qū)后的事務(wù)集進(jìn)行緩存;針對產(chǎn)生關(guān)聯(lián)規(guī)則時需要對頻繁項集重復(fù)計算的問題,將每一棵FP-Tree進(jìn)行挖掘時產(chǎn)生的頻繁項集進(jìn)行緩存。通過對上述中間結(jié)果的緩存,有效地避免了重復(fù)計算帶來的額外開銷。第二,對分組方式的改進(jìn)。在并行...
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 基本理論和相關(guān)技術(shù)介紹
2.1 關(guān)聯(lián)規(guī)則的基本概念
2.1.1 關(guān)聯(lián)規(guī)則的定義
2.1.2 關(guān)聯(lián)規(guī)則的挖掘步驟
2.1.3 關(guān)聯(lián)規(guī)則的挖掘分類
2.2 關(guān)聯(lián)規(guī)則的經(jīng)典算法
2.2.1 Apriori算法
2.2.2 FP-Growth算法
2.3 Hadoop的相關(guān)技術(shù)
2.3.1 HDFS分布式文件管理系統(tǒng)
2.3.2 MapReduce并行計算框架
2.4 Spark的相關(guān)技術(shù)
2.4.1 Spark的特點
2.4.2 Spark生態(tài)系統(tǒng)
2.4.3 Spark架構(gòu)
2.5 本章小結(jié)
第3章 基于Spark的 FP-Growth算法的優(yōu)化
3.1 引言
3.2 基于MapReduce的 FP-Growth算法
3.3 基于MapReduce的 FP-Growth算法缺陷
3.4 基于Spark的 FP-Growth算法
3.4.1 基于Spark的 FP-Growth算法流程
3.4.2 基于Spark的 FP-Growth算法步驟
3.5 基于Spark的 FP-Growth算法優(yōu)化
3.5.1 存儲的優(yōu)化
3.5.2 存儲方式改進(jìn)后算法的實現(xiàn)
3.5.3 分組策略的優(yōu)化
3.5.4 分組策略改進(jìn)后算法的實現(xiàn)
3.6 基于Spark改進(jìn)后的FP-Growth算法
3.7 本章小結(jié)
第4章 實驗過程及結(jié)果分析
4.1 實驗環(huán)境和數(shù)據(jù)集
4.1.1 實驗環(huán)境
4.1.2 實驗數(shù)據(jù)集
4.2 并行化評價指標(biāo)
4.3 實驗結(jié)果與分析
4.3.1 節(jié)點數(shù)量的影響
4.3.2 支持度的影響
4.3.3 數(shù)據(jù)規(guī)模的影響
4.3.4 加速比
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 展望未來
致謝
參考文獻(xiàn)
本文編號:3746616
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
第2章 基本理論和相關(guān)技術(shù)介紹
2.1 關(guān)聯(lián)規(guī)則的基本概念
2.1.1 關(guān)聯(lián)規(guī)則的定義
2.1.2 關(guān)聯(lián)規(guī)則的挖掘步驟
2.1.3 關(guān)聯(lián)規(guī)則的挖掘分類
2.2 關(guān)聯(lián)規(guī)則的經(jīng)典算法
2.2.1 Apriori算法
2.2.2 FP-Growth算法
2.3 Hadoop的相關(guān)技術(shù)
2.3.1 HDFS分布式文件管理系統(tǒng)
2.3.2 MapReduce并行計算框架
2.4 Spark的相關(guān)技術(shù)
2.4.1 Spark的特點
2.4.2 Spark生態(tài)系統(tǒng)
2.4.3 Spark架構(gòu)
2.5 本章小結(jié)
第3章 基于Spark的 FP-Growth算法的優(yōu)化
3.1 引言
3.2 基于MapReduce的 FP-Growth算法
3.3 基于MapReduce的 FP-Growth算法缺陷
3.4 基于Spark的 FP-Growth算法
3.4.1 基于Spark的 FP-Growth算法流程
3.4.2 基于Spark的 FP-Growth算法步驟
3.5 基于Spark的 FP-Growth算法優(yōu)化
3.5.1 存儲的優(yōu)化
3.5.2 存儲方式改進(jìn)后算法的實現(xiàn)
3.5.3 分組策略的優(yōu)化
3.5.4 分組策略改進(jìn)后算法的實現(xiàn)
3.6 基于Spark改進(jìn)后的FP-Growth算法
3.7 本章小結(jié)
第4章 實驗過程及結(jié)果分析
4.1 實驗環(huán)境和數(shù)據(jù)集
4.1.1 實驗環(huán)境
4.1.2 實驗數(shù)據(jù)集
4.2 并行化評價指標(biāo)
4.3 實驗結(jié)果與分析
4.3.1 節(jié)點數(shù)量的影響
4.3.2 支持度的影響
4.3.3 數(shù)據(jù)規(guī)模的影響
4.3.4 加速比
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 展望未來
致謝
參考文獻(xiàn)
本文編號:3746616
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3746616.html
最近更新
教材專著