頻繁項(xiàng)集挖掘算法及其基于Spark的并行化研究
本文關(guān)鍵詞:頻繁項(xiàng)集挖掘算法及其基于Spark的并行化研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 頻繁項(xiàng)集 Spark 并行計(jì)算
【摘要】:頻繁項(xiàng)集挖掘自首次提出以來,因其具有較高的時(shí)間復(fù)雜度,引起許多國內(nèi)外的研究者們致力于提高相關(guān)算法的性能。尤其是隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的頻繁項(xiàng)集挖掘算法往往受限于單臺計(jì)算機(jī)有限的計(jì)算能力和存儲容量,無法滿足用戶對于處理更大規(guī)模的頻繁項(xiàng)集挖掘問題的迫切需求。本文對當(dāng)前頻繁項(xiàng)集挖掘算法的優(yōu)缺點(diǎn)進(jìn)行了比較和總結(jié),并對近年來流行的Spark并行計(jì)算技術(shù)進(jìn)行了學(xué)習(xí)和研究,提出了一種優(yōu)化的項(xiàng)集表示方式,稱之為HybridNodeset。同時(shí),提出了一種基于該項(xiàng)集表示方式的串行頻繁項(xiàng)集挖掘算法,稱之為HybridFIN算法。實(shí)驗(yàn)結(jié)果表明,與當(dāng)前性能較好的頻繁項(xiàng)集挖掘算法相比,該算法在處理不同類型的數(shù)據(jù)集時(shí)的性能更加穩(wěn)定,并且能在更短的時(shí)間內(nèi)完成計(jì)算任務(wù)。另外,對該項(xiàng)集表示方式進(jìn)行了擴(kuò)展性研究,將其應(yīng)用于最大頻繁項(xiàng)集挖掘,并改進(jìn)了基于MFI-Tree的投影策略,提高了該算法的執(zhí)行速度。為了充分利用集群的計(jì)算能力,提出了一種基于Spark的并行頻繁項(xiàng)集挖掘算法,稱之為PHybridFIN算法。該算法通過映射事務(wù)數(shù)據(jù)集的方式來將原始問題分解為若干個(gè)子問題進(jìn)行求解,并采用了事務(wù)樹來減少網(wǎng)絡(luò)傳輸方面的時(shí)間開銷。實(shí)驗(yàn)結(jié)果表明,該算法的執(zhí)行速度超過了Spark機(jī)器學(xué)習(xí)算法庫中的PFP算法。最后,對PHybridFIN算法中映射事務(wù)數(shù)據(jù)集的過程進(jìn)行了改進(jìn),提出了PHybridFIN+算法。該算法采用了完全不同的并行化策略,無需映射事務(wù)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,該算法的性能有了進(jìn)一步的提升。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 頻繁項(xiàng)集 Spark 并行計(jì)算
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要6-7
- ABSTRACT7-10
- 第1章 緒論10-16
- 1.1 研究背景和意義10-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 串行頻繁項(xiàng)集挖掘算法的研究現(xiàn)狀12-13
- 1.2.2 并行頻繁項(xiàng)集挖掘算法的研究現(xiàn)狀13-14
- 1.3 本文的主要工作及創(chuàng)新點(diǎn)14-15
- 1.4 本文的組織結(jié)構(gòu)15
- 1.5 本章小結(jié)15-16
- 第2章 相關(guān)研究工作16-29
- 2.1 頻繁項(xiàng)集挖掘的定義16
- 2.2 串行頻繁項(xiàng)集挖掘算法16-22
- 2.2.1 FP-Growth算法16-19
- 2.2.2 FIN算法19-21
- 2.2.3 dFIN算法21-22
- 2.3 串行最大頻繁項(xiàng)集挖掘算法22-24
- 2.3.1 FP-Max算法22-24
- 2.4 并行頻繁項(xiàng)集挖掘算法24-26
- 2.4.1 PFP算法24-26
- 2.5 Spark并行計(jì)算技術(shù)26-28
- 2.6 本章小結(jié)28-29
- 第3章 基于HybridNodeset的串行頻繁項(xiàng)集挖掘算法29-46
- 3.1 HybridFIN的基本思想29
- 3.2 HybridNodeset的定義和性質(zhì)29-36
- 3.3 HybridNodeset的性能分析36-38
- 3.4 HybridFIN算法描述38-41
- 3.5 實(shí)驗(yàn)結(jié)果和分析41-45
- 3.5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集41-42
- 3.5.2 性能測試結(jié)果42-45
- 3.6 本章小結(jié)45-46
- 第4章 基于HybridNodeset的串行最大頻繁項(xiàng)集挖掘算法46-54
- 4.1 MHybridFIN算法的基本思想46
- 4.2 MHybridFIN算法描述46-49
- 4.3 實(shí)驗(yàn)結(jié)果和分析49-53
- 4.3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集49-50
- 4.3.2 性能測試結(jié)果50-53
- 4.4 本章小結(jié)53-54
- 第5章 基于HybridNodeset的并行頻繁項(xiàng)集挖掘算法54-61
- 5.1 PHybridFIN算法的基本思想54
- 5.2 PHybridFIN算法描述54-57
- 5.3 實(shí)驗(yàn)結(jié)果和分析57-60
- 5.3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集57-58
- 5.3.2 性能測試結(jié)果58-60
- 5.4 本章小結(jié)60-61
- 第6章 基于HybridNodeset的并行頻繁項(xiàng)集挖掘改進(jìn)算法61-69
- 6.1 PHybridFIN+算法的基本思想61
- 6.2 PHybridFIN+算法描述61-65
- 6.3 實(shí)驗(yàn)結(jié)果和分析65-68
- 6.3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集65-66
- 6.3.2 性能測試結(jié)果66-68
- 6.4 本章小結(jié)68-69
- 第7章 總結(jié)和展望69-71
- 7.1 全文工作總結(jié)69-70
- 7.2 未來工作展望70-71
- 參考文獻(xiàn)71-74
- 附錄一 作者攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文74-75
- 附錄二 作者攻讀碩士學(xué)位期間參與的科研項(xiàng)目75-76
- 致謝76
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 肖基毅,鄒臘梅,劉豐;頻繁項(xiàng)集挖掘算法研究[J];情報(bào)雜志;2005年11期
2 蔡進(jìn);薛永生;張東站;;基于分區(qū)分類法快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)工程與應(yīng)用;2007年09期
3 胡學(xué)鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項(xiàng)集表示與挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
4 胡學(xué)鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項(xiàng)集表示及挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年09期
5 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[J];微電子學(xué)與計(jì)算機(jī);2008年10期
6 李彥偉;戴月明;王金鑫;;一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年15期
7 陳立潮,張建華,劉玉樹;提高頻繁項(xiàng)集挖掘算法效率的方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年10期
8 朱玉全,孫志揮,趙傳申;快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)研究與發(fā)展;2003年01期
9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個(gè)可轉(zhuǎn)化約束的頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)科學(xué);2003年12期
10 王自強(qiáng),馮博琴;頻繁項(xiàng)集的簡潔表示方法研究[J];系統(tǒng)工程理論與實(shí)踐;2004年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2008年
2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂;;頻繁項(xiàng)集的精簡表達(dá)與還原問題研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
3 鄧傳國;;頻繁項(xiàng)集挖掘與學(xué)生素質(zhì)測評應(yīng)用研究[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2007年
4 李彤巖;李興明;;基于分布式關(guān)聯(lián)規(guī)則挖掘的告警相關(guān)性研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(下冊)[C];2007年
5 王洪利;馮玉強(qiáng);;頻繁項(xiàng)集挖掘算法Apriori的改進(jìn)研究[A];全國第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會議論文集[C];2005年
6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項(xiàng)集挖掘算法[A];2006年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2006年
7 李坤;王永炎;王宏安;;一種基于樂觀裁剪策略的挖掘數(shù)據(jù)流滑動窗口上閉合頻繁項(xiàng)集的算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
8 鄒遠(yuǎn)婭;周皓峰;王晨;汪衛(wèi);施伯樂;;FSC——利用頻繁項(xiàng)集挖掘估算視圖大小[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2004年
9 楊曉雪;衡紅軍;;一種對XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2005年
10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項(xiàng)集挖掘的高性能算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年
2 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年
3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王立俊;基于多重最小支持度的氋效用頻繁項(xiàng)集挖掘算法研究[D];廣西大學(xué);2015年
2 陳國俊;基于Hadoop的云存儲系統(tǒng)的研究與應(yīng)用[D];電子科技大學(xué);2014年
3 尹艷紅;基于Apriori算法的增量式關(guān)聯(lián)規(guī)則控制研究[D];大連理工大學(xué);2015年
4 田苗鳳;大數(shù)據(jù)背景下并行動態(tài)關(guān)聯(lián)規(guī)則挖掘研究[D];蘭州交通大學(xué);2015年
5 李雪迪;基于本體論的精細(xì)化數(shù)據(jù)分析[D];南京郵電大學(xué);2015年
6 許靜文;基于模糊等價(jià)類的頻繁項(xiàng)集精簡表示算法研究[D];合肥工業(yè)大學(xué);2015年
7 王大偉;大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究[D];遼寧工業(yè)大學(xué);2016年
8 廖友金;基于有向圖的關(guān)聯(lián)規(guī)則挖掘研究與改進(jìn)[D];東南大學(xué);2015年
9 王蘇琦;基于Hadoop的不確定頻繁項(xiàng)集并行挖掘方法研究[D];南京大學(xué);2013年
10 韓宏瑩;并行數(shù)據(jù)挖掘技術(shù)在電信網(wǎng)管告警中的應(yīng)用研究[D];長春工業(yè)大學(xué);2016年
,本文編號:772389
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/772389.html