基于Hadoop的關(guān)聯(lián)規(guī)則并行加速算法研究

發(fā)布時間：2021-04-03 00:23

　　隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,數(shù)據(jù)量呈現(xiàn)爆炸式增長,對數(shù)據(jù)挖掘技術(shù)提出了嚴(yán)峻的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在對這些海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時,呈現(xiàn)出效率低下,甚至無法完成等一系列問題。大數(shù)據(jù)、云計算技術(shù)的出現(xiàn),為上述問題提供了良好的解決方案,其分布式存儲、計算模式有效解決了內(nèi)存需求大、磁盤I/O多等諸多問題。關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘中最經(jīng)典、最成熟的算法之一,其主要功能是從相互關(guān)聯(lián)的數(shù)據(jù)集中找出項與項之間的關(guān)系。本文基于Hadoop對經(jīng)典的關(guān)聯(lián)規(guī)則算法Apriori和Fp-Growth進(jìn)行并行化改進(jìn),主要研究內(nèi)容如下:對Apriori算法存在的生成大量的候選項集、多次掃描事務(wù)集、消耗大量的時間三方面缺陷進(jìn)行改進(jìn)。將剪枝策略運用在MapReduce編程模型中,對原始Apriori算法進(jìn)行改進(jìn),有效降低了計算復(fù)雜度;在此基礎(chǔ)上引入HBase繼續(xù)對MR-Apriori算法改進(jìn),有效提高數(shù)據(jù)訪問效率。Fp-Growth算法是對Apriori算法的一種優(yōu)化,有效解決了Apriori算法中生成大量的候選項集、多次掃描事務(wù)集等弊端。但是,Fp-Growth算法在進(jìn)行海量數(shù)據(jù)挖掘、最小支持度較低時,仍然存在著內(nèi)存...

【文章來源】：南京郵電大學(xué)江蘇省

【文章頁數(shù)】：65 頁

【學(xué)位級別】：碩士

【部分圖文】：

集群啟動結(jié)果

本文編號：3116243

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3116243.html

上一篇：基于區(qū)塊鏈的跨通道數(shù)據(jù)分享模型的設(shè)計與實現(xiàn)
下一篇：樹索引位置數(shù)據(jù)差分隱私保護(hù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的關(guān)聯(lián)規(guī)則并行加速算法研究