基于Spark的Apriori算法的改進(jìn)
本文選題:Apriori + Spark ; 參考:《東北師大學(xué)報(bào)(自然科學(xué)版)》2016年01期
【摘要】:基于Spark大數(shù)據(jù)框架,將傳統(tǒng)Apriori算法進(jìn)行并行化處理,提出了一種改進(jìn)的并行化AMRDD算法,使Apriori算法能夠適用于大數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘.該算法利用Spark基于內(nèi)存計(jì)算的抽象對象存儲頻繁項(xiàng)集,通過引入矩陣概念減少掃描事務(wù)數(shù)據(jù)庫的次數(shù),應(yīng)用局部剪枝和全局剪枝方法縮減生成候選頻繁項(xiàng)集的數(shù)量.通過搭建Spark平臺實(shí)現(xiàn)該算法,并與傳統(tǒng)Apriori算法和基于Hadoop的Apriori算法進(jìn)行性能上的比較.結(jié)果表明,該算法能夠較大程度地提高大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的效率.
[Abstract]:Based on the Spark big data framework, the traditional Apriori algorithm is parallelized, and an improved parallel AMRDD algorithm is proposed, which enables the Apriori algorithm to be applied to the mining of big data association rules. The algorithm uses Spark memory-based abstract objects to store frequent itemsets, reduces the number of scanned transaction databases by introducing the matrix concept, and reduces the number of candidate frequent itemsets by using local pruning and global pruning methods. The algorithm is implemented on the Spark platform and compared with the traditional Apriori algorithm and the Apriori algorithm based on Hadoop. The results show that the algorithm can greatly improve the efficiency of big data association rule mining.
【作者單位】: 長春工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61472049) 吉林省自然科學(xué)基金資助項(xiàng)目(20130101055JC) 吉林省科技發(fā)展計(jì)劃項(xiàng)目(20150204005GX) 長春市重大科技攻關(guān)計(jì)劃項(xiàng)目(14KG082)
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 宋天勇;趙輝;李萬龍;王璐;田世元;;引入自檢策略的進(jìn)化K-means算法[J];東北師大學(xué)報(bào)(自然科學(xué)版);2014年03期
2 馮勇;尹潔娜;徐紅艷;;基于垂直頻繁模式樹帶有負(fù)載均衡的分布關(guān)聯(lián)規(guī)則挖掘算法[J];計(jì)算機(jī)應(yīng)用;2014年02期
【共引文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 尹潔娜;基于元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法研究[D];遼寧大學(xué);2014年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 牛琨;張舒博;陳俊亮;;融合網(wǎng)格密度的聚類中心初始化方案[J];北京郵電大學(xué)學(xué)報(bào);2007年02期
2 陶新民;徐晶;楊立標(biāo);劉玉;;一種改進(jìn)的粒子群和K均值混合聚類算法[J];電子與信息學(xué)報(bào);2010年01期
3 賴玉霞;劉建平;;K-means算法的初始聚類中心的優(yōu)化[J];計(jì)算機(jī)工程與應(yīng)用;2008年10期
4 韓凌波;王強(qiáng);蔣正鋒;郝志強(qiáng);;一種改進(jìn)的k-means初始聚類中心選取算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年17期
5 張雪鳳;張桂珍;劉鵬;;基于聚類準(zhǔn)則函數(shù)的改進(jìn)K-means算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年11期
6 陳敏;李徽翡;;集群系統(tǒng)中的FP-Growth并行算法[J];計(jì)算機(jī)工程;2009年20期
7 何波;;基于頻繁模式樹的分布式關(guān)聯(lián)規(guī)則挖掘算法[J];控制與決策;2012年04期
8 徐杰;李云;劉博;張曉斌;;基于垂直FP樹的并行頻繁項(xiàng)集挖掘[J];計(jì)算機(jī)與數(shù)字工程;2012年10期
9 王留正;何振峰;;基于全局性分裂算子的進(jìn)化K-means算法[J];計(jì)算機(jī)應(yīng)用;2012年11期
10 仝雪姣;孟凡榮;王志曉;;對k-means初始聚類中心的優(yōu)化[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年08期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄒汪平;;一種基于網(wǎng)絡(luò)安全控制的蜂群算法應(yīng)用研究[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
2 李向偉;曹博;;時(shí)間參數(shù)在HITS算法中的應(yīng)用及改進(jìn)[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報(bào);2006年02期
3 吳濤;彭篤學(xué);;一種改進(jìn)的直線段裁剪算法[J];湛江師范學(xué)院學(xué)報(bào);2008年03期
4 張瑞子;南琳;胡琨元;田景賀;;基于EPC Class-1 Gen-2標(biāo)準(zhǔn)的防沖突算法與改進(jìn)[J];計(jì)算機(jī)工程;2009年02期
5 黃超;周寧;倪佑生;;基于蟻群算法的攻擊圖分析[J];計(jì)算機(jī)工程;2009年18期
6 秦永彬;許道云;;警示傳播算法的原理分析及算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2010年19期
7 郭毅可;韓銳;;云計(jì)算中的彈性算法:概要和展望[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
8 牛玉靜;唐棣;;雙步圓的反走樣生成算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年23期
9 肖璞;;XML索引更新算法的改進(jìn)[J];南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年03期
10 周駿;陳鳴;張佳明;;兩類頻繁項(xiàng)算法在網(wǎng)絡(luò)流上的適用性評估[J];計(jì)算機(jī)工程;2011年16期
相關(guān)會議論文 前10條
1 黃紀(jì)武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會——2004年學(xué)術(shù)年會論文集[C];2004年
2 黃紀(jì)武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會2004年學(xué)術(shù)年會論文集[C];2004年
3 符麗錦;覃華;鄧海;孫欣;;一種改進(jìn)的Apriori算法的研究[A];廣西計(jì)算機(jī)學(xué)會2012年學(xué)術(shù)年會論文集[C];2012年
4 王東鋒;王軍民;陳英武;;模糊定性仿真理論研究與算法實(shí)現(xiàn)[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];2000年
5 趙唯;;晶粒度評級的改進(jìn)算法[A];中國圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國圖象圖形科技大會論文集[C];1998年
6 劉啟文;;可擴(kuò)展的圖形學(xué)算法演示系統(tǒng)的研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會議論文集[C];2004年
7 佘智;蔣泰;朱延生;;基于Type C協(xié)議的防沖突改進(jìn)算法[A];廣西計(jì)算機(jī)學(xué)會25周年紀(jì)念會暨2011年學(xué)術(shù)年會論文集[C];2011年
8 朱紹文;趙培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中國智能自動化會議論文集(下冊)[C];2003年
9 楊霞;;新的基于啟發(fā)式蟻群算法的QoS路由算法[A];廣西計(jì)算機(jī)學(xué)會2009年年會論文集[C];2009年
10 陳黎飛;姜青山;董槐林;;基于圖形輪廓的快速聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 鐘永騰;基于近場MUSIC算法的復(fù)合材料結(jié)構(gòu)健康監(jiān)測研究[D];南京航空航天大學(xué);2014年
2 劉燕;入侵雜草優(yōu)化算法在陣列天線綜合中的應(yīng)用[D];西安電子科技大學(xué);2015年
3 單美靜;求解非線性實(shí)代數(shù)系統(tǒng)的混合算法研究[D];華東師范大學(xué);2008年
4 邱劍鋒;人工蜂群算法的改進(jìn)方法與收斂性理論的研究[D];安徽大學(xué);2014年
5 潘磊;若干社區(qū)發(fā)現(xiàn)算法研究[D];南京大學(xué);2014年
6 陳俊波;頻繁閉合項(xiàng)集挖掘算法及應(yīng)用研究[D];浙江大學(xué);2009年
7 陸楠;關(guān)聯(lián)規(guī)則的挖掘及其算法的研究[D];吉林大學(xué);2007年
8 范洪博;快速精確字符串匹配算法研究[D];哈爾濱工程大學(xué);2011年
9 寇曉麗;群智能算法及其應(yīng)用研究[D];西安電子科技大學(xué);2009年
10 劉維;生物序列模式挖掘與識別算法的研究[D];南京航空航天大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 安世勇;命題邏輯中隨機(jī)3-SAT問題算法研究[D];西南交通大學(xué);2015年
2 畢曉慶;油氣探礦權(quán)競爭性出讓系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2015年
3 王明明;鐵路大機(jī)與線路固定設(shè)施間距檢測算法研究[D];西南交通大學(xué);2015年
4 李靜;基于視頻圖像序列的運(yùn)動目標(biāo)檢測與跟蹤算法研究[D];寧夏大學(xué);2015年
5 劉貝玲;基于天地圖的租房平臺開發(fā)及其關(guān)鍵技術(shù)研究[D];西南交通大學(xué);2015年
6 曹海鋒;IDS中串匹配臭算法并行優(yōu)化研究[D];西安建筑科技大學(xué);2015年
7 周攀;基于蟻群算法的山區(qū)高速鐵路隧道火災(zāi)應(yīng)急疏散最優(yōu)路徑研究[D];西南交通大學(xué);2015年
8 張路奇;基于改進(jìn)蟻群算法的WSN路由協(xié)議的研究[D];中國地質(zhì)大學(xué)(北京);2015年
9 王曉晨;入侵雜草優(yōu)化算法的應(yīng)用與改進(jìn)[D];長安大學(xué);2015年
10 信琴琴;手勢控制和識別算法研究[D];閩南師范大學(xué);2015年
,本文編號:2098023
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2098023.html