基于MapReduce架構(gòu)的并行矩陣Apriori算法
【圖文】:
AnrioxiM算法疏程
1.2HadoopHadoop是一種專門用于實現(xiàn)大規(guī)模批處理的大數(shù)據(jù)系統(tǒng),是基于當(dāng)下最流行的MapReduce開源實現(xiàn)的,其突出的一個特點是數(shù)據(jù)規(guī)模越大(一般為TB或PB級以上),越適合使用Hadoop大數(shù)據(jù)系統(tǒng)來進行海量數(shù)據(jù)挖掘。文獻[3]通過分布式并行處理大數(shù)據(jù)節(jié)點性能計算實驗證明了降低數(shù)據(jù)傳輸時延,能有效地降低時延對處理結(jié)果的影響。文獻[4]通過實驗得出使用列存儲系統(tǒng)能使海量數(shù)據(jù)具有更大的壓縮比且更易于查詢處理。文獻[5,6]討論了在同一節(jié)點上,且數(shù)據(jù)量保持不變的情況下如何來降低網(wǎng)絡(luò)I/O的開銷。文獻[7]提出為優(yōu)化磁盤I/O開銷可考慮將數(shù)據(jù)常駐于內(nèi)存這一策略作為解決方案。文獻[8]提出了關(guān)聯(lián)規(guī)則運用到數(shù)據(jù)挖掘?qū)崿F(xiàn)分布式并行化處理時,事先將數(shù)據(jù)進行劃分是一種很不錯的方法。文獻[9]采用FP-Tree的方法來查找頻繁項集,該方法的優(yōu)點在于只需對事務(wù)數(shù)據(jù)庫掃描兩次,并且可以對數(shù)據(jù)集進行壓縮。文獻[10]通過矩陣分解推薦算法實驗證實了數(shù)據(jù)在MapReduce架構(gòu)下能獲得更高的加速比。2Apriori_MMR算法2.1并行化策略基于上述的理論研究基礎(chǔ),為進一步降低系統(tǒng)I/O、內(nèi)存和通信的消耗,將數(shù)據(jù)劃分的思想引入到Apriori_M,并與Map-Reduce計算框架結(jié)合對算法進行并行化優(yōu)化(matrixMapRe-duceApriori,Apriori_MMR),改進和優(yōu)化頻繁項集產(chǎn)生的過程,高效獲得所需的關(guān)聯(lián)規(guī)則。矩陣可以看成是行向量的集合。根據(jù)向量的操作規(guī)則,在矩陣中只需要使用“與”操作就可以快速地產(chǎn)生項目集的支持頻度。將D進行矩陣化處理,可以有效地減少掃描數(shù)據(jù)庫的次數(shù)。以矩陣來計算事務(wù)數(shù)據(jù)庫中交易記錄項目集的支持頻度時,僅需向D掃描兩次,,從理論上來說可以極大地優(yōu)化Apriori算法的并行化過程。2.2算法流程Apriori_MMR算法是基于MapRe
【相似文獻】
相關(guān)期刊論文 前10條
1 張玉強;于鳳全;金立峰;朱曉飛;;Apriori算法在雷達故障診斷系統(tǒng)中的應(yīng)用研究[J];電腦知識與技術(shù);2011年07期
2 李陽;朱宗勝;;基于優(yōu)化Apriori算法的入侵檢測系統(tǒng)模型設(shè)計[J];計算機安全;2009年11期
3 王冬秀;胡迎春;李輝;;改進的Apriori算法在股票分析中的應(yīng)用研究[J];科技通報;2013年03期
4 高琰;王臺華;郭帆;余敏;;應(yīng)用非迭代Apriori算法檢測分布式拒絕服務(wù)攻擊[J];計算機應(yīng)用;2011年06期
5 鄭麟;;一種直接生成頻繁項集的分治Apriori算法[J];計算機應(yīng)用與軟件;2014年04期
6 陶榮;;基于Apriori算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用與研究[J];計算機光盤軟件與應(yīng)用;2012年21期
7 明勇;;基于數(shù)據(jù)挖掘的Apriori算法在入侵檢測中的應(yīng)用[J];電腦知識與技術(shù);2005年35期
8 肖桂艷;周滿元;;Apriori算法在基于網(wǎng)絡(luò)入侵檢測系統(tǒng)中的應(yīng)用[J];微計算機信息;2010年06期
9 吳昊;李軍國;;一種改進的Apriori算法在交通信息化中的應(yīng)用[J];信息化縱橫;2009年08期
10 甘超;陸遠;李娟;胡瑩;;基于Apriori算法的設(shè)備故障診斷技術(shù)的研究[J];組合機床與自動化加工技術(shù);2014年01期
相關(guān)會議論文 前7條
1 劉擎;劉云濤;羅翌;;關(guān)聯(lián)規(guī)則挖掘Apriori算法在當(dāng)代名老中醫(yī)流感醫(yī)案挖掘中的應(yīng)用及改進探討[A];2012中國中西醫(yī)結(jié)合學(xué)會急救醫(yī)學(xué)專業(yè)委員會學(xué)術(shù)年會論文集[C];2012年
2 陳波;董鵬;邵勇;;基于Apriori算法及其改進算法綜述[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
3 張彥;劉偉;;結(jié)合超市數(shù)據(jù)的關(guān)聯(lián)規(guī)則Apriori算法淺析[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
4 楊宗波;宗容;?;彭廣軍;;入侵檢測中Apriori算法的研究與改進[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
5 梁昌勇;趙艷霞;;基于RFM分析的銀行信用卡客戶的行為評分模型——應(yīng)用自組織映射神經(jīng)網(wǎng)絡(luò)SOM和Apriori方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
6 高明;盛立;劉希玉;;關(guān)聯(lián)規(guī)則挖掘中Apriori算法的一種改進[A];山東省計算機學(xué)會2005年信息技術(shù)與信息化研討會論文集(二)[C];2005年
7 萬敏;潘笑;賓誼沅;;利用Apriori算法實現(xiàn)WEB的個性化服務(wù)[A];2005通信理論與技術(shù)新進展——第十屆全國青年通信學(xué)術(shù)會議論文集[C];2005年
相關(guān)碩士學(xué)位論文 前10條
1 趙宏利;改進的Apriori算法在大學(xué)生心理分析中的研究[D];華中師范大學(xué);2015年
2 王丹;基于云計算的關(guān)聯(lián)規(guī)則Apriori算法的研究與實現(xiàn)[D];南昌大學(xué);2015年
3 楊財英;Apriori算法及其在學(xué)生成績分析中的應(yīng)用研究[D];湖南大學(xué);2016年
4 吳博;Apriori算法挖掘技術(shù)在WANO人因數(shù)據(jù)中的應(yīng)用研究[D];南華大學(xué);2016年
5 侯建輝;基于改進Apriori算法的名老中醫(yī)治療高血壓病驗案挖掘研究[D];山東中醫(yī)藥大學(xué);2016年
6 王達明;基于云計算與醫(yī)療大數(shù)據(jù)的Apriori算法的優(yōu)化研究[D];北京郵電大學(xué);2015年
7 楊國英;泛在網(wǎng)下基于Apriori算法的移動群組的位置預(yù)測[D];南京郵電大學(xué);2013年
8 丁磊;一種改進的Apriori算法在手機評教系統(tǒng)中的研究[D];華中師范大學(xué);2014年
9 朱惠;關(guān)聯(lián)規(guī)則中Apriori算法的研究與改進[D];安徽理工大學(xué);2014年
10 王培吉;基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘及改進[D];內(nèi)蒙古大學(xué);2003年
本文編號:2681843
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2681843.html