關(guān)聯(lián)規(guī)則挖掘算法的并行化及應(yīng)用研究

發(fā)布時(shí)間：2021-04-08 10:26

　　近年來,隨著經(jīng)濟(jì)和技術(shù)的迅猛發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)別的爆炸式增長(zhǎng)。面對(duì)海量的數(shù)據(jù),從中獲取有價(jià)值的關(guān)鍵信息成為了難題。數(shù)據(jù)挖掘技術(shù)為解決這一問題提供了有效途徑,而如何進(jìn)一步提高數(shù)據(jù)挖掘算法自身及其在各領(lǐng)域的應(yīng)用效率已成為相關(guān)領(lǐng)域的熱門課題。關(guān)聯(lián)規(guī)則挖掘是一項(xiàng)重要的數(shù)據(jù)挖掘任務(wù),關(guān)聯(lián)規(guī)則挖掘算法能從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系。Apriori算法是最具有代表性的用于挖掘關(guān)聯(lián)規(guī)則的算法,但是在產(chǎn)生候選項(xiàng)集和計(jì)算項(xiàng)集支持度的過程中I/O負(fù)載很大,時(shí)效性需要進(jìn)一步改進(jìn)。Spark平臺(tái)是一個(gè)分布式的基于內(nèi)存的適合迭代計(jì)算的大數(shù)據(jù)框架?本文以提高強(qiáng)關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性為目標(biāo),通過引入興趣度對(duì)Apriori算法做了改進(jìn),改進(jìn)算法命名為I-Apriori（Improved Apriori）;以提高強(qiáng)關(guān)聯(lián)規(guī)則挖掘的時(shí)效性為目標(biāo),設(shè)計(jì)了I-Apriori算法基于Spark的并行化方案?該方案利用Spark平臺(tái)的分布式架構(gòu)以及集群調(diào)度機(jī)制,將事務(wù)數(shù)據(jù)集分發(fā)給多個(gè)子節(jié)點(diǎn),各子節(jié)點(diǎn)調(diào)用transformation操作求得局部候選項(xiàng)集及支持度,并存儲(chǔ)于內(nèi)存中;匯總節(jié)點(diǎn)基于各局部候選項(xiàng)集產(chǎn)生全局候選項(xiàng)集和全局頻繁項(xiàng)集...

【文章來源】：南京郵電大學(xué)江蘇省

【文章頁數(shù)】：63 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

Hadoop生態(tài)系統(tǒng)

位置,大學(xué)專業(yè),伯克利,應(yīng)用場(chǎng)

南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章相關(guān)技術(shù)概述與分析整合了原本需要不同分布式平臺(tái)處理的計(jì)算，提供了更多能夠滿足不同應(yīng)用場(chǎng)景的高級(jí)組件。圖 2.2 為 Spark 在伯克利的數(shù)據(jù)分析軟件棧 BDAS 的位置。可以看出，Spark 在架構(gòu)上包括內(nèi)核和 4 個(gè)子模塊 Spark SQL、Spark Streaming、Mlib 和GraphX，專注于數(shù)據(jù)的計(jì)算，數(shù)據(jù)存儲(chǔ)往往還是由 Hadoop 分布式系統(tǒng) HDFS 承擔(dān)。

架構(gòu)圖,架構(gòu),存儲(chǔ)模塊

圖 2.3 Spark 的運(yùn)行架構(gòu)當(dāng)一個(gè)任務(wù)被用戶提交時(shí)，Driver 節(jié)點(diǎn)會(huì)創(chuàng)建一個(gè) SparkContext，它會(huì)向資源管理器申資源；資源分配完畢后，Spark 會(huì)啟動(dòng) Worker 上負(fù)責(zé)執(zhí)行具體任務(wù)的進(jìn)程 Executor，并會(huì)任務(wù)分發(fā)給 Executor；計(jì)算完成后，Worker 會(huì)將結(jié)果發(fā)回 Driver，然后釋放相關(guān)資源 Spa的 Executor 利用多線程來執(zhí)行具體任務(wù)，減少任務(wù)的啟動(dòng)開銷；其中有一個(gè) BlockManag存儲(chǔ)模塊，會(huì)將內(nèi)存和磁盤共同作為存儲(chǔ)設(shè)備，當(dāng)進(jìn)行多輪迭代計(jì)算時(shí)(Apriori 算法是典型例子)，可以將中間結(jié)果存到這個(gè)存儲(chǔ)模塊里，下次需要時(shí)，就可以直接讀該存儲(chǔ)模塊里的據(jù)，而不需要對(duì) HDFS 等文件系統(tǒng)讀寫，從而大大的減少了 I/O 的開銷 2.5 本章小結(jié)本章首先對(duì)數(shù)據(jù)挖掘的概念、基本步驟、主要任務(wù)和具體算法進(jìn)行概述，重點(diǎn)介紹了聯(lián)規(guī)則挖掘的作用以及目前的應(yīng)用狀況。緊接著對(duì)分布式計(jì)算框架 Hadoop 和 Spark 進(jìn)行了

【參考文獻(xiàn)】：
期刊論文
[1]大數(shù)據(jù)時(shí)代必知[J]. 廖玍,應(yīng)斌武,關(guān)明,張本.  檢驗(yàn)醫(yī)學(xué)與臨床. 2018(22)
[2]健康類APP界面的數(shù)據(jù)可視化研究[J]. 蘭欣蔚,江明.  大眾文藝. 2018(21)
[3]海量數(shù)據(jù)下基于Hadoop的分布式FP-Growth算法[J]. 朱顥東,薛校博,李紅嬋,孟潁輝.  輕工學(xué)報(bào). 2018(05)
[4]云計(jì)算環(huán)境下的大數(shù)據(jù)特征挖掘技術(shù)研究[J]. 張文,蘇玉.  現(xiàn)代電子技術(shù). 2018(20)
[5]基于云平臺(tái)Hadoop的中醫(yī)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 王倩,石艷敏,史春暉,朱習(xí)軍.  計(jì)算機(jī)應(yīng)用與軟件. 2018(10)
[6]大數(shù)據(jù)時(shí)代圖書館嵌入式知識(shí)發(fā)現(xiàn)情報(bào)分析服務(wù)研究[J]. 姜璐.  農(nóng)業(yè)圖書情報(bào)學(xué)刊. 2018(08)
[7]大數(shù)據(jù)時(shí)代的企業(yè)檔案管理初探[J]. 杜惠芳.  辦公室業(yè)務(wù). 2018(13)
[8]大數(shù)據(jù)下智慧醫(yī)療在社區(qū)糖尿病一級(jí)預(yù)防中的價(jià)值[J]. 李蕊,王雪恒,王基容,王艷萍,徐靖.  中國(guó)臨床保健雜志. 2018(03)
[9]Web平臺(tái)前端開發(fā)設(shè)計(jì)與實(shí)現(xiàn)[J]. 朱瑞出.  中國(guó)管理信息化. 2018(11)
[10]基于離群點(diǎn)檢測(cè)和分類的軟測(cè)量方法[J]. 王春鵬.  山東化工. 2018(09)

碩士論文
[1]離群點(diǎn)挖掘在網(wǎng)購(gòu)中的應(yīng)用研究[D]. 董振濤.西安石油大學(xué) 2018
[2]基于Spark的用戶行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 殷樂.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2018
[3]人壽保險(xiǎn)客戶分類及精準(zhǔn)營(yíng)銷研究[D]. 吳丹.華南理工大學(xué) 2018
[4]健康大數(shù)據(jù)預(yù)處理方法研究與實(shí)現(xiàn)[D]. 陳永紅.電子科技大學(xué) 2018
[5]基于Hadoop的醫(yī)療輔助診斷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 周羿陽.東華大學(xué) 2016
[6]基于Hadoop的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 鄧雄杰.華南理工大學(xué) 2013
[7]基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D]. 余楚禮.天津理工大學(xué) 2011

本文編號(hào)：3125379

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3125379.html

上一篇：高爐爐缸鐵水流動(dòng)數(shù)值模擬與解析
下一篇：濟(jì)南市市中區(qū)衛(wèi)生應(yīng)急指揮與決策系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

關(guān)聯(lián)規(guī)則挖掘算法的并行化及應(yīng)用研究