關(guān)聯(lián)規(guī)則挖掘算法的并行化及應(yīng)用研究
發(fā)布時間:2021-04-08 10:26
近年來,隨著經(jīng)濟和技術(shù)的迅猛發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)級別的爆炸式增長。面對海量的數(shù)據(jù),從中獲取有價值的關(guān)鍵信息成為了難題。數(shù)據(jù)挖掘技術(shù)為解決這一問題提供了有效途徑,而如何進一步提高數(shù)據(jù)挖掘算法自身及其在各領(lǐng)域的應(yīng)用效率已成為相關(guān)領(lǐng)域的熱門課題。關(guān)聯(lián)規(guī)則挖掘是一項重要的數(shù)據(jù)挖掘任務(wù),關(guān)聯(lián)規(guī)則挖掘算法能從數(shù)據(jù)中挖掘出潛在的關(guān)聯(lián)關(guān)系。Apriori算法是最具有代表性的用于挖掘關(guān)聯(lián)規(guī)則的算法,但是在產(chǎn)生候選項集和計算項集支持度的過程中I/O負載很大,時效性需要進一步改進。Spark平臺是一個分布式的基于內(nèi)存的適合迭代計算的大數(shù)據(jù)框架?本文以提高強關(guān)聯(lián)規(guī)則挖掘的準確性為目標,通過引入興趣度對Apriori算法做了改進,改進算法命名為I-Apriori(Improved Apriori);以提高強關(guān)聯(lián)規(guī)則挖掘的時效性為目標,設(shè)計了I-Apriori算法基于Spark的并行化方案?該方案利用Spark平臺的分布式架構(gòu)以及集群調(diào)度機制,將事務(wù)數(shù)據(jù)集分發(fā)給多個子節(jié)點,各子節(jié)點調(diào)用transformation操作求得局部候選項集及支持度,并存儲于內(nèi)存中;匯總節(jié)點基于各局部候選項集產(chǎn)生全局候選項集和全局頻繁項集...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
南京郵電大學專業(yè)學位碩士研究生學位論文 第二章 相關(guān)技術(shù)概述與分析整合了原本需要不同分布式平臺處理的計算,提供了更多能夠滿足不同應(yīng)用場景的高級組件。圖 2.2 為 Spark 在伯克利的數(shù)據(jù)分析軟件棧 BDAS 的位置?梢钥闯,Spark 在架構(gòu)上包括內(nèi)核和 4 個子模塊 Spark SQL、Spark Streaming、Mlib 和GraphX,專注于數(shù)據(jù)的計算,數(shù)據(jù)存儲往往還是由 Hadoop 分布式系統(tǒng) HDFS 承擔。
圖 2.3 Spark 的運行架構(gòu)當一個任務(wù)被用戶提交時,Driver 節(jié)點會創(chuàng)建一個 SparkContext,它會向資源管理器申資源;資源分配完畢后,Spark 會啟動 Worker 上負責執(zhí)行具體任務(wù)的進程 Executor,并會任務(wù)分發(fā)給 Executor;計算完成后,Worker 會將結(jié)果發(fā)回 Driver,然后釋放相關(guān)資源 Spa的 Executor 利用多線程來執(zhí)行具體任務(wù),減少任務(wù)的啟動開銷;其中有一個 BlockManag存儲模塊,會將內(nèi)存和磁盤共同作為存儲設(shè)備,當進行多輪迭代計算時(Apriori 算法是典型例子),可以將中間結(jié)果存到這個存儲模塊里,下次需要時,就可以直接讀該存儲模塊里的據(jù),而不需要對 HDFS 等文件系統(tǒng)讀寫,從而大大的減少了 I/O 的開銷 2.5 本章小結(jié)本章首先對數(shù)據(jù)挖掘的概念、基本步驟、主要任務(wù)和具體算法進行概述,重點介紹了聯(lián)規(guī)則挖掘的作用以及目前的應(yīng)用狀況。緊接著對分布式計算框架 Hadoop 和 Spark 進行了
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代必知[J]. 廖玍,應(yīng)斌武,關(guān)明,張本. 檢驗醫(yī)學與臨床. 2018(22)
[2]健康類APP界面的數(shù)據(jù)可視化研究[J]. 蘭欣蔚,江明. 大眾文藝. 2018(21)
[3]海量數(shù)據(jù)下基于Hadoop的分布式FP-Growth算法[J]. 朱顥東,薛校博,李紅嬋,孟潁輝. 輕工學報. 2018(05)
[4]云計算環(huán)境下的大數(shù)據(jù)特征挖掘技術(shù)研究[J]. 張文,蘇玉. 現(xiàn)代電子技術(shù). 2018(20)
[5]基于云平臺Hadoop的中醫(yī)數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)[J]. 王倩,石艷敏,史春暉,朱習軍. 計算機應(yīng)用與軟件. 2018(10)
[6]大數(shù)據(jù)時代圖書館嵌入式知識發(fā)現(xiàn)情報分析服務(wù)研究[J]. 姜璐. 農(nóng)業(yè)圖書情報學刊. 2018(08)
[7]大數(shù)據(jù)時代的企業(yè)檔案管理初探[J]. 杜惠芳. 辦公室業(yè)務(wù). 2018(13)
[8]大數(shù)據(jù)下智慧醫(yī)療在社區(qū)糖尿病一級預(yù)防中的價值[J]. 李蕊,王雪恒,王基容,王艷萍,徐靖. 中國臨床保健雜志. 2018(03)
[9]Web平臺前端開發(fā)設(shè)計與實現(xiàn)[J]. 朱瑞出. 中國管理信息化. 2018(11)
[10]基于離群點檢測和分類的軟測量方法[J]. 王春鵬. 山東化工. 2018(09)
碩士論文
[1]離群點挖掘在網(wǎng)購中的應(yīng)用研究[D]. 董振濤.西安石油大學 2018
[2]基于Spark的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 殷樂.戰(zhàn)略支援部隊信息工程大學 2018
[3]人壽保險客戶分類及精準營銷研究[D]. 吳丹.華南理工大學 2018
[4]健康大數(shù)據(jù)預(yù)處理方法研究與實現(xiàn)[D]. 陳永紅.電子科技大學 2018
[5]基于Hadoop的醫(yī)療輔助診斷系統(tǒng)的設(shè)計與實現(xiàn)[D]. 周羿陽.東華大學 2016
[6]基于Hadoop的推薦系統(tǒng)的設(shè)計與實現(xiàn)[D]. 鄧雄杰.華南理工大學 2013
[7]基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D]. 余楚禮.天津理工大學 2011
本文編號:3125379
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
南京郵電大學專業(yè)學位碩士研究生學位論文 第二章 相關(guān)技術(shù)概述與分析整合了原本需要不同分布式平臺處理的計算,提供了更多能夠滿足不同應(yīng)用場景的高級組件。圖 2.2 為 Spark 在伯克利的數(shù)據(jù)分析軟件棧 BDAS 的位置?梢钥闯,Spark 在架構(gòu)上包括內(nèi)核和 4 個子模塊 Spark SQL、Spark Streaming、Mlib 和GraphX,專注于數(shù)據(jù)的計算,數(shù)據(jù)存儲往往還是由 Hadoop 分布式系統(tǒng) HDFS 承擔。
圖 2.3 Spark 的運行架構(gòu)當一個任務(wù)被用戶提交時,Driver 節(jié)點會創(chuàng)建一個 SparkContext,它會向資源管理器申資源;資源分配完畢后,Spark 會啟動 Worker 上負責執(zhí)行具體任務(wù)的進程 Executor,并會任務(wù)分發(fā)給 Executor;計算完成后,Worker 會將結(jié)果發(fā)回 Driver,然后釋放相關(guān)資源 Spa的 Executor 利用多線程來執(zhí)行具體任務(wù),減少任務(wù)的啟動開銷;其中有一個 BlockManag存儲模塊,會將內(nèi)存和磁盤共同作為存儲設(shè)備,當進行多輪迭代計算時(Apriori 算法是典型例子),可以將中間結(jié)果存到這個存儲模塊里,下次需要時,就可以直接讀該存儲模塊里的據(jù),而不需要對 HDFS 等文件系統(tǒng)讀寫,從而大大的減少了 I/O 的開銷 2.5 本章小結(jié)本章首先對數(shù)據(jù)挖掘的概念、基本步驟、主要任務(wù)和具體算法進行概述,重點介紹了聯(lián)規(guī)則挖掘的作用以及目前的應(yīng)用狀況。緊接著對分布式計算框架 Hadoop 和 Spark 進行了
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代必知[J]. 廖玍,應(yīng)斌武,關(guān)明,張本. 檢驗醫(yī)學與臨床. 2018(22)
[2]健康類APP界面的數(shù)據(jù)可視化研究[J]. 蘭欣蔚,江明. 大眾文藝. 2018(21)
[3]海量數(shù)據(jù)下基于Hadoop的分布式FP-Growth算法[J]. 朱顥東,薛校博,李紅嬋,孟潁輝. 輕工學報. 2018(05)
[4]云計算環(huán)境下的大數(shù)據(jù)特征挖掘技術(shù)研究[J]. 張文,蘇玉. 現(xiàn)代電子技術(shù). 2018(20)
[5]基于云平臺Hadoop的中醫(yī)數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)[J]. 王倩,石艷敏,史春暉,朱習軍. 計算機應(yīng)用與軟件. 2018(10)
[6]大數(shù)據(jù)時代圖書館嵌入式知識發(fā)現(xiàn)情報分析服務(wù)研究[J]. 姜璐. 農(nóng)業(yè)圖書情報學刊. 2018(08)
[7]大數(shù)據(jù)時代的企業(yè)檔案管理初探[J]. 杜惠芳. 辦公室業(yè)務(wù). 2018(13)
[8]大數(shù)據(jù)下智慧醫(yī)療在社區(qū)糖尿病一級預(yù)防中的價值[J]. 李蕊,王雪恒,王基容,王艷萍,徐靖. 中國臨床保健雜志. 2018(03)
[9]Web平臺前端開發(fā)設(shè)計與實現(xiàn)[J]. 朱瑞出. 中國管理信息化. 2018(11)
[10]基于離群點檢測和分類的軟測量方法[J]. 王春鵬. 山東化工. 2018(09)
碩士論文
[1]離群點挖掘在網(wǎng)購中的應(yīng)用研究[D]. 董振濤.西安石油大學 2018
[2]基于Spark的用戶行為分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 殷樂.戰(zhàn)略支援部隊信息工程大學 2018
[3]人壽保險客戶分類及精準營銷研究[D]. 吳丹.華南理工大學 2018
[4]健康大數(shù)據(jù)預(yù)處理方法研究與實現(xiàn)[D]. 陳永紅.電子科技大學 2018
[5]基于Hadoop的醫(yī)療輔助診斷系統(tǒng)的設(shè)計與實現(xiàn)[D]. 周羿陽.東華大學 2016
[6]基于Hadoop的推薦系統(tǒng)的設(shè)計與實現(xiàn)[D]. 鄧雄杰.華南理工大學 2013
[7]基于Hadoop的并行關(guān)聯(lián)規(guī)則算法研究[D]. 余楚禮.天津理工大學 2011
本文編號:3125379
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3125379.html
最近更新
教材專著