基于Hadoop的多維關(guān)聯(lián)規(guī)則挖掘算法研究及應(yīng)用
發(fā)布時(shí)間:2021-07-08 19:09
傳統(tǒng)的Apriori算法要多次掃描數(shù)據(jù)集,隨著數(shù)據(jù)量的快速增長,傳統(tǒng)的Apriori算法已經(jīng)不能很好地適用于大數(shù)據(jù)分析,針對該情況設(shè)計(jì)了IPApriori算法。首先通過剪枝策略設(shè)計(jì)了一種適用于多維數(shù)據(jù)的IApriori算法,再將IApriori算法與Hadoop分布式框架相結(jié)合,實(shí)現(xiàn)了多維關(guān)聯(lián)規(guī)則挖掘算法的并行化。將IPApriori算法運(yùn)用到手機(jī)用戶行為預(yù)測關(guān)聯(lián)分析中,分析影響手機(jī)用戶行為的一些主要因素,挖掘出手機(jī)用戶行為與年齡維度、性別維度、時(shí)間維度、地點(diǎn)維度和手機(jī)品牌維度屬性之間可能存在的某種關(guān)聯(lián)。最后通過實(shí)驗(yàn)證明,算法的并行化和建立結(jié)構(gòu)的方法可以降低系統(tǒng)的I/O負(fù)荷,提高算法的執(zhí)行效率。
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2019,41(12)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
IApriori算法并行化流程圖
原始數(shù)據(jù)經(jīng)過預(yù)處理后按照多維數(shù)據(jù)模型的標(biāo)準(zhǔn)分為維度表和事實(shí)表。從年齡、性別、手機(jī)品牌、所在地區(qū)域、使用時(shí)間、APP類別6個(gè)維度表和1個(gè)事實(shí)表來分解原始數(shù)據(jù)。按照本文實(shí)驗(yàn)數(shù)據(jù)的維度,可以構(gòu)造1個(gè)6維空間,手機(jī)用戶行為分析事件中每個(gè)維各取1個(gè)固定的屬性值,就可以得到1個(gè)準(zhǔn)確的空間中的點(diǎn)(方格),這里每個(gè)點(diǎn)或方格都會(huì)存儲與其對應(yīng)的各屬性的值和同時(shí)出現(xiàn)的次數(shù)。多維數(shù)據(jù)模型如圖2所示。4.3實(shí)驗(yàn)結(jié)果分析
首先測試了IApriori算法、基于Hadoop平臺改進(jìn)的并行IApriori算法和基于Hadoop平臺的DG-Apriori算法在最小支持度為10,事務(wù)數(shù)量區(qū)間在20 000條~160 000條的不同事務(wù)量下,算法的執(zhí)行效率,實(shí)驗(yàn)結(jié)果如圖3所示。從圖3可以看出,無論事務(wù)數(shù)量怎樣變化,在3種算法中IPApriori算法的運(yùn)行時(shí)間都是最短,其時(shí)間效率性能是最好的。這說明本文對Apriori算法的改進(jìn)是有效性的。
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)時(shí)代下關(guān)聯(lián)規(guī)則興趣度挖掘在就業(yè)分析中的應(yīng)用[J]. 李佐軍. 軟件工程. 2018(11)
[2]基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進(jìn)算法[J]. 厙向陽,張玲. 計(jì)算機(jī)應(yīng)用研究. 2018(01)
[3]公共服務(wù)標(biāo)準(zhǔn)化的大數(shù)據(jù)視角[J]. 陰江烽. 中國質(zhì)量萬里行. 2016(08)
[4]關(guān)聯(lián)規(guī)則挖掘綜述[J]. 崔妍,包志強(qiáng). 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[5]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計(jì)算機(jī)工程與科學(xué). 2013(10)
[6]高置信度關(guān)聯(lián)規(guī)則的挖掘[J]. 周賢善,杜友福,邵世煌,余光柱. 計(jì)算機(jī)工程與應(yīng)用. 2010(24)
本文編號:3272161
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2019,41(12)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
IApriori算法并行化流程圖
原始數(shù)據(jù)經(jīng)過預(yù)處理后按照多維數(shù)據(jù)模型的標(biāo)準(zhǔn)分為維度表和事實(shí)表。從年齡、性別、手機(jī)品牌、所在地區(qū)域、使用時(shí)間、APP類別6個(gè)維度表和1個(gè)事實(shí)表來分解原始數(shù)據(jù)。按照本文實(shí)驗(yàn)數(shù)據(jù)的維度,可以構(gòu)造1個(gè)6維空間,手機(jī)用戶行為分析事件中每個(gè)維各取1個(gè)固定的屬性值,就可以得到1個(gè)準(zhǔn)確的空間中的點(diǎn)(方格),這里每個(gè)點(diǎn)或方格都會(huì)存儲與其對應(yīng)的各屬性的值和同時(shí)出現(xiàn)的次數(shù)。多維數(shù)據(jù)模型如圖2所示。4.3實(shí)驗(yàn)結(jié)果分析
首先測試了IApriori算法、基于Hadoop平臺改進(jìn)的并行IApriori算法和基于Hadoop平臺的DG-Apriori算法在最小支持度為10,事務(wù)數(shù)量區(qū)間在20 000條~160 000條的不同事務(wù)量下,算法的執(zhí)行效率,實(shí)驗(yàn)結(jié)果如圖3所示。從圖3可以看出,無論事務(wù)數(shù)量怎樣變化,在3種算法中IPApriori算法的運(yùn)行時(shí)間都是最短,其時(shí)間效率性能是最好的。這說明本文對Apriori算法的改進(jìn)是有效性的。
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)時(shí)代下關(guān)聯(lián)規(guī)則興趣度挖掘在就業(yè)分析中的應(yīng)用[J]. 李佐軍. 軟件工程. 2018(11)
[2]基于Hadoop的FP-Growth關(guān)聯(lián)規(guī)則并行改進(jìn)算法[J]. 厙向陽,張玲. 計(jì)算機(jī)應(yīng)用研究. 2018(01)
[3]公共服務(wù)標(biāo)準(zhǔn)化的大數(shù)據(jù)視角[J]. 陰江烽. 中國質(zhì)量萬里行. 2016(08)
[4]關(guān)聯(lián)規(guī)則挖掘綜述[J]. 崔妍,包志強(qiáng). 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[5]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計(jì)算機(jī)工程與科學(xué). 2013(10)
[6]高置信度關(guān)聯(lián)規(guī)則的挖掘[J]. 周賢善,杜友福,邵世煌,余光柱. 計(jì)算機(jī)工程與應(yīng)用. 2010(24)
本文編號:3272161
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3272161.html
最近更新
教材專著