基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
發(fā)布時間:2017-12-19 04:35
本文關(guān)鍵詞:基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
更多相關(guān)文章: Hadoop Hash表 Apriori算法 直接哈希修剪算法
【摘要】:由候選項集C_2生成頻繁2-項集L_2是關(guān)聯(lián)規(guī)則Apriori算法的一個瓶頸。直接哈希修剪(DHP)算法利用一個生成的Hash表H_2刪減C_2中無用的候選項集,以此提高L_2的生成效率。但傳統(tǒng)DHP算法是一個串行算法,不能有效處理較大規(guī)模數(shù)據(jù)。針對這一問題,提出DHP的并行化算法——H_DHP。首先,對DHP算法并行化策略的可行性進行了理論分析與證明;其次,基于Hadoop平臺,把Hash表H_2的生成以及頻繁項集L_1、L_3~L_k的生成方法進行了并行實現(xiàn),并借助Hbase數(shù)據(jù)庫生成關(guān)聯(lián)規(guī)則。仿真實驗結(jié)果表明:與傳統(tǒng)DHP算法相比,H_DHP算法在數(shù)據(jù)的處理時間效率、處理數(shù)據(jù)集的規(guī)模大小,以及加速比和可擴展性等方面都有較好的性能。
【作者單位】: 四川師范大學計算機科學學院;四川師大科技園發(fā)展有限公司;
【基金】:國家科技支撐計劃項目(2014BAH11F01,2014BAH11F02) 四川省科技支撐計劃項目(15GZ0079)~~
【分類號】:TP311.13
【正文快照】: 0引言自從著名的關(guān)聯(lián)規(guī)則Apriori算法[1]被提出以來,該算法日益被人們接受并不斷完善[2-3],它已在個性化推薦系統(tǒng)[4]、商業(yè)領(lǐng)域[5]、網(wǎng)絡安全[6]、社會管理[7]等領(lǐng)域取得了成功應用。但是,傳統(tǒng)Apriori算法在生成關(guān)聯(lián)規(guī)則算法時,面臨的瓶頸之一是遍歷數(shù)據(jù)庫由候選2-項集C2生成
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王云嵐,李增智,屈科文;基于候選項集個數(shù)上階的增量式關(guān)聯(lián)規(guī)則更新算法[J];電子學報;2004年05期
2 劉曉玲;李玉忱;;一種不產(chǎn)生候選項集的關(guān)聯(lián)規(guī)則挖掘算法[J];山東師范大學學報(自然科學版);2006年01期
3 陸楠,王U,
本文編號:1306933
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1306933.html
最近更新
教材專著