基于Hadoop平台的并行DHP数据分析方法

2017-01-13 20:09杨燕霞冯林
计算机应用 2016年12期
关键词:Apriori算法

杨燕霞+冯林

摘 要:由候选项集C2生成频繁2-项集L2是关联规则Apriori算法的一个瓶颈。直接哈希修剪(DHP)算法利用一个生成的Hash表H2删减C2中无用的候选项集,以此提高L2的生成效率。但传统DHP算法是一个串行算法,不能有效处理较大规模数据。针对这一问题,提出DHP的并行化算法——H_DHP。首先,对DHP算法并行化策略的可行性进行了理论分析与证明;其次,基于Hadoop平台,把Hash表H2的生成以及频繁项集L1、L3~Lk的生成方法进行了并行实现,并借助Hbase数据库生成关联规则。仿真实验结果表明:与传统DHP算法相比,H_DHP算法在数据的处理时间效率、处理数据集的规模大小,以及加速比和可扩展性等方面都有较好的性能。

关键词:Hadoop;Hash表;Apriori算法;直接哈希修剪算法

中图分类号: TP391.9

文献标志码:A

文章编号:1001-9081(2016)12-3280-05

猜你喜欢
Apriori算法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
关联规则挖掘Apriori算法的一种改进
基于RFID的汽车零件销售策略支持模型
关联规则在高校评教系统中的应用