基于Hadoop的电商数据挖掘技术分析

2024-05-07 02:48黄彬彬

中国新技术新产品 2024年6期

李梅刘铭黄彬彬

（1.四川华新现代职业学院，四川成都 610107；2.成都市铁路中学校，四川成都 610081）

随着科学技术的进步，数据呈爆发性增长，形成了巨大的数据流，导致数据处理的规模逐渐扩大，为企业数据处理带来了一定的难度。尤其是电商企业在实际发展建设的过程中会更依赖数据资源，企业在业务活动的过程中会产生大量的数据，为进一步了解消费者的购买行为，需要进一步挖掘相关数据内容，以此推动电商企业的发展。因此，在Hadoop框架的支持下，有效应用数据挖掘技术已成为重点研究内容。

1 Hadoop框架介绍

Hadoop是目前应用较为广泛的一种编程开源框架，其在实际运用的过程中具有分布式的特点，在框架编程过程中主要应用Java语言。Hadoop框架示意如图1所示，在运行的过程中为集群式处理提供了强有力的支持，不仅可以在分布式的环境内处理大量的数据内容，对数据进行储存，还可以为多台计算机提供扩展支持，提供本地计算和储存服务。对Hadoop框架来说，Map Reduce计算模型是其中最重要的组成部分，也是实现云计算的基础内容，在实际应用的过程中，整体流程比较简单，编程模式也更简化。Map Reduce计算模型在计算过程中主要利用分布式运算技术，对某一类问题进行解决和计算，从综合的角度看，可以将其看成一种开发模型，为Hadoop提供服务。

图1 Hadoop系统框架示意图

2 研究过程

2.1 明确数据挖掘技术应用流程

从综合角度看，可以将数据挖掘技术的应用分为以下5个步骤。1）需要陈述问题，阐明假设。在实际进行过程中，需要了解电商企业对数据的需求以及本次挖掘的最终目的，相关工作人员会对数据间的关系提出相应的假设，以此为中心，选择更合适的算法并制定科学有效的数据挖掘方案，需要注意保证方案的详细性以及全面性。2）数据收集。数据收集主要为两种方法。一种是人为干涉，即工作人员按照相应的计划和标准对工作流程进行控制，以此产生数据信息。另一种是避免人员干涉，即工作人员不得对工作造成影响，使其自然产生数据信息。数据的产生具有随机性的特点，例如消费者交易记录、Web爬虫抓取信息等。在实际工作过程中需要将目标操作对象作为核心，在此基础上选择与其具有关联性的数据集[1]。3）数据预处理。在对实际数据进行挖掘前，计算机会对大量的数据信息内容进行简单处理，筛选不可用信息以及异常数据信息，并对其进行相应处理。对电商数据信息来说，需要对涉及消费者个人隐私的内容进行敏感处理，剔除存在错误或者无价值的信息。降低后续数据挖掘的工作量和工作难度。对缺少的内容来说，需要进行相应的补全处理，同时还需要将不同的数据格式转化为同一种格式，为后续数据挖掘提供便利条件。4）数据挖掘。数据挖掘是整体数据挖掘技术的核心内容，在实际工作过程中，需要明确挖掘目标，选择合适的数据挖掘方法，例如聚类算法、关联规则法、分类法、偏差分析法以及时间序列预测法等，这几种方法都是现阶段较为常用的数据挖掘方法，应用这些方法不仅可以满足电商企业的需求，还可以保证数据信息的全面性以及完整性。5）解析模型。完成数据挖掘后需要按照最初挖掘目标对其进行解析。在实际工作过程中，为进一步验证挖掘结果的准确性，需要对相关的角度进行验证工作，将有效价值信息提供给用户。

2.2 应用阶段算法研究

2.2.1 数据聚类分析

聚类分析和关联规则挖掘是研究挖掘算法的重要途径与方法。聚类分析是一种探索性数据分析技术，可以便于发现数据中隐藏的模式和结构，关联规则是根据数据寻找数据间的关联，加强两者间的联系，从而帮助技术人员更好地了解事物发展规律。为构建Hadoop电商数据挖掘技术，选择两种数据挖掘技术进行分析，阐述分析算法的同时，为后续电商系统数据挖掘分析做铺垫[2]。

聚类算法类别多样，根据样本数据类型以及应用场景等因素选择算法。按照类别包括划分、层次、密度等聚类算法。在实际应用过程中，聚类算法通常是多种算法叠加。其中，划分聚类是确定簇个数K，将样本集划分为K个簇，基于样本为中心进行反复迭代计算，根据初始中心变化确定是否产生最佳聚类结果。层次聚类算法是基于给定的聚类数据集合按照层次分解，因此也被称为数据类算法。将其理解为个体为类的开始，自上或自下的寻找同类聚合，见异类排除分类。密度聚类根据密度较高的点，将其链接，生成簇后确定相邻密度阈值。网格聚类是将空间量化，形成网络结构，便于聚类操作。在很多聚类算法中，K-means算法属于划分聚类算法的一种，通过迭代移动簇，寻找最佳聚类结果，该算法具有较好的特性，利用该算法有助于Hadoop电商数据挖掘技术应用。

2.2.2 K-means算法

means算法也称K均值算法，需要确定聚类个数，随机选择簇中的对象K作为初始质心。将其划分到其他簇中，经过迭代计算，更新样本点。K-means算法计算需要随机选择样本集，将其随机划分为K个簇，将样本均值作为质心。中心为每个样本分配簇，计算分配后簇的样本均值。重复上述过程，直到质心不再变化、或准则函数收敛。计算过程如公式（1）所示。

式中：s（a，ni）为对象到聚类质心的距离，根据a建立j个属性值，nij为质心属性值。

在迭代计算过程中，质心需要不断调整。按照规则计算K-means算法数据样本平方误差总和。K-means算法的实际算法流程如图2所示，内部反复循环计算，确定K距离样本点的距离并归类的过程就是数据挖掘技术落实在实际工作的阶段。针对后期电商数据挖掘处理，能够运用传统K-means算法进行计算，并在算法基础上优化执行，提高算法执行效率。

图2 K-means算法聚类算法流程

2.3 确定关联规则

2.3.1 关联规则定义

关联规则挖掘，可以从数据集中发现项与项间的关系，根据样本数据查找其他组事件中是否有能关联数据的规则。频繁项集能够对数据进行分布式处理，提取数据集中的高频率子项。利用频繁集构建事务间的关系，设置项目集合，根据每个元素，给定数据集，在算法运行过程中对频繁集处理，根据单个候选集出现次数对相关相集进行处理，满足用户需求。

2.3.2 关联规则算法步骤

关联算法挖掘过程分为两个步骤如图3所示。通常是寻找频繁集，设置min阈值，根据每个项集对比阈值，若大于或等于频繁项集则无法形成关联生成关联规则，需要根据频繁集寻找可信度大于最小阈值的关联规则。在算法步骤中，寻找频繁项集是关键，关联规则算法有Apriori算法和FP-Growth。鉴于Apriori算法有更好的扩展性，因此优先选择Apriori算法用于关联计算。

图3 关联规则挖掘基本步骤

2.3.3 Apriori算法

Apriori算法是一种基于水平数据分布的算法，具体流程如图4所示。通过反复式归一迭代，从频繁集中寻找，根据K项集导出K+1项集，直到找不到为止。实际应用就是根据购买记录，按照Apriori算法执行，选定参数阈值，当认定某个商品阈值频率高于设定时，将其作为频繁项集。根据数据集中的项目在自动查找过程中生成候选集，满足条件的最小阈值确定为频繁项集。

图4 Apriori算法流程图

3 方法设计

3.1 整体设计

设计人员在进行实际设计的过程中，需要结合当下电商市场环境，将Hadoop与算法结合，构建完整的数据处理系统，具体框架如图5所示。系统主要部分包括以下阶段。第一阶段为准备阶段，由平台和软件采集各类商品信息，Hadoop读取相关业务信息到HDFS中，完成数据存储与预处理。第二阶段是数据处理，根据不同数据对其挖掘分析，实现并行化处理，建立对应的数据分析模型。第三阶段根据数据处理结果转化，将数据转化为相应格式。第四阶段是根据集群处理，返回前端后呈现不同类别的图形展示。Hadoop数据挖掘技术结合了批处理技术挖掘算法，有较强的实用性。经过前期分析测试，验证系统数据处理可行。

图5 系统框架设计图

3.2 数据准备

由于电商类目较多，因此在对数据进行挖掘过程中，可以根据电商产品选择门店销售数据库，根据数据库进行设置，分析数据来源。对周期订单、预约订单等数据挖掘，寻找有价值的潜在信息，帮助企业管理者科学决策。数据需要经过预处理，取读后进行挖掘处理。根据K-means聚类算法分析，对数据进行序列文件转换，对数据进行深入挖掘，取读后的数据转换格式，方便查找。当执行K-means算法时，要重视MahoutAPI调用，采用聚类数据转化的方式对阈值进行调整，避免阈值设置不合理影响K-means算法执行。执行后的数据能看到聚类分析结果的具体内容，输出目录中能清楚看到迭代转换次数。将其转换成json格式返回前端。使用Apriori进行关联分析，设计map函数和reduce函数，分析客户与购买商品间的潜在联系。使用程序代码，选定数据集进行关联，获得候选集数据。将数据挖掘内容以图形绘制的表现出来，能直接发现潜在问题。结合企业与客户的实际需求，读取数据转化分析，将转化后的数据存在在HDFS中，使用Web页面绘制并加载。

4 结果验证讨论

对K-means算法过程、公式进行分析，能够看出K-means算法适用于大数据集的积累处理，经过K-means算法处理后数据更容易理解。该算法有较好的聚类应用效果，但是传统K-means算法存在一定不足，需要更改其单机运行模式，海量数据聚类受到单机限制，质心计算容易出现异常数据影响，针对传统K-means算法的不足，将其与Hadoop集群融合，强化算法执行，加强算法的执行效果。

4.1 Hadoop平台聚类算法执行过程

集群内需要对平台上的很多数据进行处理，将数据集分成多个块，将其存储后，经过分布式处理，保证函数能对每块进行处理。将函数输入作为数据样本点和质心的距离，根据距离添加距离最近的簇，输出更新的簇标号和簇间样本点。在模型中，为提高算法效率，会加入函数提高计算的准确性。map（）作为输入，合并相同key值，输出合并结果。将计算结果输入，更新簇的质心，形成新的质心。旧的质心根据距离收敛阈值，判断聚类是否结束，反之继续中间的循环操作[3]。

4.2 K-means算法并行实现

算法库中的K-means算法能够通过Mappreduce基于架构运行，不仅能保证K-means算法能够像普通程序一样读写运行，还能保证K-means算法在集群上执行，以分布式文件系统上读写数据。将聚类算法分配到不同机器上，保证每个map处理样本点的一个数据块。

为提高执行效率，经过缓存的质心经过一次算法迭代，质心就会更新一次。经过函数反复迭代运行，在K-means算法执行过程中，通过map就能够实现数据划分，执行顺序如图6所示。K-means算法并行化执行是从KMeansDriver类开始，逐步进入程序运行系统。

图6 K-means算法并行化过程

4.3 基于Hadoop的电商数据挖掘技术系统效果分析

电商平台数据挖掘后，主要用来预测消费者行为、探索市场趋势、提高营销效率和制定决策，因此实现可视化十分重要。可视化图形有多种类型，需要创建良好的试验环境才便于更好地输出数据。为更好地验证可视化效果，需要读取较多数据表，硬件环境、软件环境缺一不可。搭建Hadoop集群，从管理者角度和消费者角度，对数据处理分析。同等数据量下，传统算法与并行算法的结果对比见表1，能够看出合并算法执行化速度更快，加快了数据挖掘分析速度。传统的K-means算法和Hadoop平台相结合，能够更快速地反馈结果，以不同视角展示订单关联图以及信息，保证及时对数据进行处理和反馈，对企业来说体验良好。

表1 K-means算法运行时间（单位：s）

数据挖掘技术的应用，不仅是简单的整合数据信息，还需要对数据信息进行处理，探究数据间存在的关系，总结其中的模式以及规律并不断输出结果。从表1中可以看出，并行K-means算法提高了数据挖掘的效率，为后续工作节约了时间，推动整体工作发展，为电商工作提供了强有力的支持。

5 结语

综上所述，目前科学技术的不断进步和发展为电商企业提供了一定的活力和动力。电商企业在实际发展建设的过程中，除了需要产品以及店铺运营外，还需要大量数据信息的支持，在大数据时代下最不缺少的就是数据信息，目前数据信息的种类繁多。技术人员在Hadoop结构的支持下积极应用电商数据挖掘技术，不仅可以保证数据信息的完整性以及全面性，还可以对数据信息进行相应处理，保证数据的有效性，避免出现错误信息或是重复信息等，为电商企业的发展与创新提供支持。