一种面向商圈店铺管理规划的机器学习建模分析技术

2024-12-08 00:00:00潘子豪
中国新技术新产品 2024年3期
关键词:机器学习

摘 要:商圈在居民日常生活中占据重要的地位,而数字化管理已成为实现商圈运营优化的重要环节。目前,商圈店铺分类的研究仍然主要依赖于统计分析方法和人为经验判断,缺少较为准确、系统的模型方法作为决策支撑。针对此现状,本文提出一种基于聚类模型的店铺布局方法和基于关联规则模型的店铺引流方法。另外,本文还对当前比较流行的5种聚类算法在商圈店铺分类问题的使用效果进行对比。试验结果证明,当数据量波动时,与传统的K-Means算法相比,层次聚类算法的轮廓系数稳定在0.55~0.6,明显优于其余聚类算法;层次聚类算法平均运行时间与K-Means算法相比可缩短80%~90%,运行效率和分类效果均为最优,因此最适合用于商圈店铺聚类分析。

关键词:商圈决策;机器学习;聚类模型;关联规则模型

中图分类号:TP 391 " " " " " " 文献标志码:A

商圈在日常生活中占据了重要的地位,它是城市商业活动的核心区域和促进消费升级的重要平台。商圈的繁荣与管理者的运营密切相关,数字化管理已成为实现商圈运营优化的重要环节。因此,合理的商圈规划愈加关键。在金融、医疗以及无人驾驶等领域,人工智能和机器学习已经得到深入应用[1-3]。在商圈店铺规划领域,以上技术尚未得到充分应用,仍然依赖于传统的统计分析方法和经验判断。因此,将人工智能和机器学习技术应用于商圈店铺分析,以提高运营效率和决策准确性,具有重要的研究意义和应用价值。常用的商圈店铺分类方法主要是基于K-means算法和DBSCAN算法的聚类方法。另外,层次聚类算法(Hierarchical Clustering)和基于密度的聚类算法(Density-based Clustering)在商圈店铺分类中也有一定的应用。目前,仍然存在一些挑战,例如,不同的聚类算法在商圈店铺聚类分析中孰优孰劣、不同聚类算法的适用场景、当数据量较大时如何提高模型的运行效率等问题。同时,大部分研究者在进行商圈分析的过程中只使用一种或两种聚类算法,且没有给出系统的操作说明。

1 一种基于机器学习的商圈店铺分析方法

1.1 数据预处理

本文认为影响商圈店铺分类和定位的因素除了包括客单价和一日中交易时段外,还应考虑交易发生日期是否在周末、一段时间内的交易总金额和交易总次数。在数据预处理环节,统计每个店铺在一段时间内的客单价、一日中各交易时段(上午、中午、晚上)交易次数、交易分别发生在周末和周中的次数、交易总金额和交易总次数。

1.2 基于机器学习的聚类建模

在进行第2.1节的操作后,使用多种聚类模型算法进行分析,应决定聚类分析中簇的个数。本文根据当前常用的价格定位分类方法,将商圈中的店铺分为高端奢侈品店、中档品牌店以及平价快消品店。由此确定,聚类分析模型中簇的个数为3。

1.2.1 K-Means聚类

K-Means算法是一种常用的无监督机器学习算法,用于将1组数据点分成不同的类别或簇。它基于数据点之间的相似性进行聚类,用欧式距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小[4]。算法的核心思想是将数据点分配到K个簇中,使每个数据点与所属簇内的其他数据点更相似,与其他簇的数据点更不相似。通过迭代的方式,K-means聚类算法会不断更新簇的中心点,并重新分配数据点,直到达到收敛条件。最终,每个数据点都会被分配到一个簇中,形成了聚类结果。K-means聚类在数据挖掘、图像分析以及文本聚类等领域有广泛应用。一般K-Means算法的核心步骤如下。

算法一:K-Means聚类算法

输入:数据集D={x1,x2,…,xN},聚类数目K。

输出:每个数据点的聚类分配。1)随机初始化K个聚类中心 cl,c2,…,cK。2)重复 直到收敛。3)将每个数据点xi分配给最近的聚类中心 ci。4)更新每个聚类中心ci为分配给它的所有数据点的平均值。5)结束重复循环。

1.2.2 层次聚类

层次聚类(Hierarchical Clustering)是一种将数据点逐步划分或合并的聚类方法[5],将一组数据点按照层次结构进行分组。它通过计算数据点之间的相似性或距离来确定它们的层次关系,从而形成树状结构的聚类结果。在层次聚类中,每个数据点最初被视为一个单独的簇,然后根据其相似性逐步合并为更大的簇,直到所有数据点都被合并为一个簇或满足某个停止准则为止。层次聚类算法的核心步骤如下。

算法二:层次聚类算法

输入:输入数据集 D={x1,x2,…,xN},链接准则L。

输出:聚类的树状图。1)将每个数据点初始化为单独的聚类。2)当聚类的数目大于1时执行以下步骤。3)根据链接准则L 找到2个最近的聚类。4)将这2个聚类合并成一个新的聚类。5)结束循环。6)返回 聚类的树状图。

1.2.3 DBSCAN聚类

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法[6],它能够发现任意形状和大小的聚类,并且可以识别噪声数据点。DBSCAN将数据点分为核心点、边界点和噪声点,并通过密度可达性来构建聚类。

DBSCAN聚类算法的核心步骤如下。

算法三:DBSCAN聚类算法

输入:输入数据集D={x1,x2,…,xN},邻域半径e,聚类中的最小点数MinPts。

输出:每个数据点的聚类分配。1)将所有数据点初始化为未访问状态。2)对于数据集中的每个未访问数据点xi。①将xi标记为已访问。②检索xi邻域内的所有数据点使用半径ε。③如果检索到的点的数量大于或等于MinPtsi)创建一个新的聚类 C。④通过递归地添加满足密度条件的邻居点来扩展聚类w。⑤如果检索到的点的数量小于MinPts,则将xi标记为噪声。3)重复步骤2,直到所有未访问的数据点都被访问并分配到1个聚类中,或者标记为噪声。

1.2.4 谱聚类

谱聚类(Spectral Clustering)是一种基于图论和线性代数的聚类算法,它通过对数据的相似度矩阵进行特征分解,将数据转化为低维特征空间,然后使用传统的聚类算法(如K-means)对低维特征空间进行聚类[7]。

谱聚类算法的核心步骤如下。

算法四:谱聚类算法

输入:D={x1,x2,…,xN}, 聚类数k。

输出:每个数据点的聚类标签。1)基于D构建相似度矩阵W。2)计算归一化图拉普拉斯矩阵L。3)计算L的前k个特征向量U。4)使用K-Means算法将U的行聚类成k个簇。5)将聚类标签分配给数据点。

1.2.5 高斯混合模型聚类

高斯混合模型(Gaussian Mixture Model,GMM)是一种常用的聚类算法,它假设数据是由多个高斯分布组合。GMM的目标是通过最大化似然函数来估计数据点的类别和参数。

高斯混合模型聚类算法的核心步骤如下。

Algorithm 5高斯混合模型聚类算法

输入:D={x1,x2,…,xN},聚类数k

输出:每个数据点的聚类标签。1)初始化k个高斯分布的参数。2)当未收敛。3)期望步骤:计算每个高斯分布对于每个数据点的责任度。4)最大化步骤:基于责任度更新每个高斯分布的参数。5)结束循环。6)根据具有最高责任度的高斯分布为数据点分配聚类标签。

1.2.6 不同聚类模型效果评估

以上5种聚类模型在不同情况下各有优劣,需要对不同聚类模型的聚类效果进行评估,以此来选定最优的模型进行商圈店铺聚类分析。

轮廓系数(Silhouette Coefficient)是一种用于评估聚类质量的指标,它结合了聚类内部的紧密度和聚类之间的分离度。通常情况下,轮廓系数较高说明聚类质量较好。

以散点图的形式对聚类结果进行可视化分析,可以直观地看到不同聚类簇的分布情况和边界。如果聚类效果好,那么不同簇的数据点相对紧密,且边界明显;如果聚类效果差,那么簇内散乱、簇间重叠。根据散点图进行聚类效果评价,存在较大的主观性,本文以轮廓系数作为主要的评价指标,对于轮廓系数相同或相近的模型,再根据散点图上不同聚类的数据点相互分离程度和聚类内部数据点的紧密程度对聚类效果予以评估。

1.3 基于机器学习的关联规则模型

关联规则模型是机器学习中的一种模型,通过分析大量数据集,找出其中的频繁项集和关联规则,以帮助人们理解数据之间的关系和模式。关联规则模型的核心概念包括支持度、置信度和提升度。支持度表示一个规则在数据集中出现的频率,置信度表示在前提条件下结论出现的概率,而提升度表示结论发生的概率。在关联规则模型中的Apriori算法是一种基于频繁项集的生成方法,通过迭代生成频繁项集,并使用支持度和置信度筛选关联规则。

2 试验验证

为验证第二节中的方法,选取某商圈的交易数据进行分析。

2.1 原始数据聚类分析

按照第三节中的方法进行数据预处理。得出该商圈60家店铺的各时段(周中、周末、上午、下午、晚上)交易次数、客单价、交易总次数和交易总金额。进行数据标准化后,选取KMeans聚类、层次聚类、DBSCAN聚类、谱聚类和高斯混合模型聚类5种算法进行聚类分析,分别进行聚类效果可视化和计算轮廓系数。试验结果如图1和图2所示。

由图1和表1显示的试验结果可知,K-Means聚类和谱聚类的轮廓系数最高,达到0.42;层次聚类和高斯混合模型聚类稍次,轮廓系数分别为0.35和0.34;DBSCAN聚类的聚类效果最差,不仅轮廓系数最低,只有0.14,而且散点图中的不同聚类数据点互相嵌合。由图1散点图分类情况,在轮廓系数最高的K-Means聚类和谱聚类模型中,K-Means不同聚类数据点的嵌合较谱聚类稍多,谱聚类模型的散点图上不同聚类的数据点相互分离程度和聚类内部数据点的紧密程度比K-Means聚类好;在轮廓系数相近的层次聚类和高斯混合模型聚类中,层次聚类的散点图上数据点的区分效果明显优于高斯混合模型聚类。

综上所述,从该试验数据研究结果可知,谱聚类模型的聚类效果是最好的。

2.2 不同聚类算法模型试验效果对比

试验研究了不同数据量、不同聚类算法的聚类效果和运行效率。由于DBSCAN聚类算法在3.1节中的效果较差,因此将其略去,不进行研究。不同数据量的4种聚类算法计算得出的轮廓系数如图2所示。

试验计算每次单个聚类算法的运行时间,由于时间结果因计算机的硬件和负载而异,因此在试验数据集上运行了50次,并取平均时间。每种聚类算法在每个数据集上运行的平均时间如图3所示。

当数据量变化时,轮廓系数波动较小,且维持在较高的水平、运行时间曲线平稳且相对较短的模型在现实商圈分析场景中更优秀。综合图2和图3的结果,当数据量变化时谱聚类聚类效果很差,而且当数据量较大时运行耗费时间较长,不推荐在聚类分析中使用。层次聚类和K-Means聚类在不同数据量的聚类效果较稳定,轮廓系数均稳定在0.55~0.60。由表2可知,层次聚类运行耗时更短,综合分析,层次聚类是最佳聚类算法模型。

2.3 基于关联规则模型的商圈店铺规划

对试验数据进行数据处理,规定每天交易次数较多的店铺为频繁项集。然后使用第三节关联规则模型中Apriori算法对试验数据进行分析,设置支持度阈值为0.2,置信度阈值为0.6,得到100组规则项集。选取支持度与提升度前三的规则项集见表3。

由表3可以发现,部分项的支持度与置信度较高,代表相应店铺的客流量较大,为“网红”店铺,如试验数据中序号为6、7、11、44、51和56等的店铺;另外,这类店铺对应的项集提升度也较高,说明其能够提升商圈整体客流量。综上所述,通过关联规则模型对商圈交易数据的分析能够找到部分客流量较大的“网红店铺”,商圈决策者可以采用这类店铺租金优惠、优先选址等策略为商圈引流,另外,可以将支持度较高项集对应的店铺集中规划选址,或者采用品牌联动、商品捆绑销售等策略以进一步提高这类店铺营收和流量。

3 结语

本文基于机器学习中聚类模型与关联规则模型提出一种实用的商圈智能决策方法,以实现更精细化和智能化的商圈运营管理效果。主要贡献如下:1)本文将5种主流的聚类算法在实际商圈交易数据上进行聚类分析并比较其试验效果,进而给出这些聚类算法在商圈店铺聚类分析上的优劣和各自适用场景。试验结果表明,层次聚类算法在中等规模样本上最好。2)本文提出利用关联规则模型寻找“网红”店铺的方法,并且按照支持度、置信度与提升度的现实意义为商圈决策提供参考。

参考文献

[1]王磊,刘晓慧,吴磊.基于人工智能的金融风险管理研究综述[J].金融研究,2019(9): 1-18.

[2]刘文.基于人工智能的医疗影像诊断研究综述[J].中国医疗设备,2019(1):68-70.

[3]张伟,王磊.基于人工智能的无人驾驶技术研究综述[J].交通信息与安全,2019(2):57-61.

[4]刘建华,刘鹏,王成军.基于K-means算法的数据挖掘方法研究[J].计算机科学,2009, 36(7):248-250.

[5]张晓东,张明.层次聚类算法综述[J].计算机工程与应用,2009,45(23):1-4.

[6]赵建华,李瑞华,郑建伟.基于DBSCAN算法的聚类分析研究[J].计算机应用与软件, 2017, 34(11):127-130.

[7]潘勇,邓小铁,陈宇.谱聚类算法综述[J].计算机科学,2011,38(8):34-38.

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于机器学习的图像特征提取技术在图像版权保护中的应用
基于网络搜索数据的平遥旅游客流量预测分析
时代金融(2016年27期)2016-11-25 17:51:36
前缀字母为特征在维吾尔语文本情感分类中的研究
科教导刊(2016年26期)2016-11-15 20:19:33
下一代广播电视网中“人工智能”的应用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用