戴 华
(无锡南洋职业技术学院 汽车工程与管理学院,江苏 无锡 214001)
随着国民经济持续快速发展,综合经济实力不断提升,人们为了方便出行,购买汽车的欲望也就越来越强烈。中国的汽车保有量增长速度非常快,已经成为全球最大的汽车市场。据相关调查显示,我国汽车销售量呈持续高速增长趋势[1]。在此背景下,汽车销售行业呈现欣欣向荣的场面,因此产生了海量的汽车销售数据。汽车销售数据对于制定销售策略、分析客户消费行为以及预测销售量等方面都起到了积极作用[2]。
关于分析汽车销售数据的研究有很多,如申南南[3]基于Apriori算法对潜在客户的消费行为特征进行了挖掘,为精准分类和定位客户提供了参考,但是该方法对汽车销量预测结果准确性较低。章旭[4]主要是以统计学理论为基础,根据数据时间序列建立用于汽车销量预测的BOAR模型,以期为后续的汽车制造企业提供有效的数据支撑,最终提升其经济效益,虽然该方法的汽车销量预测与数据分析精准度较高,但是数据可视化耗时较长。
上述方法在设计过程中没有考虑周权重指数,导致汽车预测的销售数据准确性降低以及数据可视化耗时增加。为解决上述方法存在的问题,本文提出了一种基于周权重指数的汽车销售数据分析及可视化方法,希望通过本研究以提高汽车销售数据的利用率,为汽车销售工作提供参考。
汽车作为现代人重要的代步工具,几乎成为每个家庭必须购入的消费品之一,因此汽车销售量一直呈现正增长的状态。据统计,2020年汽车制造业营业收入达到8.156 万亿元,占总体工业企业营业收入的7.68%,在近40个工业行业中位列第二。在这种大趋势下,汽车销售数据也随之大幅度增长。汽车销售数据对销售行业的发展起到了重要作用,可以通过数据制定精准的营销策略,也可以有效地进行客户行为分析,还可以进行销售量预测,为汽车生产制造规划提供可靠的依据。为此,本文进行汽车销售数据分析,从预测维度进行数据挖掘,以便为销售行业的发展提供参考。
根据本文研究的主题,第一步是收集相关汽车销售数据。所有的分析都是在收集的原始数据上进行操作,本文对于汽车销售数据的收集主要通过一种集成技术来完成。数据集成技术框架结构如图1所示。数据集成技术框架整体呈现为一个星型结构,在该结构中最为重要的部分是数据交换中心以及数据交换节点。各个数据交换节点从各个业务系统当中抽取汽车销售数据,并利用Web Services将数据发送至数据交换中心,在此过程中会利用XML转换数据格式[5]。所以一般情况下,数据交换中心等价于数据库,主要功能是统一收集来自各个数据交换节点抽取得到的汽车销售数据。
图1 数据集成技术框架结构
在利用集成技术收集汽车销售数据的基础上,需要对收集到的数据进行清洗、变换和约简处理[6]。下面对这三个预处理过程进行具体分析。
1.2.1 数据清洗
利用集成技术所得到的数据一般会存在数据不完整、属性错误、数据重复等多种问题[7]。这些问题的存在使得数据质量急剧下降,因此在正式利用数据之前对原始数据进行清洗是势在必行的。
数据清洗过程是一项十分复杂且冗长的工作,包括数据一致性检查、无效以及缺失数据处理等过程。数据清洗方法如表1所示。
表1 数据清洗方法
1.2.2 数据变换
数据来源不同,数据格式和量纲也存在一定差异,所以要对数据进行变换处理,以满足数据统一处理的需求[8]。数据变换实质就是数据标准化,其方法主要有三种,具体如下:
(1)min-max标准化
(1)
其中:x表示原始数据;xmax、xmin分别表示数据集中的最大值与最小值。
(2)正规化方法
(2)
其中:α为对应特征均值;β为标准差。
(3)log函数转换法
(3)
1.2.3 数据约简
采集的海量汽车销售数据中有的数据对于后续挖掘分析并没有什么价值,属于冗余数据。若是不去除,后期挖掘时,运算量就会增加,降低了数据挖掘的准确性和效率[9]。为此,利用主成分分析+核函数的混合方法进行数据约简分析。数据约简具体过程如下:
步骤1:对汽车销售数据进行标准化处理,组成标准化矩阵。
(4)
其中:Y为原始汽车销售数据样本;Q是Y的样本方差矩阵平方根的逆运算。
步骤2:计算Y的协方差,并组成协方差矩阵。
步骤3:计算汽车销售数据样本前m个主元,计算公式如下:
(5)
步骤4:对YPCA进行白化处理。
(6)
其中:K是白化变换矩阵。
步骤6:根据解混矩阵重构汽车销售数据集,即完成汽车销售数据数据约简[10]。
周权重指数常用在商品销售数据分析当中,是以某一段销售周期内的历史销售数据为基础,对销售额相关权重进行计算的一种方式[11],周权重指数一般介于7.0~14.0之间。周权重指数计算公式如下:
(7)
其中:K代表周权重指数;xi代表第星期i的日权重指数[12]。
周权重指数具体计算过程:
步骤1:收集一个汽车企业或者汽车销售门店最近一个完整年度中的日销售额数据,其中完整年度指连续的12个月内的汽车销售数据。
步骤2:为使所有数据可以反映日常实际情况,需要对异常数据进行剔除处理,还需要关注促销活动日或自然灾害期间等人为或不可抗力因素对销售额产生的影响,同时个别店铺个别日期的异常销售额也要剔除[13]。
步骤3:将清洗后的销售数据以周为单位进行整理,计算出平均日销售额。
步骤4:将一周中日销售额最低的一天日权重指数设为1.0,并以该结果为基础对其余6天的日权重指数进行计算,具体的计算公式如下:
(8)
步骤5:将周一至周日的日权重指数进行相加,得到周权重指数。数学表达式见公式(5)。需要注意的是,一个企业或一个业务线只设定一个周权重指数,其他分部或分店根据企业或业务线的周权重指数计算各自的日权重指数[14]。
在上述计算周权重指数之后,利用该指数对未来汽车销售额进行预测。预测模型构建原理如下:以历史汽车销售数据为基础,计算日权重指数,并利用日权重指数计算周权重指数,获取销售额理论完成率,最后将历史实际销售车辆数与理论完成率相乘,得到预测时间段内车辆的销售量[15]。计算公式如下:
(9)
其中:R为理论完成率;K′为所选历史汽车销售数据所在时间段内的日权重指数合计值。
Y=R×T
(10)
其中:Y代表汽车销售量预测结果;T为历史实际销售车辆数。
汽车销售数据分析过程中,数据分析显示缺乏直观性,因此为了给用户呈现更好的浏览效果,需要进行数据可视化操作。数据可视化流程框图如图2所示。
图2 数据可视化流程框图
为测试基于周权重指数的汽车销售数据分析方法在汽车销售量预测方面的有效性,利用MATLAB软件进行仿真分析。
汽车销售量预测所处的仿真测试环境如表2所示。
表2 仿真测试环境
某品牌汽车门店在5月1日到5月15日期间已实际销售的车辆数为63020 辆,现在利用上文所设计的预测方法对2019年5月后半月的汽车销售量进行预测。汽车销售数据样本(部分)如表3所示。
表3 汽车销售数据样本(部分)
依据下述三个指标来对汽车销售分析方法的预测准确性进行评估。指标计算公式如下:
(1)均方根误差(RMSE)
RMSE的值越小,表示预测精度越高,其计算公式如下:
(11)
(2)均方误差(MSE)
MSE的值越小,表示预测精度越高,其计算公式如下:
(12)
(3)平均绝对误差(MAE)
MAE的值越小,表示预测精度越高,其计算公式如下:
(13)
其中:n为预测次数;Y′i为预测值;Y为真实值。
某品牌汽车门店周权重指数计算结果如表4所示。
表4 某品牌汽车门店周权重指数计算结果
基于周权重指数预测2019年5月后半月的汽车销售量,并在MATLAB工具上进行可视化显示,预测结果可视化示意图如图3所示。
图3 预测结果可视化示意图
计算2019年5月后半月的汽车销售量实际结果与预测结果之间的均方根误差(RMSE)、均方误差(MSE)以及平均绝对误差(MAE),预测误差结果如表5所示。
表5 预测误差结果
从表5中可以看出,与文献[3]、[4]方法相比,本文方法的三种误差都较小,说明该方法的预测精度较高,达到了研究目的。
在上述基础上,为综合比较不同方法的综合性能,进行汽车销售数据可视化耗时比较,数据可视化耗时如表6所示。
表6 数据可视化耗时(单位:s)
分析表6中的数据可知,文献[3]方法的汽车销售数据可视化耗时平均值为3.11 s,文献[4]方法的汽车销售数据可视化耗时平均值为1.39 s,本文方法的汽车销售数据可视化耗时平均值为0.75 s,在三种方法中可视化耗时最少,说明利用该方法可以实现汽车销售数据快速可视化,效率更高。
在现代社会,随着出行需求的不断增加,汽车销售量持续上升,所以需要对汽车销售量数据进行进一步分析与可视化,以分析结果为基础制定汽车相关企业的生产与销售战略,所以本文提出一种基于周权重指数的汽车销售数据分析及可视化方法。通过仿真,证明了此方法的有效性,可以在实际中得到进一步推广。