林倞夷 孟健 庞有俊
摘 要:本文对消费者购车评价数据进行机器学习建模与训练,实现消费者购车性价比实际认知指标的预测和影响因素优先级评估。从而指导整车制造企业通过平衡价格、汽车各项性能指标的方式提高消费者对新车的性价比认知指标,提高新车销量。
关键词:机器学习;消费者性价比认知;分类预测;汽车性能因素分析;消费者研究
1 引言
2012年后,我国汽车消费者市场逐渐回归理性,面对日益激烈竞争和消费者更加个性化需求,给汽车产业带来了新的挑战。运用科学的调研方法和研究手段,深入了解消费者需求,制定精准的产品策略和价格策略,成为越来越多整车制造企业关注重点。本文重点研究如何运用机器学习方法,将消费者对汽车性价比认知指标进行分类预测,从而指导、建议更多企业在产品规划、定义、价格制定阶段,通过定量平衡价格、优化各汽车性能要素的方法,提升消费者对汽车的性价比实际认知,增加汽车销量。
2 关于消费者性价比认知指标
购车性价比,是一个性能与价格之间的比例关系,這个指标可以通过科学的量化和计算获得,侯仁勇(2007)曾经提出过我国家用轿车的评价比模型,他认为性价比的主要性能指标包括:质量稳定性、价格合理性、安全性、乘坐舒适性、耗油量、售后服务、外形美观、操作方便等。
然而在经济学中,很多问题的特征都是多元的,当我们使用模型去计算时,可能呈现非线性表达,而线性模型可能难以满足现实世界的复杂性要求。
消费者对汽车性价比的实际认知指标,来源于消费者调研数据,与经过科学计算公式计算而来用于指导消费者的性价比公式而言,消费者还会受自身心理以及价值评判标准影响。
3 消费者性价比认知与汽车销量的关系
为了探讨消费者性价比认知指标的价值,本文选取了10-20万区间的汽车品牌,这些车型数据分别包括朗逸、宝来、速腾、凌渡、思域、卡罗拉、轩逸、福克斯、雷凌、马自达、高尔夫、Polo,数据来源包括网上评价信息和线下问卷调研信息汇总。分别对不同品牌的车型的销售量进行分析,我们发现销量与消费者对汽车性价比实际认知值成正相关。这让我相信提升汽车在消费者心中的性价比指数,对于销量提升有着正向积极的促进作用,见图1。
而消费者口碑价比指数,通常难以被测算,大多通过消费者调研来获得,这往往需要大量的人力成本和时间周期。我们也可以通过将消费者性价比指数与其他因素建立相关机器学习模型,从而进行预测。
4 机器学习技术在汽车类产品消费者研究工作中的应用和作用
机器学习是一门人工智能的科学,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科进行建模,使用实际场景下数据进行训练,相比于富有经验的人类分析结果,更容易帮助人们发现隐藏在事物中的特征和规律,也不容易受到人类主观因素影响,对于消费者调研研究工作,具有很高的参考和应用价值,其作用在于:
(1)在开展消费者调研之前进行预测,便于定义调研范围;(2)帮助研究人员预处理数量庞大的调研数据,发现隐含在海量调研数据中的价值,便于进一步分析研究;(3)调研后对调研结果进行分析,发现异常调研数据,并进一步挖掘调研数据价值;(4)在周期较短、缺乏足够调研条件的情况下,可以进行粗略的辅助判断。
目前机器学习技术已经被广泛应用于处理网络用户评论和反馈数据,苏翔(2015)基于机器学习方法实现购物网站用户反馈信息聚类,便于工作人员快速捕捉重要的反馈信息。沈敏(2015)针对大数据环境下高校图书馆检索系统的信息超载问题,提出一种机器学习方法,为用户提供个性化的偏好检索服务。
5 本文研究方法实现
为了预测消费者对各款车型的性价比评价指标,选取相关因素进行分析,这些因素包括:价格、空间、动力、操控、油耗、舒适、外观、内饰,而这些数据指标的获取均来自消费者评价调研。我们假设富有经验的汽车研发人员也具备评价这些因素的能力,这样当我们完成预测模型后,可以帮助研发人员预判消费者对于汽车的性价比实际认知值,帮助他们针对下一步的调研研究工作缩小调研范围。
5.1 数据选择
A、获取了100组来自于用户口碑评价数据,这些数据的汽车款型销量分布在10-20万这个区间,这样同一批训练样本中不会出现品牌价值差异很大的车型。
B、为了保证评价指数能够真实客观反映消费者认知(不受个别消费者特殊情况影响),选取每种汽车款型评价数总次数大于50次的数据,取其均值。(实验过程反应出低于50人次的评价容易形成脏数据干扰模型)
C、这些车型包括品牌: 朗逸、宝来、速腾、凌渡、思域、卡罗拉、轩逸、福克斯、雷凌、马自达、高尔夫、Polo。这样对于不同品牌汽车款型的数据选取,也便于我们通过模型训练出的效果判断在同一价格区间内,品牌是否对消费者口碑性价比指标产生影响。
D、数据类型上,选择进行消费者口碑性价比指标预测的因素及其取值范围如表1:
价格取值范围:10-20万;
空间、动力、操控、油耗、舒适、外观、内饰:1-5,精确到小数点后2位;
口碑性价比:1-5,精确到小数点后2位;
其中,价格我们选择市场指导价,这和整车制造企业制定价格策略时的价格相吻合;
5.2 数据预处理准备
A、正负样本分配:保证正负样本比例为1:1,就目前获取的口碑性价比数据而言,大多集中在3-4.9之间,现在取4.4-5为正样本,其余为负样本进行而二分类。如果遇到样本出现更多类别,可在完成第一次而分类训练后,对负样本继续进行正负样本划分;
B、数据分组:将这100组数据分成8:2的比例,其中80%用于训练模型,随机选取的20%用于测试模型输出的准确度。
5.3 数据降维处理
我们使用Matlab进行数据处理和模型建立与训练。Matlab是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。
将处理好的数据存入Excel,然后使用Matlab软件导入进行数据的处理和机器学习建模与训练。使用主成分分析方法(PCA),对多维数据进行降维度,取前两维特征向量(K=2)。
获得PCA后的8维特征,每个维度影响度排序如下:
3.8196, 0.2983, 0.1353, 0.0861, 0.0746, 0.0406, 0.0286, 0.0406, 0.0286, 0.0172
其中,前两维特征,占所有特征贡献值的90.1%。我们取降维后的前两维数组,基本上可以体现数据的绝大部分特征。这样降低数据计算速度同时,也使我们的模型更加简单,利于可视化分析。
5.4 数据建模与训练
将数据进行主成分分析后针对前两个特征进行SVM分类预测,使用Matlab的SVM工具箱可直接获得分类结果,在这里我们使用核函数进行非线性分类,kernel_Function取高斯径向核函数(rbf),其公式如下:
训练前后后的数据可视化情况如上图所示,正负样本被特征空间存在的超曲平面分开。
5.5 模型的测试
训练集上准确率达90.80%,在测试集合上准确率达87.5%。
5.6 利用训练完成的模型,嘗试对各项影响因素进行分析
不同因素对性价比的影响不同,我们分别减少某个因素之后,重复SVM模型建立过程,观察预测分类模型准率度变化,从而分析各因素对特征值的贡献度,进而用于评价各个因素对于汽车性价比因素影响的重要程度,我们发现如下情况:
分别去除各个影响因素后再次以相同方法建立模型,发现模型输出预测结果都有不同程度出现准确率下降的情况,其准确度和下降情况如下列表2所示;
(1)针对这个结果我们总结出如下规律:
(2)我们发现该模型对其他价格区间的数据不起作用;
(3)10-20万价格区间的汽车款型里,去掉价格因素,模型准确率也明显降低 ;
(4)在性能因素中,动力对口碑性价比影响最大,其次分别是内饰、操控、空间、友好、舒适性,而外观对该模型的影响基本上很小。
关于选取汽车价格段分析:
(1)上述模型选用了不同品牌(自主、合资)的数据进行建模,在评价数据量足够大情况下,出现了较好的分类能力,证明在同一价格区间,大多数品牌对性价比的影响力不高。
(2)而对于上述结论出现了一些意外情况,我们发现分类中容易出错的车型比较多集中在大众这个品牌(经常实际性价比评价指标比分类的要高),有可能这个价位区间的这个品牌对消费者性价比考察产生了一些心理影响。
(3)使用价格区间高于10-20的汽车口碑指标输入该分类预测模型,预测的准确率明显降低,这说明品牌价值因素对消费者认同的性价比指标是有很大影响的。
5 结语
借助机器学习方法,我们可以应用消费者调研数据训练预测模型,指导整车研发过程,平衡价格和汽车性能指标,以提升消费者对汽车的性价比实际认知。同时,通过训练完成的模型,我们同样可以进行影响因素分析,判断哪些是我们决策指标的关键影响因素,这有助于帮助我们发掘数据中隐藏的规律,对我们的调研研究和产品策略进行指导。
参考文献:
[1]侯仁勇,苏艳丽.我国轿车性价比评价模型[J].价值工程,2007,(1):77-78.
[2]苏翔.基于机器学习方法实现购物网站用户反馈信息聚类[J].信息与电脑(理论板),2015,(15),42-44.
[3]沈敏,杨新涯,王楷.基于机器学习的高校图书馆用户偏好检索系统研究[J].图书情报工作,2015,(11),143-148.