基于XGBoost算法的社区团购商品购买意愿影响因素研究

2022-05-28 03:06周梦玲叶耀军
河南牧业经济学院学报 2022年2期
关键词:生鲜销量社区

周梦玲, 叶耀军, 胡 月

〔浙江科技学院 理学院, 浙江 杭州 310023〕

一、引言

生鲜产业是一个拥有万亿级别市场体量的庞大产业,是满足国民基础消费的产业,近年来增长态势稳定。果蔬、肉禽蛋等生鲜品类企业以高频、刚需的消费特性受到市场广泛关注。2020年开始突如其来的疫情对社会经济造成强烈冲击,但是生鲜电商却在此时大放异彩。生鲜电商行业在2020年全年营业额规模达4584.9亿,预计到2023年生鲜电商行业的营业额规模将超万亿。随着生鲜电商模式的成熟、用户网购生鲜习惯的普及,生鲜电商将会保持更高速增长。

社区团购的独特之处在于它以生鲜品类为主,售卖多品类居民生活用品。主要运营模式是借助于团长,采取预售+自提的模式让用户进行选购,以次日达的运输方式送至就近选择的团长手中。因其减少了门店的成本,减少中间环节,迅速受到广大居民的青睐。同时资本的流入也使得社区团购市场实现迅速扩张。但是社区团购作为一种新零售,无论是平台发展、平台建设还是市场监控都有待完善,是一个探索并不断改进的过程。所以,本文对当前社区团购平台的研究进行梳理,对消费者购买物品的关注点进行量化分析,以便了解消费者的需求,从而制定符合其购买意愿的售卖策略,让居民享受到实惠的价格和便利的服务,打造居民和平台共同获益的新零售业态。

二、文献回顾

王桂琦把信息系统成功理论(IS成功理论)引入社区团购研究,对影响消费者决策的多个因素进行探究,认为信息质量、系统质量、服务质量、团购产品、消费者个人等对社区团购平台消费者使用意愿起着显著的正向影响。李琪、李欣从消费者心理出发,基于SOR和承诺信任理论,证实社区特性和社区团购互动性、亲近性、熟悉性、便利性以及经济性很大程度上影响消费者的团购参与意愿。郑少华、刘婷提出了社区团购营销模式所存在的问题,从制定精准服务、扩大实干型“团长”群体、因地制宜制定发展战略以及加强平台监管力度四方面给供销平台提出发展建议。尚延超对社区团购农产品的流通体系进行梳理,提出健全社区团购新零售的流通渠道,实现资源需求的有效配置。宋始殷基于4C理论框架对社区团购优势和现存问题进行分析,提出注重风险成本,完善立法与监管系统,用技术手段解决物理问题,优化团长队伍的治理。

通过对相关文献的研究,发现影响社区团购商品购买的因素:从商家的角度有价格、数量、周期、需求聚集、产品质量、优惠券数量、复购消费者数量和折扣率等因素;从消费者角度有消费者使用平台的个人主观意愿。近年来,不少学者对社区团购做了很多研究,对于其运营各个环节也提出了相关建议。我们主要从商家角度出发,对于商品信息以及商家可以把控的运营和销售模式进行研究,对现有的社区团购平台进行剖析,挖掘对于平台管理者有用的建议。

三、理论模型和实证分析

1.数据来源及处理

本文数据来源于网络爬虫爬取“十荟团”小程序某一天的商品销售情况。对原始数据进行清洗,剔除无用、明显有误、重复的商品信息,得到用来实证分析的数据集。

2.描述性统计分析

对我们获取到的21个省份(直辖市)的“十荟团”的销售记录数据进行汇总和描述性统计分析,具体情况如下:

(1)各省商品数量对比条形图

图1数据显示,湖南省在售商品数量达到1214件数,江西重庆次之,包括福建、安徽、辽宁在内,上述几个省份在售商品种数大约在500~600件数。而东北地区如黑龙江、辽宁,以及靠北的部分省份山西、河南,南部省份广州、江苏、四川等在售商品种数在200~50种。但图中最后五个省份,上海、新疆仅仅有100件左右的商品在售,北京、天津、河北的商品种数仅有52件。因此,总结上述分析认为,中南部在线售卖商品较为丰富,东北部以及东南部地区次之,京津冀地区在售数目最少。出现这一情况的原因可能与在售商品数目和人口密集度存在一定的相关关系。类似于湖南、江西、四川这些人群密集的省份,社团数目较多,因此客户需求量较大。同时也由于地理优势,这些省份在交通便利的条件下,更容易引进周围省份乃至更远地区的商品。中部地区、京津冀和上海地区“十荟团”在售商品较少,原因可能是因为一线城市独居生活较多,整体社区的互动度低,通过团购形式购买商品的需求也较少;新疆受地理因素和交通的不便利性影响,商品供应困难,使得社区团购商品售卖规模受到限制。但是我们可以大胆猜测,随着团购平台发展的不断扩张,社区网络团购涉及的用户会逐渐延伸到二三线城市,甚至可以推广至乡镇等欠发达地区。

图1 不同省份“十荟团”商品数量条形图

(2)商品限购环形图

图2所示,“十荟团”小程序上93.98%的商品没有限购数目,但是对于一些新人专享和活动商品以及秒杀商品,平台设置限购量。从销售手段层面可以理解,商家想通过销售低于市场价的商品起到引流的作用,扩大自己的销售规模。但是考虑成本限制,所以只能选定少部分商品作为特价商品,并且设置限购量掌控成本。设置限购量也体现了社区团购平台使用特惠产品吸引到更多的居民,从而带动居民对其他商品的连带消费。

图2 商品限购量分析

(3)折扣率的概率分布直方图

分析团购商品的折扣力度,使用discount=(原件-活动价)/原价公式来衡量,数值越大表示折扣力度最大。对8135个在售商品的折扣力度做概率密度图以及分布直方图,由图3可以看出,折扣力度近似服从正态分布,说明商家的活动力度较为合理,多数采用半价的折扣力度进行售卖。

图3 折扣率的概率分布直方图

(4)主要供货商分析图

图4是基于python的文本分析算法,以供货商昵称汇集起来所做的词云图。一个词语出现的次数越多,词云图中出现的文字越大越突出。从上面的图片我们可以看出,商行、公司、经营部、水果店、商贸这五个词语字号最大。这就意味着,“十荟团”中商品的供货商大多来自公司、商行、经营部和水果店。由于团购是在团长的协助下进行售卖大批量商品的营销模式,因此大多数供销商均为某批发公司或者某商行。

图4 主要供货商分析

(5)各省销量前两名的商品种类图

按照同类商品销量汇总,把销量前两名的热销商品类别显示出来,由图5可以看到,各省热销商品多为时令水果、生活美妆、新鲜蔬菜、休闲食品、居家百货、酒水乳品等。据此可以将省份分为6类,分别为湖南、江西为一类,前两名的热销商品为时令水果和新鲜蔬菜;安徽、辽宁、吉林为一类,热销商品为时令水果、休闲食品;四川、广东、新疆单独为一类,前两名的商品类别分别为休闲食品和生活美妆,居家百货和酒水乳品,时令水果和居家百货;上海、河南、京津冀、浙江为一类,热销商品为休闲和居家百货;陕西、福建、江苏为一类,热销商品类别为新鲜蔬菜和休闲食品;黑龙江、山西、湖北、重庆为一类,热销商品类别为新鲜蔬菜和居家百货。

图5 省销量前两名的商品种类

(6)全国各省份总销量对比

与上述在售商品种类排名条形图的结果类似,湖南省的销售量依然排在第一,湖北省排名第二,依次是安徽、四川和东北地区。基于地理优势还有消费群体的规模优势,中部省份的社区团购商品销量表现突出。

对社区团购商品在各省份的表现进行逐步分析,最后我们选定社区团购发展比较完善和成熟的湖南进行详细分析。

(7)在售商品种类分析结果图(湖南省)

图6显示,社区团购商品种类较多的大类主要是粮油调味、日用百货、休闲零食、肉禽蛋类、新鲜蔬菜等基本生活必需品。个人清洁、奶类、水产类次之,生活服务、数码电器、家装等排在第三的位置,鲜花绿植或者卫生纸品等商品的种类较少。原因在于零食、日用百货的生产厂商五花八门,进货渠道也较多,因此商品品质参差不齐。对于生鲜蔬菜,一般都会在固定进货商进货,并且人们日常饮食所需要的蔬菜水果变化波动较小,同季节热卖或时令水果种类较为固定,因此商品种类较少。

图6 商品种类分析

(8)商品供需关系分析图(湖南省)

社区团购次日达的运营模式使备货显得十分必要,通过图7可以得到消费者需求量与平台的备货量之间的缺口情况。以商品数量最多、最齐全的湖南省为例,对供货厂商提供建议,根据1-(剩余量/总数量),计算各个商品的库存量高低,筛选出库存量不足10%的商品,在总共1214件商品中,总共筛选出207条商品,说明厂家和小程序的管理者应当关注这些产品的售卖情况,防止出现供不应求的情况,可以适当增加这些商品的库存。对207件容易出现供不应求商品的种类通过计算需进货/总商品类别,所得的值越大说明该类商品更应该加大库存量,排名前三的商品类别是新鲜蔬菜、时令水果、肉禽蛋类。这三类商品也是居民日常生活的必需品,居民需求量比较大。排名后三的是美容护肤、荟享生活以及生活服务类,这三类商品的缺口并不大,需进货的占比不足10%。原因在于生活服务以及美容护肤类的产品使用周期长且覆盖面有限,是非必需品。所以小程序的管理者可以适当削减这三种类型商品的供货量。当然,由于只考虑了湖南省一天的“十荟团”社区团购小程序商品销售情况,并不能排除季节、促销力度以及其他因素的影响,所以管理者可以根据实际情况适当调整供货数量。

图7 商品供需关系分析图

四、基于XGBoost算法构建模型

1.XGBoost概述

传统的Gradient Boosting是基于经验损失函数的负梯度来构造决策树,随后再进行剪枝。而XGBoost在训练模型之前,便在其所定义的目标函数中加入了正则项,该目标函数的定义为:

(1)

目标函数Obj由两项组成:第一项为损失函数,用于评估模型预测值与真实值之间的损失或误差,该函数必须是可微分的凸函数;第二项为正则项,用来控制模型的复杂度,正则项倾向于选择简单的模型,从而避免过拟合。正则项的定义如下:

(2)

第一项γT通过叶子节点数及其系数来控制树的复杂度,γT越大目标函数也越大,从而可抑制模型的复杂度。第二项为L2正则项,用来控制叶子节点的权重分数。若正则项设置为0,则目标函数变为传统的Gradient Tree Boosting。

在目标函数近似的过程中,XGBoost引入泰勒公式来进行简化。先对公式进行改写为:

(3)

(4)

Obj(s)≅

(5)

其中,gi为损失函数的一阶梯度统计;hi为二阶梯度统计。gi和hi分别如下:

(6)

(7)

若已知决策树的结构,损失函数对ωj进行求导并令其等于零,可解得方程

(8)

2.实证研究

(1)爬取销量数据

利用网络爬虫爬取“十荟团”小程序已覆盖省市某一天的商品信息以及销量。对于不适合建立模型的特征进行删除,再对原始数据进行清理等预处理。留下8135条数据作为分析。进行特征的转换,采用标签编码方法对分类特征进行编码,如表1所示

表1 分类特征编码表

特征数据建立模型,使用表1所示特征,并以销量作为标签。将数据集中的80%数据作为模型的训练集,20%数据作为模型的测试集,得到6508条数据作为训练数据集, 1627条数据作为测试集。利用XGBoost算法建立相关回归模型进行分析。

(2)网格搜索法选取参数

模型的参数一般分为两类,一类是可以通过学习获得的参数,另一类则是在开始学习前设定好的参数,因为该类参数没办法通过训练获得,所以被称之为超参数。网格搜索法是超参数优化中比较传统的方法,它通过手工指定超参数空间中的所有组合进行穷举,试图找到一组最优的参数集合。本文除了将XGBoost模型中的多类参数设置为默认值外,其余可调节的参数便通过该方法来进行获取,表2列举了得到的部分相关具体参数取值。

表2 网格搜索法确定的具体参数

(3)模型的评估

预测模型建立之后必须通过一定的评估标准来评价模型的效果,效果评估使用实际观测数据与预测模型计算生成的拟合数据之间的差异统计量来衡量。对于回归的算法预测评估指标具体包括,平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)。所以采用MAE、RMSE、R2对模型的进行评估,如表3所示。由调整过后的参数最终得到XGBoost的评估指标值为MAE为322,RMSE为749,R2=0.86。

表3 XGBoost模型结果

最后以测试集1627条数据作为例,做出预测值与真实值的柱形图。如图8所示,深色代表预测值,浅色代表真实值。不难看出,模型具有较好的预测效果。

图8 模型评估结果

(4)不同模型间的评价与比较

表4从不同指标展示了逻辑斯蒂回归、决策树、随机森林、支持向量机和XGBoost模型的对比。

表4 不同分类模型对比

从上表可以看出,决策树的表现最差。总而言之,XGBoost模型表现最好。所以本文选用XGBoost算法做商品销量的预测具有科学性和合理性。

3.特征重要性排序

将影响商品购买的特征重要性进行排序,分析各特征对商品总销量影响程度的大小,为相关决策提供意见,最终结果如图9所示。

图9 特征重要性排序

从特征重要性排序的结果我们可以得到如下结论:

一是限制销量在特征重要性中位于第一梯队,反映了限制销量对销量的影响是十分巨大的,商家应根据实际情况,制定相关销售策略,如对爆款产品采取限销措施来极大程度上减轻供货压力。

二是活动价和折扣力度特征重要性排在第二梯队。活动价即商品当前的真实价格对销量产生的影响在当前所有特征中排名第一。建议商家在考虑商品销量时,仍然应该将商品的实际价格因素放在首位进行考虑,合理制定相应的活动价。折扣率的重要程度略低于活动价,反映了商家的折扣活动确实能够有效吸引消费者的购买。

三是使用优惠券、商品类别、剩余量排在第三梯队。消费者是否使用优惠券因素虽然比活动价和折扣力度的重要程度降低一个层次,但仍然不可忽视,这表明和商品的价格有关的因素是影响销量的主要原因。商品类别因素对销量也有着相当程度的影响,对此,商家更应根据各地销售情况差异合理制定相应政策,对销量靠前的产品采取提前备货,加大促销力度,以期更大程度上增加商品销量。对商品剩余量这个因素而言,其反映了商家是否应补充货物,为销售爆款产品备好相应库存,同时为某些产品可能存在的脱销状况做好准备。

四是售空、交货日、多商业模式、售后类别对销量影响相对很低,采用这些手段对销售量的影响相对不高,商家可按实际情况合理做出选择。

五是通过XGBoost算法对销量建立回归模型进行预测我们发现,数值型变量对销量产生了较大的影响,侧面反映了该算法能够很好弥补传统线性模型在做回归预测时容易忽视变量之间非线性关系的缺陷。

五、社区团购存在的问题以及相关建议

1.存在的问题

(1)扩张不易,可复制性低。通过分析能看出目前社区团购还是以省和市级单位进行布局,不同的省份的商品种类、数量等都表现出了异质性,每一个省份都需要根据本省居民的饮食习惯、消费者倾向上线一些极具本地特色的商品。同时由于物流运输链的限制,供货商多数来源本省或者临近省份,同类商品的不同供货来源致使商品品质无法统一,所以社区团购商品必须在每个省份形成一套独立商品系列,由某个团队去管理部署。平台的商品建设就需要因地制宜,可复制性较难,扩张也就面临着极大的挑战。

(2)平台建设有待完善。利用社区团购软件和平台依据微信小程序以及自己原有的软件搭建平台,但是由于时间短、初入市场,把更多的精力放在抢夺团长、获取新用户上面,对于平台的内部建设还不够齐全,比如产地栏有一半只写明国产,没有具体到省份和地区,供应商的资质也缺乏严格审查,提供的信息不全面。

(3)不可替代性不强。人们对生鲜市场的需求目前大多数还停留在菜市场、商超、水果店等等,传统消费习惯完全转变需要一个长久的过程。并且,目前生鲜电商表现出多样化的市场竞争环境,半个小时达的叮咚买菜、盒马鲜生等的时效性又是社区团购无法赶超的。当人们有更多更好的选择时,社区团购的优势便需要逐步显现出来,因此需要定位自己的不可替代性,实现生鲜电商市场的可持续发展。

(4)城镇和农村消费偏好没有做好区分,必须对县乡市场、对农村生活下功夫去了解。现阶段,农村的第一高频刚需品不是水果蔬菜,而是猪肉。由于政策限制,绝大多数农户已经不能养猪,基本上家家户户都得买猪肉。而水果蔬菜则依然有很多农户可以自产,再加上平时邻里之间互通有无,导致他们并不像城市居民需要天天购买水果蔬菜。另一方面,在猪肉的食用习惯上,农村居民不喜冻肉而喜欢鲜肉。这使得农民宁愿购买市场溢价的新鲜猪肉,而不会去选择社区团购上面价格低于市场价50%的冻肉。

(5)不重视社群运营,仅凭价格优势取胜,服务和质量有待加强。“十荟团”等社区团购平台的流量完全来自团长,但“十荟团”等相关社区团购平台都没有借助团长进行优惠券、微信群的运营以及活动商品的推广。团长的门槛设置较低,不负责以及专业性不强的团长会给用户带来不好的购物体验,除了产品的价格,服务和产品质量也是消费者关注的重要方面。

(6)快消品的价格过低,扰乱了市场定价。很多社区团购平台用快消品来提高自己的客单价,用生鲜产品贡献订单量。利用快消品(饮料、牛奶、白酒等)低于市场门店价以及线上零售价的优势获取用户流量。社区团购虽然强调的是本地供应链,但这与品牌商分区管理、分区经销的策略,存在着巨大的冲突和矛盾。社区团购的低价促销侵犯了本地连锁商超和经销商利益,对于周边经销商的打击力度非常大。如果品牌厂商不尽快进行价格干预,线下的价格体系将会受到严重冲击。

2.相关建议

(1)主打新一、二、三线城市,做好市场下沉。现有的社区团购平台都有自己的主战场,会在某一个区域做得相当出色;有可以复刻的体系和管理运营模式,尽快推广扩大到其他地区。应该增加管理人手,尽快做到普及成熟的管理平台搭建和运营体系。

(2)平台严格把控产品的质量,对于不同的产品销售采取不同的营销策略和手段。像生鲜蔬菜类的商品,居民需求量比较大,可以设置适当的限购数,让居民在购买日常必需品的同时,附带增加其他商品的购买量。

(3)做好地区区分,因地制宜对不同地区的消费习惯和饮食偏好制定产品销量策略。现有社区团购平台同省内不同市显示同样的商品种类,即使不同的省市,例如京津冀地区由于居民购买力不一样,但三个地区的社区团购平台的供货情况却基本一致。所以社区团购平台应当针对不同地区多售卖一些符合当地风俗习惯和口味的商品,吸引更多的用户群体,满足人们的日常需求。

(4)完善平台建设,使小程序或APP提供的信息更加完整可靠。对于商品信息应当给予消费者直观详细的参考,商品的来源、产地、保质期、实物图片等等应当补充齐全,对于购买过商品并认可的消费者可以使其增加售后评价,以及对于团长和平台的建议,从而增加消费者的信任度,让消费者买得安心,买得放心。

(5)设置限购量,以较优惠的活动价吸引顾客,增大活动力度刺激消费者去购买商品,并根据商品的实时销售情况及时调整库存,做好应对的准备。可以利用爆款商品的巨大活动力度吸引新用户、留住老用户,增加用户的使用粘性。

(6)价格补贴要适当,符合市场规律。社区团购的出现本来就是对于线下菜贩、便利店以及生鲜水果超市的冲击。凭借绝对优势的价格去吸引用户群体,长时间会扰乱市场秩序,导致传统行业人员失业。所以需要市场监管部门做好监督工作,反行业垄断。在维护正常的社会秩序的情况下,让社区团购给人们的生活提供更多便利。

猜你喜欢
生鲜销量社区
同比增长130%!剑指3万吨销量,丰华黄颡料迎来大爆发
社区大作战
生鲜灯的奥秘
3D打印社区
在社区推行“互助式”治理
盘点2018年车企销量
2016年度车企销量排名
影像社区
中国生鲜消费趋势
上汽通用172万销量下的阴影