大数据下的卷烟市场状态评价方法

2022-08-29 06:58:48蒋丽雯王雄峰刘颖璇张革伕

电脑知识与技术 2022年20期

蒋丽雯，王雄峰，刘颖璇，张革伕

(1.衡阳烟草公司，湖南衡阳421001；2.深圳信息职业技术学院，广东深圳518000；3.南华大学经济管理与法学学院，湖南衡阳421001)

1 引言

随着公共场所控烟条例的颁布实施，烟草行业也在进行持续的市场化改革，以推动卷烟供给的高质量发展。面向终端市场，卷烟的精准投放成为营销工作的重中之重，也是调控市场的重要手段。2020年初，国家烟草局提出要建立“俏紧平松软”卷烟状态评价模型，以支持运行调控，达到“精准施策”。

2 研究现状与述评

本文旨在研究卷烟品规市场状态的评价问题，即就市场上的卷烟品牌与规格分类，在方式方法上专家学者开展了不少研究，取得了不少成果。下面首先介绍卷烟品规市场状态的评价方法，其次介绍聚类分类算法新应用技术研究。

2.1 卷烟品规市场状态研究

为精准投放，首先必须把握卷烟品规的市场状态。顾云飞等[1]构建了一个二级指标评价体系，来研究卷烟市场供需状态评价方法。刘志刚[2]从货源投放的角度出发，对“五要素”指导下货源投放的维度和要素进行分析，以期给卷烟营销策略调控提供有益参考。刘涛等[3]通过市场状态理论及重庆市的相关实践，界定了卷烟品规市场状态，构造了卷烟品规市场状态综合评价指数与趋势指数的核心指标。于梦吟等[4]提出状态评价要系统思维，在状态评价和策略评价相分离策略下，初步阐明了系统思维下总量、价位、品规三个维度，给出了以“条均行批=差”、订单需求满足率为核心指标的市场状态评价矩阵，以及品规维度“俏紧平松软”属性评价阈值范围参考值。于冰等[5]人依托品牌市场匹配矩阵评价体系，以客户需求为导向，创新设计货源供应分析测算模型，构建“智慧投放”模式，精准匹配品牌和客户、供给与需求。

2.2 聚类分类算法及应用研究

聚类的目的是市场细分例如卷烟的“俏紧平松软”五类，分类的目的是将具体卷烟品规划分到恰当的类。基于大数据，越来越多地专家学者提出机器学习模型，例如林少华等[6]研究了数据驱动的卷烟市场调控方法，形成了以多层神经网络算法为核心的市场预测办法，进而运用预测结果开展市场状态调控。

聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组内样本最小化而组间(外部)距离最大化。邓基刚等[7]借助RFM聚类分析方法，通过分析烟草零售户购买卷烟行为来实现对卷烟品牌畅销度的细分，帮助烟草公司合理分类投放香烟品牌。在IBM 的Modeler 数据挖掘工具中，两步聚类算法是BIRCH层次聚类算法的改进版本，可以应用于混合属性数据集的聚类。张红梅等[8]以菖菖市卷烟零售客户分类为例，运用两步聚类模型进行客户分类模拟研究，结果显示基于两步聚类算法的卷烟零售客户分类具有较高的科学性和精准性。杨美洁[9]采用两步聚类算法来分析高血压的成因，挖掘出肺炎、脑梗、糖尿病等预测高血压的重要因素信息，为高血压的诊断和治疗提供参考依据。

决策树起源于概念学习系统(CLS)，与聚类不同，决策树是一种有“导师/监督”学习算法。决策树中，节点对应于待分类对象的属性，由某一结点引出的弧对应于这个属性的可能取值，叶结点对应于分类的结果。当数据量很大，属性很多时，寻找最优决策树被证明是NP 困难问题。ID3 算法是最经典的决策树算法，C5.0 是ID3改进算法。胡美兰等[10]采用C5.0 算法决策树模型分别建立个人水平模型和临床模型预测高脂血症，决策树模型对体检人群中隐匿性高脂血症患者具有较好的预测效果。郭正军等[11]研究了C5.0 决策树模型在严重精神障碍患者服药依从性影响因素中的应用，预测中性能良好。

2.3 研究述评

卷烟品规的“俏紧平松软”五类状态提出时间不长，现有的研究相对有限。一方面，就状态评价研究来看，一般先通过获取订单满足率、投放面、订足率、订货面、投放订货面等指标数据，然后进行模糊评价，再进行类型的划分。实际困难是数据的获得本身就并不准确，因烟草属于计划投放，难以直接观察到需求与价格的波动关系。另外，不同档次、市场类型、地域状态中的商家在订购烟品时，烟草公司投放时会忽略个性而采用“一刀切”策略，使得每一种卷烟品规的订足率等指标意义甚微。另一方面，在大数据支持下，应用机器学习方法来帮助分类研究显得不足，特别是让机器学习的数据存在偏颇时，算法结果的合理性与有效性就会存在质疑。

3 大数据分析模型

本文研究模型的数据来源分两个：各个县区市场的中烟湖南平台日常运营数据，第三方市场调研公司2021 年采集的市场价格数据，这些数据最后全部集成到本地SQL Server 数据库，进行数据预处理，包括异常处理、缺失数据处理。分析模型框架如图1所示。

图1 数据分析模型框架

3.1 数据结构说明

平台日常运营数据主要包括销售终端客户的订购访销数据、客户标签特征数据、各访销周期投放控制计划数据。

访销数据字段包括：客户编码、访问日期、商品名称、品牌与工业企业名、需求数量、销售数量、同期需求数量、销售额、同期销售额、毛利等。

终端标签字段包括：客户编码、许可证号、专卖市场类型、营销市场类型、订货方式、档位、访销批次、星级终端等。

第三方市场价格调查数据字段包括：品牌(规格)、工业企业名、批发价、指导价、出货价、顺价、收购价、湖南均价、衡阳均价、投放量等。每隔半个月或一个月即有一次市场价格采集，但并不会针对所有商品，而且每次主要采集的是市场需求大的，未录得疲软无需求的卷烟品规。

3.2 数据预处理

由于卷烟销售的特殊性，从中烟平台采集的访销数据存在两个问题：一是某个周次没有需求数据；二是有一定需求(订购量)但无实际投放量。实际是因为烟草公司根据需求和库存来投放，统计表明约3%的卷烟没有投放，没有需求的一定不会投放。按照市场导向为需求导向，本研究剔除所有观察周期内需求为0 的数据，保留需求大于0 的数据，统计表明实际中只有27%的订购需求次数得到了投放。

数据空值来自两个途径：一是市场数据采集的不完善，例如实际零售价格；二是来自数据处理本身。对于此价格问题，由于绝对价格可比较性差，转换为价格变动率，价格空值可处理为变动率为0。当前有关卷烟市场状态的研究中都提到了订足面和满足面两个参数，实际上因大量卷烟往往有需求，但无投放量，市场视角下卷烟的订足面和满足面因小于1而导致在整体市场下一些卷烟对应项为空值，同样转换为0来处理。

3.3 混合分析模型

单纯使用聚类分析方法，通过寻找数据之间的距离极其相似度来自动分群，难以获得有效的市场状态群组，因为聚类会将一些极少数据团当成离群数据抛弃。实际上，在一个投放了200个卷烟的市场，俏的烟品只有10个，占比约5%，这个值与误差值相当，会出现许多烟品未划分到确定的一类。另外，在“五类”划分需求下，无导师的聚类算法会导致五类与“俏紧平松软”无法对应。本研究，首先由行业市场专家就其中最明显的几个卷烟品名进行判断，赋予对应的“俏、紧、待评”三种状态，烟品数量约15个，形成训练“导师”；其次，使用决策树的C5算法模型，通过学习前面的数据，进行状态分类预测，应用“二八”规则进行质量评估；第三，使用两步聚类算法，将“待评”再进行聚类，划分三类，但因数据量大，划分不完整，出现大量空状态实例；第四，再次应用决策树的C5算法模型，以已经划分的三类为导师，继续进行机器学习，再进行分类预测；第五，在不同市场中进行烟品的销售价值进行划分，确定“平、松、软”状态。基于IBM的Mod‐eler数据挖掘工具，混合分析模型如图2所示。

图2 混合分析模型

4 分析模型变量与效果

4.1 分析模型变量

从现有研究来看，度量烟品市场状态的几个指标主要是：需求面、订足面、订足率，但是这几个值并不能反映真正的市场需求，因为订足面和订足率都是由投放员来设计的，反映的是投放员的市场预判。本研究以市场需求为中心，构建如下13个考察指标，定义如下。

订购频次：观察周期内，每个店铺每个烟品发起订购的次数，反应终端市场的需求频率。对于不同的烟品，一些零售终端每个访问周期都可能下单，有些店铺可能4个月就1次，有些不访问。采用“订购”的意义在于：相比投放部门，更加真实地反映终端市场需求状态，因许多烟品可能有订单但无实际投放。

平均日消耗(需求)速度：整个观察周期内，每种烟品每日的消耗速度，这是市场终端的需求总预测。以零售终端需求量为基准，而非烟草公司的投放量。

烟店平均销量：与日消耗速度不同，以零售终端需求量为基准，每种烟品在每个终端的平均名义销售量，非实际投放的量。实际投放量反应的是供应中心投放人员的市场认知。

投放视角需求满足率：每个烟品，在有投放量即大于0 情况下，所有销售量与需求量的比值，假定下次到货前都能销售完毕。销售量为烟草公司销售给零售终端的投放量，该值一般都小于需求量。在有奖励情况下，一些特定的烟品，个别零售户的需求满足率可能大于1。

市场视角需求满足率：只要零售户有订购需求即需求量大于0，每个烟品的总订单销售量与总需求量的比值。反应零售户的预期需求满足率，实际投放取决于烟草公司的预判和库存量，这个值远小于投放视角需求满足率。

烟品平均贡献率：即烟品销售的平均名义价值，即以零售户的需求量销售后为基准，非烟草公司的实际投放量，假定能全部卖出去。

烟品自然溢价率：即市场状态下，(收购价-出货价)/出货价，即反应烟草收购方的意愿，反应收购方对市场状态的认知。

市场收购溢价：即零售户的市场零售单位均价与第三方收购价的差值，为正表示再卖出时仍然有利润，为负表示亏损。

烟品平均订足率：每种烟品的销售数量与其额度的比值，额度即烟草公司划出的投放计划控制线，一般这个比值小于等于1，在有奖励情况下，会出现大于1的情况。反应投放人员的控制判断力。

烟品平均订足面：对于特定的烟品，观察周期内，下单后烟品订足率大于1的零售户所占比例。

烟品平均需求满足面：对于特定的烟品，在观察期内，订购烟品的零售户所占比例，不是所有烟品每个访问周期都有零售户下单。

需求变化率：(调价后观察周期内需求量-调价前观察周期内需求量)/调价前观察周期内需求量，价格为市场零售价。

价格变化率：(当期市场零售价格-上期市场零售价格)/上期市场零售价格。

上述考察变量都可由所采集的数据项进行构建所得。

4.2 模型效果分析

第一阶段“三状态预测”

在C5.0 决策树下，调取衡东县县城的烟草状态评价数据，可发现衡东县县城的“俏”烟分类预测与专家预判一致，并且对于原来未划分的三种烟品“白沙(硬和气生财)”“白沙(硬红运当头)”“双喜(软经典)”划分到了“俏”，如图3所示，而这三种烟也被认为属于“俏”系列。3 月—6 月，衡东县城投放了191 种烟，划分到“紧”状态的烟有27种，划分到“待评”的烟有154种，“紧俏”烟占比约19.4%。从实际的销售量来看，“俏紧”烟占了整个市场的83.7%，其中10 种“俏”烟达到63.2%。“俏紧”状态基本满足二八规则，但显然“紧”烟数量不大，但市场销量比重偏大。模型的准确率平均为97.8，标准误差为0.8，效果很好。

从决策的依据来看，输入变量有：日消费速度、平均销量、市场视角需求满足率、订足率、平均满足面、平均订足面、需求变化率、价格变化率、市场收购溢价等，但真正起作用的变量只有5 个，作用变量的重要性值为：日消费速度，0.55；平均满足面，0.37；平均销量，0.03；市场收购溢价，0.03；需求变化率，0.03。市场收购溢价是新构建的，来自市场本身，该值对状态评价也有一定的影响，从图3 所示的评价结果来看，俏烟无一例外都有终端愿意回购。

图3 C5预测下的俏烟状态划分

在上述模型下，衡阳市区城区的俏烟为9 种，需求额占整个市场的61%，紧烟18种，俏紧销售额占整个市场的79.5%。俏紧烟总数量只有27 种，占投放品牌的15%，但销售市场占约80%，投放有点过于集中。耒阳市整个市场俏烟9 种，紧烟27种，二者品牌数量占整个市场的19.1%，但俏紧市场销售额占整个市场的81.4%。进一步的分析表明，衡阳市本级与市区以外的县市“俏紧”卷烟品规数量上就相差10个。

第二阶段“待评”状态的聚类与决策树分类

以第一阶段的“待评”数据为机器学习对象，新补充“烟品自然溢价率”指标，输入9个数据指标，目标聚类数为3，构建两步聚类模型。模型采用最大似然距离法和贝叶斯BIC准则，增强型学习，两步聚类法下的轮廓清晰度超过0.5，模型达到良好级别，如图4所示。

图4 两步聚类效果

从聚类效果来看，起显著作用的指标项包括：

强项：日消费速度，1.0；平均销量，1.0；总订购频次，1.0。

中等项：投放视角需求满足率，0.78；平均满足面，0.45；平均订足面，0.45。

弱项：需求变化率，0.02；价格变化率，0.04；自然溢价率，0.03。

上述聚类算法模型存在明显缺陷，并没有将所有实例划入到相应的三个类中，原因是存在大量的离群数据项，而这些数据又是客观的。为此，以已分三类为“导师”，继续构建C5.0决策树模型，对所有实例进行分类预测。从13个输入参数，到输入2个参数，发现只有4个参数的预测准确度最高，达到97%，标准误差为1.7。起作用的预测变量及其重要性分别是：市场视角需求满足率，0.36；平均满足面，0.28；需求变化率，0.19；投放视角需求满足率，0.18。

最终获得的三个类为：

聚类-1，11 种烟，市场销售占比：6.8%，观察的4 个月内每100户平均销售市值为5万，对应：平。

聚类-2，33 种烟，市场销售占比：4.2%，观察的4 个月内每100户平均销售市值为2.5万，对应：松。

聚类-3，110 种烟，市场销售总占比：6.3%，观察的4个月内每100户平均销售市值为1.25万，对应：软。

4.3 卷烟市场状态定义

根据前述模型分析，本研究给出卷烟的“俏紧平松软”五种状态定义：1)俏烟：有广泛的市场，需求量大；需求几乎不受价格的影响，一直处于增长态势；终端具较高意愿用较高价回购后再出售。从零售终端角度来看，每个访问周期都会下单采购俏烟，几乎每种零售终端每个访问周期都会预定，每个终端平均需销售4包每天。2)紧烟：市场需求面较大，需求量较大；市场回购意愿低，降价一定会迎来需求增长，但涨价会抑制需求。每个终端平均每月约1.3 个订单，每日每户平均需销售0.8 包烟。3)平烟：需求面缩窄，需求量变小；订购频次明显减少，平均每2 个月下订单1 次；每终端每月大概需要销售1.5 条烟，每个月中有33%的时间各门店有销售，或任何时候三分之一的门店在销售该烟。4)松烟：市场细分明显，受众群体不大，需求频率缩小。订购频次变小，4个月才1次订购，终端2月才需要约0.6 条，每月约需3 包。任何时候，大约只有10%的终端需要该烟。烟品市场销售价值平均约5 万。5)软烟：受众群体非常有限，属于极小众市场，需求频率很小；终端4月才需要0.4条，每月约需0.6 包。任何时候，大约只有3%的终端需要该烟，许多品牌4个月中都没有1次被订购。

5 结论与展望

应用大数据方法，可取得全样本情景，样本数达到千万级；使用零售户的需求值来研究市场，而不以实际销售额(投放量)为基准，使得决策更能接近市场。本研究模型使用混合模型，首次定义了“俏紧平松软”五种状态，具有清晰的可辨别性特征。首先模型在大数据支持下，新增加了多个来自零售户的订购指标，形成了新的视角。第二，基于C5.0决策树算法，对衡阳地区全市场内的烟品进行“俏、紧、待评”三态预测，“俏紧”市场的划分基本满足二八规则，预测准确度高达97.8%。第三，就余下的“待评”卷烟基于两步聚类算法分三类，最后再基于C5.0决策树分类预测，根据销售平均价值来对应到“平松软”三态。聚类的轮廓值超过了0.5，预测准确度超过85%。实例数据表明，模型具有很好的应用效果，状态的划分基本以市场特征为基准，划分出的卷烟市场状态辨识度很高，并且可细分到“县城/城区、乡镇、农村”三种市场，并能发现之间的差异。从本模型获取的卷烟状态，可为投放部门提供精准投放的量化依据，对于提升烟草管控水平有重要价值。