刘正源,王保鲁,刘凤坤
(1.中国纺织工业联合会 品牌工作办公室,北京 100020;2.北京服装学院,北京 100029;3.中国纺织信息中心,北京 100025)
数字化时代的到来,改变了人们的生活习惯和消费方式。在这个时代里,每个个体每天会产生大量的数据,包括出行、用餐、购物、娱乐、快递等日常行为的信息数据,加上物联网技术的快速发展,人们每天都生活在一张巨大的数据网里,据国际数据公司(IDC)预测,到2025 年,全球数据量将增至175 ZB。
与此同时,消费环境也发生着深刻的变化。物质不断丰富,产品两极分化;新冠疫情加快了消费线上化趋势;高利时代逐步转向微利时代。面对竞争愈加激烈且多变的消费环境,运用科学的手段支撑决策、指导经营和预判方向尤为重要。2011 年,IDC 和麦肯锡研究院对大数据的潜力和关键技术等进行了分析,指出数据为企业带来决策价值,将成为企业的关键竞争力。2015 年国务院颁布《促进大数据发展行动纲要》,2019 年十九届四中全会更是将数据列为一种生产要素。由此可见,大数据的重要作用和战略地位。
在纺织服装企业中,一个有效的服装供应链依赖于对高度波动的需求进行快速准确预测,企业可以运用数据分析,科学地在采购、研发、生产、销售等各个环节产生的数据中探索发现问题、分析问题、寻找规律、判断趋势、预测未来,进而提高企业库存、物流、产品、客户等方面的管理效率和整体收益。本文主要介绍数据分析方法及其应用场景,并举例说明数据分析在服装企业经营预测中的实践应用。
数据分析思维的本质是寻找事物之间的关系,两个与多个事物之间可能存在相关关系、因果关系,或者具备一定的敏感性,数据分析就是通过科学的方法,在一堆看似杂乱无章的数据中,寻找出变量之间的联系,探索业务背后的关联和变化背后的原因,进而对想要分析的问题进行描述或预测。
需要注意的是,具有相关关系的变量之间并不一定存在因果关系;因果关系有很多种形式,可以是一因一果,多因一果,一因多果,多因多果。
数据分析方法可以按照定性分析和定量分析来划分。根据分析问题的复杂性,通常情况下,分析一个问题,需要定量分析和定性分析相结合,如果数据条件比较好,可以以定量分析作为基础,支撑定性分析做出最后的决策。
常用的定性分析方法有:经验观察法、访谈法、德尔菲法、头脑风暴法等。
常用的定量分析方法有:机器学习算法,包括描述分析类的有降维、聚类、关联规则等,预测分析类的有回归分析、时间序列、逻辑回归、决策树、临近算法、集成学习、支持向量机、朴素贝叶斯、神经网络等;建模算法包括漏斗模型、卡诺模型、价格敏感测试模型、巴斯模型、对应分析法、协同过滤、对比测试等。
数据分析的应用场景非常广泛,如战略分析、经营分析和投资分析等。以经营分析为例,经营的主要目标是开源节流,开源表现在客户管理、产品管理和营销管理;节流主要指供应链,包括采购、生产和物流环节。以客户管理和产品管理为例,例举对应的分析方法如图1所示。
图1 客户管理和产品管理分析方法举例Fig.1 Examples of customer management and product management analysis methods
图2示出数据分析的完整流程。根据此流程,本文以某纺织服装上市公司年报披露的营业收入数据为例,采用时间序列的方法,预测未来收入情况。
图2 数据分析流程Fig.2 Data analysis process
本文要用到的数据为某上市公司年报中的公开数据,属于二手数据,直接到官网下载该公司近11年年度报告,查找并整理出近11年的各季度营业收入数值如表1所示。
表1 某上市公司近11年季度营业收入Tab.1 Quarterly operating income of a listed company in the past 11 years 亿元
通常情况下,数据预处理是个较为复杂的过程,涉及到缺失值填充,异常值处理等步骤,本文使用的数据全部来自上市公司年报,数据整齐,因此无需处理。
常用模型有机器学习中的监督学习和非监督学习算法,以及一些应用较为广泛的模型,如AARRR、RSM、PFM、KANO、漏斗模型等。本文案例是要预测收入,经典的预测模型有回归分析和时间序列算法,其中,时间序列适用于有季节(时间)波动、有趋势的事物预测,如销售、金融、股票、基金、成本、血压等。对于既有季节波动又有趋势的数据,可以选择时间序列分解预测法;对于只有季节周期波动的数据,可以选择时间序列Winter指数平滑法;对于只有趋势变化的数据,可以选择时间序列Holt指数平滑法;对于变化比较平稳的数据,可以选择时间序列简单指数平滑法。
图3示出该上市公司近11年季度营业收入变化。通过观察,可发现明显的季节周期波动和上升趋势,所以本文案例选择时间序列分解预测法进行分析。
图3 某上市公司近11年季度营业收入折线图Fig.3 Line chart of quarterly operating income of a listed company in the past 11 years
本文案例以时间序列分解预测乘法模型为例,进行预测,模型如下:
=×××
式中:为预测值;(Trend)为趋势因素,(Cycle)为生命周期,(Season)为季节因素,(Inregular)为不确定因素。
本文案例目标是预测2021年4个季度的营业收入,假设经济环境发展平稳,即暂不考虑不确定因素(如突发疫情影响),另外,生命周期通常情况下大于1年,所以也暂不考虑生命周期因素,通过对和的计算预测营业收入,即=×。
具体计算层面,常用的工具有Python、SPSS、Excel等,本文用相对基础的Excel工具简单列示基本原理和操作步骤。
基本原理:由于数据变化既有季节波动又有趋势变化,需要将2种影响进行分解,分别计算出和。对于,采用回归分析方法,即=+来计算;对于,因为一年4个季度,每个季度采集1次数据,即步长为4,所以要分别求出每个季度的季节因子、、、,具体步骤如下:
第1步:按照时间先后顺序,将所有数据排成一列,并标记好季节序号和时间序号,共计44个数据;
第2步:通过4项移动平均消除季节波动影响,再进行2项移动平均对数据进行对称处理,得到的40个数据(即)与原始数据前后剧中对齐,确保要求的季节因子与实际季度一一对应;
第3步:用对应的原始数据除以新得到的数据(即),得到对应的季节因子列;
第4步:用均值法修正每一年同一季度,得到4个季节因子值:0.97、1.60、0.96、0.91;
第5步:修正,使∑=4,得到修正后季节因子=088,=144,=086,=0.82;
第6步:用Excel进行回归分析,求的趋势方程,先用原始数据除以对应季节因子,得到没有季节波动的一列新数据,作为值输入区域,值输入区域选择时间序号(即1,2,…,44),然后选择置信度95%,输出结果如表2~4所示。
表2 回归统计表Tab.2 Regression statistics table
表3 方差分析表Tab.3 Variance analysis table
表4 回归参数表Tab.4 Regression parameter table
得到趋势方程=+=2948+0106,代入时间序号(即1,2,…,48),得到新的趋势数据列,共计48个数据;
第7步:将48个趋势数据乘以对应季节因子,得到预测值,前44个数据做模型拟合检验备用,后4个数据即为2021年4个季度的预测数据,分别是6.68、6.42、6.98、11.61亿元。截至2022年5月,该公司2021年4个季度实际营业收入分别为6.28、6.81、6.81、11.90亿元,与预测值相对误差分别为6.42%、5.77%、2.46%、2.45%,均小于10%,预测准确度相对较高,另外由于已知有新冠疫情影响,可根据实际情况参考以往灾害影响数据,增加不确定因素的干扰,使预测更准确。
用均方根误差来检验预测值同真值之间的偏差。偏差越小,模型拟合度越好,预测越准确,公式如下:
式中:为均方根误差;为取样点数目。
本文案例的均方根误差是0.615,偏差小,模型拟合相对准确。
可视化的原则是图优于表优于文,常用的图有:柱线结合图、条形、直方图、饼图、折线图、散点图、气泡图、雷达图、热力图、桑吉图等,本文用折线图为例,展示预测结果如图4所示。
图4 某上市公司近11年季度营业收入实际值与预测值对比Fig.4 Comparison of actual and predicted value of quarterly operating income of a listed company in the past 11 years
在企业实际应用中,需要展示的数据通常是繁多复杂的,通常使用Tableau、WordArt、E-charts等工具制作数据看板等形式进行展示。
任何决策都需要有事先预测,预测的科学性决定预测的准确性,文章通过梳理常用的数据分析方法,得出纺织服装行业作为强季节性影响行业,可以通过时间序列分析,得出相对准确的销售预测,进而指导采购、生产等产业链前端决策行为,有利于减少库存、提高资金使用率和周转率,进而提升企业运营质效。
除此之外,纺织服装产品具有周期短、单品多,且销售情况受市场喜好影响明显,这就要求产品研发提前预判和客户运营精准分析,企业可根据自身产品和客户的特点组合定制分析模型,开展数据分析工作。