□ 文 郭晓韫
挖掘数据价值的四个基本步骤
□ 文 郭晓韫
纷繁复杂的数据在为决策者带来便利的同时,也对数据解读能力提出了更高的要求。许多企业已开始重新定义数据,在大数据的浪潮下开始把运营数据提升到一个前所未有的高度。
全球第一家信息技术研究和分析公司Gartner对大数据给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的意义不仅仅在于掌握庞大的数据信息,更在于对这些有意义的数据进行专业化处理之后产生的价值[1]。
先从一个具体的案例入手。维斯塔斯风力系统,依靠BigInsights软件和IBM超级计算机,对气象数据进行分析,然后找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成,大数据的落地大大缩短了决策时间。从上面这个简单的例子,我们可以抽象出数据落地的几个基本步骤:1、确定需要解决的问题;如上所述,找出安装风力涡轮机和整个风电场最佳的地点就是需要解决的眼下问题;2、判别关系,确定分析逻辑;对气象数据进行分析,气象数据能与安装地点优劣进行关联;3、清洗数据,深入判别关系,寻找数据的规律;对气象数据进一步挖掘分析;4、数据应用,验证效果,并不断循环改进。
如例子所述,现在仅需要不足1小时便可完成数据分析的工作,大大提升了效率,缩短了决策时间。而且此应用还是一个周而复始的过程,可以不断地进行验证、改进、提升。
现实中运用数据的地方很多,需要解决的问题繁简不一,都具备特定的场景。特定场景的应用方案,就是需要知道要解决什么问题,再根据这个问题展开,逐个击破,最后汇集到问题的原点,找到解决的办法,这样以问题为导向的数据应用才有意义,才可以做到在茫茫的数据海洋中不迷失方向。
在确定了需要解决的问题后,就可以着手把问题逐层分解,这时最常用的分析逻辑就是“逻辑树”的分析方法。所谓逻辑树,指的是一种思考的框架,将包含前提事件在内的问题,按照该问题相关的因素,细致拆分成小的问题。[2]
例如在分析业绩不佳时,通常都会对这个问题进行原因拆解。是无法提高每位顾客的销售额?还是无法增加新的顾客?还是宏观的市场大环境影响?在每一个问号的背后又可以继续分解,比如“无法提高每位顾客的销售额?”这个节点,我们可以思考是没有提高每件商品的价格?还是没有增加每位顾客的购买量等?然后先进行定性的假设判断,形成解决问题的基本逻辑思路。
当然,在复杂的市场环境里每个问题都存在着很多影响因素,有宏观因素、价格因素、销量因素、广告因素等,这些因素中有真的关系也有假的关系,有强的关系也有弱的关系,关系之间需要一张网把它们贯穿起来,这个就是分析的逻辑推导,但许多时候数据分析人员往往陷入只看数据,缺乏整体思维逻辑,所以分析逻辑是一个周密地解决问题的模拟过程,是讲一个好故事的基础所在。
明确了需要解决的问题,理顺了分析的逻辑,那么就应该按需清洗数据,通过数据深入挖掘再次分析因素间的关系,并进行变形寻找数据规律。我们也知道,绝大部分的数据单从表面上看,是很难看出关系的,必须要经过数据清洗才能更好地还原数据的本貌。数据清洗是一个过程,需要对缺失值、噪声和不一致性进行处理。而处理的关键,有一点往往被忽略了,那就是对市场的认知和数据逻辑上的理解,这个也是数据挖掘能力分水岭的关键之一。
一般来说,各种因素之间只要有关系,均会存在着最基本的两种形态,可以建立这两类模型来分析,一种是因果关系类模型(causal model),另一种是相关关系类模型(correlation model),这两者的区别很重要,不同的关系模型,在实际运用中解决的问题也存在着根本性的差异。因果关系模型告诉我们改变结果的办法和量级。相关关系模型虽没有直接告诉导致结果的原因,但对于结果本身是存在着关联性的,这种关联性也为实际的数据发掘提供了理论基础。相关关系模型最典型的例子就是购物篮分析[3]。购物篮分析就是运用了相关关系,让决策者知道哪些商品频繁地被顾客同时购买,从而在商品摆放时把关联的商品就近摆放,这已经有效地被运用于营销规划、广告策略或者分类设计等当中。以零售业为例,在零售领域监控客户的店内走动情况以及与商品的互动,将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助零售企业减少了存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。现今电商如淘宝、京东等,都会根据用户的浏览行为推荐不同的产品,这也是相关关系的一个很好的应用。
在深入判别了关系后,就需要顺藤摸瓜,寻找数据的规律,在这个过程中,也许就需要一些数据的变形,使得寻找规律更得心应手一些。举一个直观的例子,汽车数据研究公司威尔森曾对汽车价格数据与汽车的库存数据做过这样一个研究。在清洗分析完数据之后,他们发现对于汽车的成交价数据,由于受型号权重变化影响,加权成交价并不是一个很好的反映价格变化趋势的指标。这时就需要先设立一个定性的假设,假设他们之间是有关系的,但成交价格跟库存之间究竟存在着什么样的关系呢?威尔森在需求研发阶段便设计出6种不同的算法,最后经过反复讨论验证,设计出MMI(MoM Market Value Index)——以市值为基础的环比算法。该算法既能准确反映价格环比变化,又包含当前不同型号的权重信息,威尔森采用以下方式计算汽车库存深度:
这里有一个细节,就是基于对市场的认知,使用了上月末的库存,而不是本月末的库存,因为经销商往往会根据上月末的库存状况来制定本月的销售策略,因此采用上月末库存来计算库存深度更能反映经销商的库存压力。这一数据变形后可以清晰地展现出库存深度与价格环比变化存在显著的负相关关系,这也证明了之前的定性假设是正确的。那么接下来,就是量化这个定性的关系。如上所述,在寻找到合适的算法之后,通过正确合理的数学建模,可以把因素的变化量化出来,从而指导实际的决策,如上面这个例子,最终可以量化出库存深度变动,成交价格相应变化得出一个量化的值,这样就会非常直观地指导决策了。寻找因素间规律的方法很多,常见的建模分析多为统计学上运用的方法,如聚类分析、离群点分析等。
运用机器学习方法研究市场问题,现今已形成了新的学科方向,把数据应用于现实,需要做到理论、编程、统计建模、可计算思维四位一体。在应用层面,最广泛的方向就是为预测服务的例子。例如在德国,通过电网每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为用电量如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本,这种预测性的发掘也就是基于相关性模型。而在数据应用中,也是对模型和分析理解的一次验证,因此,数据的应用是一个不断循环迭代的过程,在大数据的分析中不断应用、验证、优化、再应用、再验证、再优化,如此往复。■
(作者单位:广州威尔森信息科技有限公司)
[1]段云峰,秦晓飞,大数据的互联网思维,中国工信出版集团,2015.10
[2]大岛祥誉,麦肯锡工作法,中信出版社,2014.12
[3]JiaweiHan,Mieheline,Kamber,JianPei.数据挖掘概念与技术,机械工业出版社,2012.8