李鹏涛/文
大数据与智慧物流概述
——“大数据与智慧物流”连载之一
李鹏涛/文
智慧物流就是以大数据处理技术为基础,利用软件系统把人和设备更好地结合起来,系统不断提升智能化水平,让人和设备能够发挥各自的优势,达到系统最佳的状态,并且不断进化。
在“互联网+”的大环境下,智慧物流成为业界一致追求,智慧物流的基础就是大数据相关的技术。以大数据为基础的智慧物流,在效率、成本、用户体验等方面将具有极大的优势,也将从根本上改变目前物流运行的模式,“双11”就是典型的案例。
大数据的发展可以分为三个阶段。
首先是数的产生,早在公元前8000年,两河流域的苏美尔人将各种形状的小的粘土记号像珠子一样串在一起,保留记数实物来记数信息。
第二阶段是产生于近代的数据科学,是以统计学作为基础,一个重要的假设就是采样遵守独立同分布,其中很大的原因就是当时的技术对于巨量的数据无法进行计算,或者成本无法承受。2014年,随着技术的发展,特别是云计算等技术的成熟,巨量数据的计算存储都不再是问题,并且大数据应用显现出巨大价值的时候。
第三阶段,大数据时代就到来了。大数据时代的显著特征之一就是可以利用数据的相关性来解决问题,而不只是依赖因果关系,创新的数据应用开始层出不穷。而基于大数据技术的深度学习等人工智能的发展,特别是谷歌AlphaGo的成功,是个标志性事件,让我们更加认识到大数据技术可以突破人的认知能力极限,因此,一个真正革新的时代来临了。
大数据的价值不仅在于其原始价值,更在于数据之间的连接、大数据扩展、再利用和重组。例如,京东利用物流大数据加上用户交易数据,推出的移动商店就大受欢迎。另外,大数据开放对于提升整个社会的发展水平具有重要作用。大数据作为数字资产,可以重复利用,不像资源类的零和游戏,政府、协会等社会组织可以收集数据脱敏后对社会开放,为社会服务,创造出更大的社会价值。
图1:大数据的应用
图2:大数据应用场景的维度
京东商城依托物流的优势,快速崛起,目前已经成为自营B2C电商的领头羊。其整个物流系统日处理数量达到百万级,大促销期间甚至高达上千万,物流操作人员多达数十万,庞大的业务规模下,智慧化物流系统成为迫切需求。青龙系统作为支撑京东物流的核心系统,不仅保证了京东物流的准时高效,同时保证了极高的用户体验,在京东的不断发展过程中,青龙系统也逐渐为外界瞩目,从2012年研发版本1.0到目前的6.0的演进过程中,我们逐步认识到,以大数据处理为核心的系统是构建智慧物流的关键。
“大数据”的经典定义可以归纳为4个V:海量的数据规模(volume)、快速的数据流转和动态数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。从青龙系统看,每天处理亿级数据,具有海量信息的数据规模;支持快速的数据流转,实现了物流各个节点实时数据监控优化;系统处理各种各样的信息,包含了结构化和非结构化数据;数据具有极大的价值,如推动系统成本和效率优化1%,则可以节约上亿成本。因此,青龙系统具有显著的大数据特征。
我们在实战中认识到,把大数据转化为智慧系统,需要具备两个基础。
第一,业务数据化,并且具有数据质量保障。京东物流在青龙系统的支撑下,实现了所有物流操作的线上化,也就数据化,并且,对每个操作环节都可以进行实时分析,这就奠定了很好的数据基础。如果业务都是线下操作,或者系统无法准确及时收集数据,那么,即使数据量够大,缺乏关键数据和数据不准确,也会给大数据处理带来很大的困难。
第二,大数据处理技术,包括数据收集、传输、存储、计算、展示等一系列技术。青龙系统在数据处理技术上也踩过很多坑,最早我们用数据库生产库做一些数据的分析,发现很快性能就跟不上了,因为数据分析SQL(结构化查询语言)一执行,生产库性能急剧下降;随后又开始利用读库,并结合MQ(程序化交易平台),也就是操作数据库的时候,会发出一个MQ,数据分析处理系统接收MQ重新解析,但是也不能很好解决问题;最后,我们总结发现,作为传统的技术人员,我们是试图用OLTP(联机事务处理)的方法来解决OLAP(联机分析处理)的问题,这在方向上就存在问题。
最后我们总结发现,当做大数据应用时,首先是要分清企业的应用场景,至少需要考虑两个维度:一是实时性维度,大数据分析是秒级的还是离线的,也就是24小时以后拿到也没问题;二是一致性维度,即对一致性到底是什么样的要求,是否要求100%一致。由此可以划分四个场景。当企业重新做数据系统或者大数据应用时,肯定要考虑所用的业务场景到底如何,再加上数据量维度(从现在新系统发展来看,企业架构支撑业务两年发展已经足够)。这几个维度确定以后,从ETL(数据仓库技术)数据抽取到数据传输到数据存储,包括数据计算,技术相对来讲比较成熟了,从而可以选择合适的技术。
京东在大数据处理技术上也做了很多工作,现在对于实时数据、离线数据,都有完整的解决方案,这样对于青龙系统来讲,可以基于公司大数据平台,进行对应的实时数据处理和离线数据分析。大数据平台技术栈其实非常重要,因为它从技术上提供了一个基础数据质量保障。如果数据质量得不到保障的,那么后面所进行的分析就不靠谱;整个系统都是不可靠的。
传统物流系统的数据处理,也被称为BI(商业智能)分析,往往是事后进行的。而我们认为的智慧物流系统,不同于传统物流系统,它是以数据作为开始,数据的应用贯穿其中,并且是以数据为终点的一个循环上升过程。在可靠的数据源和处理技术基础上,我们就可以以大数据为基础逐步构建智慧物流系统,这个构建过程主要分为以下四步。
第一步,通过大数据技术准确及时还原业务,也就是及时准确地采集业务运行的数据,并分不同层次需求展示出来。业务日报、周报、月报等离线数据都是业务管理的基础,如果不能做到及时准确,数字化运营是无法进行的,更不用说智慧化了。
对于物流系统来讲,进行图形化展示非常重要,通常一图胜千言。在时间维度,实时展示各个节点的生产量,相邻节点间的差异,可以很好地把控业务。我们还发现,移动端的开发,对业务非常有帮助。物流是商品流、实物流、资金流、信息流的结合,因此,地理维度展示也非常有帮助。
图3:京东大数据平台架构
图4:单量建模预测
图5:数据决策模型
第二步,通过大数据评估业务。在大数据时代,我们可以依据社会化的数据,进行业务评估,并且可以利用互联网灰度测试的方法,进行流程优化的评估,这些方法可以让我们对业务有更深刻的理解。对于物流这种劳动密集型行业,利用实时数据进业内排名对现场也能起到很好的激励作用。
第三步,在对业务进行实时监控和准确评估后,利用大数据对业务进行预测。预测一直是大数据应用的核心,也是最有价值的地方。预测的准确度,也就是传统统计学中的置信度,是预测的一个重要衡量。大数据的预测,很多是利用到相关性,因此,完全准确的预测是非常困难的,如果应用对于准确度的容忍度越高,就越容易进行预测。对于物流行业而言,如果能够提前进行业务量预测,那么,对于资源调度等非常有意义,不仅能够实现更好的时效,而且能够避免浪费。
第四步,依托大数据进行智能决策。这很大程度上依赖预测的准确性和业务对准确性的包容性,这样可以得出四个象限,对于预测准确性高并且包容性强的业务,越容易实现智能决策,目前最好的方式依然是人机结合,能够利用大数据和人工智能的技术,为人工提供辅助决策,让人工决策更加合理。当前,基于大数据的深度学习技术,在人工智能领域取得突破,例如谷歌AlphaGo的案例,从而为智能决策提供了非常大的想象空间。
具体分成了两个维度,一个维度是构建系统的难度,另一个维度则是构建系统的价值。首先,要选择应用场景,选择合适的大数据技术架构,把数据质量能够做好。然后,要对业务进行分析,第一步主要进行业务还原,包括业务节点,环比、同比,环节差异,最好用图形化的方式展示出来。之后可以进行下一步,做业务评估,评估业务健康度,这也有很多的方法:如同比、环比,以及和业界平均指标对标的方法。如果能通过大数据做到和友商实时对标,就能发现自己的薄弱点,从而进行改进和优化,优化后再将系统指标运行一下,检验是否真的改进了;利用灰度的方法,也可以对业务改进进行效果评估。大数据最核心的是预测,业务负责人如果能够提前知道业务情况,现场的管理就能处理得更好。再往上走就是业务决策系统,Google的AlphaGo就是一个典型例子,但是实际的业务可能更加复杂。
在大数据技术和物流大数据本身的保障下,我们可以开展多种应用,如从物流网点的智能布局,到运输路线的优化;从装载率的提升,到最后一公里的优化;从公司层面的决策,到配送员的智能推荐等,从点到面,逐步提升智能化水平,智慧物流将显示出在效率、成本、用户体验方面不可比拟的优势,我们会在后面的连载中进行深入解密。
总结起来,我们认为智慧物流就是以大数据处理技术为基础,利用软件系统把人和设备更好地结合起来,系统不断提升智能化水平,让人和设备能够发挥各自的优势,达到系统最佳的状态,并且不断进化。
智慧物流作为一个新的社会基础设施,一端连接着消费者,通过满足消费者更加多样化的需求,提供更好的消费体验,不断促进消费升级;另外一端连接着供应商,使得供应链深入优化,所以智慧物流向前发展,有着广阔的前景,我们将看到越来越多基于大数据的精彩应用。
作者为京东商城运营研发部总监