车品觉
信息及数据的收集处理自古有之,几千年来变化不大,直到个人电脑的普及才开始出现了改变:首先是数据化的领军企业,包括谷歌、亚马逊、脸书及中国的百度、阿里、腾讯等带动了一波数据量级的增长,然后是移动应用和人工智能所引起的智能热潮,前述公司的高速发展都跟这些能力相关。再加上物联网的加入,让我们在不知不觉之间每天都在生产着数据,甚至消费着数据。如今可以说几乎全民都参与在大数据的生命周期之中。
然而,与几年前相比,大数据的结构组成很不一样了,因为需求的细分、终端的发达导致数据变得越来越零散。同时,数据安全的规管也改变了分享数据的形式和难度,汇聚数据的成本正在不断提高。由于数据的核心价值来自分享流通,因此成本效应成为企业及政府机构数据化的绊脚石。曾经有一段时间,阿里集团也为几百PB级别的云存储成本而担心影响企业收益。
数据中台建设刻不容缓
其实所谓中台就像厨房,因为不可能为每一道菜从头切菜、腌肉,有很多中间的工序其实可以預先及统一准备好,菜式可以有创意但类似的半成品可以标准化。试想一下如果每个阿里的App都有自己不同的流量收集及统计方法,是不是既浪费资源又难管理呢?事实上,当年阿里内部确实有三个不同的流量数据统计工具,后来迫不得已才统一起来。
近年来笔者作为国内一些市政府和互联网企业的咨询专家及顾问,都遇到过如何建立横向数据治理系统的问题。笔者发现,治理工作越早开展,成本越可控,否则难度就像有些企业高管开玩笑式自嘲那样:这不是开着飞机换引擎吗?
当初在阿里时,在企业飞速发展的过程中,我们发现数据使用面临着如下挑战:各部门低水平重复开发数据集,浪费了大量的存储和计算资源;数据资源缺乏沉淀机制,导致计算能力难以提升,进化低效;数据割裂,算法分离,带来混乱和质量的不确定性;业务变更时,数据及数据产品反应不及时;组织架构制约了数据的共建和共享;缺乏数据的规范及配套激励机制。
2016年阿里内部总结发现,数据的“汇—管—用”过程中伴随着如下一些现象:数字业务变化速度非常快,数据处理技术及方法都很类似,数据及算法中间层能量的积累能产生巨大效能。因此,做好数据治理工作成为当时笔者在阿里的主要任务,也随之诞生了阿里数据中台及数据委员会。
无独有偶,企业内一些数据治理问题,在各地市政府机构内部也重复在发生。如果缺乏顶层设计,数字化步伐都追随各个职能部门的发展,数据体系也基于业务单元垂直积累,就会形成烟囱式体系。垂直式数据体系的优点是紧贴场景、反应敏捷,缺点是数据分散、欠规范,难以共用关联成为合力,大数据价值优势被削弱。此外,烟囱式数据体系还会造成混乱的数据调用和拷贝,以及系统功能建设和维护带来的重复投资,不仅造成人力、财力、资源的浪费,更糟糕的是时间的浪费以及数据质量的参差不齐。在目前高速发展的互联网市场大环境下,商机是稍纵即逝的,数据中台的建设刻不容缓。
在认同大数据是未来创新核心的前提下,需要把数据战略的先进性、前瞻性放到优先考虑的位置。否则大数据的能力会随着粗放式营运而变得停滞不前,沦为有名无实;数据愈乱,建立大数据的能力门槛愈高,从信息化到数据化的时间节点都会影响治理难度。管理层必须理解,从信息化到数据化再到应用,必须有强大的技术支持、灵活的政策保障,以及开放的生态支撑,如此方可马到功成。
简单地看,数据中台有点像一条生产流水线,从原始数据收集到提炼成稳定的数据。在这一制作过程中,需要有一套生产管理流程体系,用以保证数据品质、时效性、一致性等关键点。但与生产流水线的差别在于,数据中台不仅需要关注数据生产过程中的效率问题,还需具备以下能力:一、收集数据被消费之后的反馈闭环;二、解决多源异构的数据组合的效率;三、具备业务发生变化时的快速自适应力;四、保障数据服务的稳定性。
连接和共享是数据中台的核心
在阿里有一个说法,关联不起的数据就不叫大数据。试想如果要让淘宝的推荐系统猜到你喜欢的商品,不能同时(甚至实时)关联起你在天猫看过或者买过的商品,结果肯定会大打折扣。由此可以看出你的购物及浏览清单关联得越多,就越有利于推荐你心仪的产品。
连接能力是一个数据智能平台的基础。连接指的是将不同来源的数据连接、匹配、融合的能力,让用户能连接到云端和本地化的结构化和非结构化的数据,包含支持不同类型的数据存储平台。这个概念不强调对数据的拥有,而强调能够触及和返回数据的广度及丰富程度。
共享能力是评估一个数据智能平台是否为合格的首要标准。共享不代表要完全的透明,而是构建一个合理的、区分权限的、能够保护数据,同时让知识的价值流转的机制。为了保护数据而不让算法或者从数据中得到的洞察知识流转起来,无疑是不合理的。因此一个数据智能平台存在的意义就是共享,同时保障不应该共享的部分。
数据治理是数据中台的起点
笔者曾经为不少企业做顾问,其中最容易让大家明白数据治理的重要性是这句话:有治理数据的企业在生产及加工过程中,可以节省70%的工作量。当中的道理很简单,治理的目的就是为了优化数据的生产过程。
数据中台围绕数据生命周期的各阶段(产生、存储、增强、使用、传输、共用共创、更新、销毁等)而建立,服务的对象可以是IT研发者、数据科学专家、产品经理、分析师、决策管理者等。使用者会因需要而加工数据,情况有点像石油提炼。
而数据生产过程中还有一种极其重要的数据,被称为元数据,又叫数据中的数据。对元数据管理得当,就可以让数据在生产过程中变得更精淮、稳定及可被追溯。元数据管理须记录生产过程中各项数据因素,包括生命周期、调度情况、品质保障、安全监控、数据字典、数据血缘关系等。元数据是数据中台的精髓,有利于数据在生命周期中的监督、成本管理或分摊、追踪数据价值。
因此,数据中台所需的第五种能力,就是建立一个协作平台,让整个数据的生产到服务更规范有序,可追溯,又化繁为简地把前面所提到的四种能力有机汇聚起来。这并非一件技术性的工作,大部分依赖于人的管理。
数据服务赋能快速创新
数据可以作预处理,帮助企业增加效能。算法当然也可以模块化,以作组合使用。不需要每个创新业务都从头开始,我们希望创新业务的人员可以更聚焦在业务工作上。
一切数据都是应业务目标驱动而形成的,产生于业务且又服务于业务。可以通过松耦合的数据服务带来业务的复用。例如淘宝和天猫有着各自的买家评价服务,但在防止刷屏的时候,会使用相同的数据模型鉴别虚假评价。所以尽管业务场景不一样,但很多基础数据模型及算法可以被重复使用。
经过清晰的沉淀,算法可以通过重新编排、组合,成为服务接口,响应业务的基本需求。由于具备快速编排、组合数据服务的能力,企业能以较小的成本投入来构建出一个创新的前端业务。这在传统模式构建的系统中是前所未有的,容许快速试错,是更加適合如今互联网的轻量化运营模式。
组织架构与配套激励机制
有一位市长跟笔者分享建立智慧城市的经验时说,不能想象一个被承袭了百年的组织架构会一下子适应新的智能时代,新时代必将带来种种冲击。好处未到之前,我们还得循循善诱。
任何完善的体系建设依靠的都不仅仅是技术工具,缺乏完善的组织结构及激励机制也不可能令中台顺畅运行。多年来的经验证明了技术架构和治理组织的建立同样重要,而近年来很多企业及政府也纷纷设立起独立的数据治理委员会。前面提到数据中台的核心理念是“以通促用、以用带存”,这里的“通”不仅是数据的联通,也关乎人为组织结构的联通,而且是横(功能部门之间)、纵(数据生命周期的各个环节)都要通。
与此同时,数据中台管理需要制定并形成有效的规范,让数据治理小组从实例中由下而上地提炼出大纲,并由固定团队负责推进、制定工作机制(互惠互利及激励方式)、优先资源配置等。
※※※※※
数据技术“中台”之所以成为攻坚大数据能力的重要途径,一是因为数据中台确实解决了烟囱式数据各自为政的问题;其次更有利于推动轻盈的前台业务创新,同时能把应用中的数据回流,形成更丰富的中台资源。数据中台作为推动数据化营运的利器,同时也能成为营运数据的中心(两者结合为闭环)。
根据多年的经验,笔者可以大胆地说,数据中台的建立刻不容缓:因为在大数据时代,业务与数据之间有很强的联系,但数据内容及结构更新速度非常快;数据算法上的技术很类似,但各师各法;数据质量人人都说重要,但必须明确由谁负责。
数据及其服务能力的汇聚与集中管控协同,很大程度上会促进企业一体化运维的能力。互联网大数据时代的中台特点是:一方面具备海量多源异构数据的整合能力;另一方面是促进创新且变化多端的业务前端服务能力。
大数据中台的建设及行业普及,如今还是摸着石头过河的状态,任何中台都是在不断互动回馈的过程中成长起来的,而非一次性搭建成功。但可以肯定的是,这是个“一把手”工程,必须秉持打破传统管理的决心,做好长期斗争的准备。