王雄
提到“数据中台”4个字,很多人都会“不明觉厉”。有意思的是,国外并没有“数据中台”这个词,那么,为什么中国企业如此看重数据中台?中台是如何产生并被发现进而现价值的?这是一个值得分析的现象。
数据中台的重要性
不管企业业务规模大还是小、不管公司成立得早还是晚,或多或少地都会对数据进行投资,除了基础的数据系统建设,还包括数据湖、数据仓库等。但实际上,这些已有的数据投入并没有产生理想的业务价值。
为什么会出现这种现象?Gartner研究总监孙鑫一语道破,在他看来,企业已有的数据投入是割裂状态,有严重的数据孤岛问题。虽然,企业在后端已经部署了大量与数据管理相关的应用,但与前端数据消费者以及应用之间存在着巨大的价值鸿沟。
有些企业为了实现数字化转型战略目标,只是借用了数据湖概念,采购了交易型数据库、分析型数据库以及数仓等,并且会考虑未来几年实现云转型目标,或者说现在已经在向云化方向发展。但由于企业规模不同、战略目标不同、对数字化的理解不一样,它们对数据分析、数据库和数据资产的投入顺序也会千差万别。但相同的目标是,企业建立数据中台最直接的动因是希望让现有的数据投资产生价值。
然而,放眼市场,中国虽然有很多“中台生意”,但真正做数据整合的厂商却不多,当企业做了大量BI、数据库的工作后,才开始意识到ETL的重要性。尤其是大数据时代,随着企业数据量的持续增加,数据整合的需求变得越来越强烈。所以,数据中台解决方案的最首要任务是,通过数据整合实现数据的快速交付,并且还要找到真正可复用的数据,从根本上解决数据孤岛问题。
如何建立数据中台
建数据中台并不是一件容易的事情,失败的数据中台会给企业带来负面效果,这也是“数据中台干跑了很多CIO”的最重要原因。所以,在企业搭建数据中台之前,要多问自己几个为什么,比如,如何决定是否要做这件事儿,如果要做,最需要注意的问题是什么……
Gartner建议,企业在部署数据中台之前,先要从端到端的数据能力来评估,看看到底缺少哪一块,而不是盲目上一个中台。数据中台一定在“技术成熟度曲线”的顶峰,虽然不管是 BI厂商,还是数据库厂商都称自己提供的是中台解决方案,但作为选型决策者,一定要准确判断,找到能解决问题的厂商,有时候选型过程可能比部署还难。
另外,如何与业务部门进行深度沟通,也是上中台前要考虑的重要事项之一。因为,企业的数据大多与核心业务系统有关,比如ERP、CRM;然后再考虑如何建立数仓、数据湖,如果技术和业务不统一,这样的中台很难直击痛点,产生价值。
很多人都认为,数据中台是一个技术问题,其实更多的时候它是一种战略决策。尤其对于大型互联网企业来说,数据中台来自业务需求,业务部门希望对日益增长的数据进行有效管理,并利用这些数据指导决策。所以,好的数据分析团队应该是“联邦”关系,通过中央团队、中央IT人员,对数据分析进行延展,确保企业数据拥有强一致性。同时,还要联合业务侧的成员,一起关注快速部署与价值输出的问题。
值得一提的是,搭建數据中台,还要考虑以往数据资产投入产出比的问题。要知道,无论企业做不做中台,企业的业务量和数据量都在飞速增长,对于早已投入生产的数仓、数据湖的处理是企业在数字化转型背景下,必须要解决的问题。如果企业过去津津乐道的“数据资产”并没有与现有业务实现共享,这其实是数据中台在设计方面的“不完整”。如果企业把大量的时间都花在寻找数据上,而没有用在分析数据上,这说明没有在投资回报率(ROI)上得到更好的体现。
让数据中台建设为业务赋能,其实有很多相应的解决方案和实操工具。比如:通过元数据的自动发现,企业可以搜索到更好的数据,找到更符合企业业务情境的数据,并转化为企业智能生产的语意。换言之,通过智能搜索,可以让企业快速寻找到相关的数据源,让藏在各个系统中的数据更直观地送到用户手中,最终通过不断优化和演进,形成企业最核心的数据资产。
有哪些可落地的方案
有人可能会问,数据中台要想成功落地,有没有可参考的模型?
Gartner把数据分析或者说任何关于数据的投入,都分成了2个维度。一个是从数据的角度看(也是IT的角度),分为已知数据和未知数据;另一个是从问题的角度看(也是业务角度),分为“已知问题”和“未知问题”。
首先,很多企业建中台是为了复用数据,并且把这些数据放在数据资产库中,Gartner把这个数据资产库称之为数据目录,大多属于“未知的数据”和“未知的问题”。那么,问题来了,过去做的数据自检,难道不算数据目录吗?当然也算,只不过是IT导向,真正的数据目录,应该有业务部门参与,然后共同完善,实现业务语义的逐步净化。
其次,通过ETL工具实现数据整合,包括数据的批处理、数据的复制、流数据管理等,解决的是“已知的数据”和“已知的问题”。在数据整合过程中,要让业务侧用户有获得数据的能力,并产生实际价值。所以,数据中台要具备自助部署能力,这一点非常重要,决定了数据中台项目的成败。
其三,是数据虚拟化,这是很多数据中台解决方案或者产品欠缺的一点。所谓的数据虚拟化就是在数据还没有或不用物理位置移动的情况下,依旧可以在一个虚拟层进行分析和应用。一旦市场有了A厂商和B厂商的产品,企业想把这两家厂商的数据源整合到数据中台时,就需要通过数据虚拟化来实现,在虚拟层上完成可复用的数据能力建设。
基于这个模型,去选择所需要的产品和解决方案,结果一定不会太差。只是,现在很多人都在提数据智能,这一概念是怎么来的?数据智能化和中台有哪些相关性?
数据智能化和中台是什么关系
其实,数据呈智能化方向发展,还是和企业的业务变化密切相关。过去,企业的很多决策都由领导“拍脑袋”决定。但是,随着企业业务的规模化发展,业务决策不再是一个人的事情,而是由数据决定,需要几个部门共同决策。
更准确的说法是,在数据驱动下,业务决策不再仅是一次性行为,还要强调连接和连续性,要更具情境化。
如果用一句话总结,就是企业决策不再是“一码通吃”,而是需要把更多小决策关联起来,形成一个大决策。同时,前一个决策还会影响后面的决策,所有决策都要通过情境化的分析能力作为辅助。这时,以知识图谱为代表的产品,就成为数据智能化的重要工具。
至于,数据智能化和数据中台是怎样一种关系?也并不难理解,数据智能化提升了数据中台建设的难度。
企业在数据智能化背景下,数据中台建设也要顺应形势,满足更高要求。首先,中台要能够连接更复杂的数据源;其次,要能够根据用户需求,给出更具情境化的数据;其三,能以更连接、更连续、更快速的形式,给决策者提供想要的数据。
不管是交易型数据库、传统数仓、数据湖,还是云端数据存储,企业在数据端的应用非常丰富,构成了属于企业组织之上的一张虚拟的网。但是,虚拟化不应该只是单纯地把数据收集在一起,而是应该以更具情境化的工具或者方案(知识图谱)对数据进行编织。在数据编织过程中,不仅涉及每个和消费行为相关的数据,还包括元数据的管理与关联。
从某种角度来说,知识图谱或图技术的最核心内容就是以业务视角来关联数据,且数据存储是以点和边的形式实现。过去,企业的中台或者数据管理模式比较偏IT;但现在有了“图”能力,企业可以对各个领域的业务进行关联,通过建模来统一数据交互语言。这是从采集和连接的角度,来看待数据智能化带来的变化。
組装式数据分析给企业带来哪些价值
接下来的问题是,企业如何建立数据中台才能满足数据智能化时代的需求?Gartner认为,组装式数据分析架构是中台建设未来的方向。
组装式分析架构,是基于智能化的采集和连接,帮助用户实现自助式分析。
什么意思呢?就是当数据编织可以给用户提供合适数据,能够建立一些分析型应用的时候,企业便可以通过组装的形式把一个个和数据相关的产品直接整合,而不是每次都从零开始。所以,中台建设的最终目标,其实是让用户基于数据进行组装。
成功的数据中台,应该是一个组装型能力平台,带来的是一个个和数据分析相关的能力,而不仅仅只是数据的复用。企业可以通过自助式分析,找到可复用的数据分析模块,并以组装的形式构建符合业务需求的分析型应用。
具体而言,组装式分析架构的底层依赖于数据编织设计模式,上一层是企业已购买的类似于报表平台、分析工作站、自助式分析平台或数据科学平台,且这些能力平台被微服务以及容器化,以高度开放性确保用户上了中台后,可以获得组装式体验。
此外,组装式数据分析架构的底层,还会涵盖在应用开发过程中经常用到的一个概念———DevOps。随着企业应用搭建的加快,或者说建立数据产品需求的不断上涨、越来越多地把DevOps实践放到与数据相关的应用上,业内称之为DataOps。包括版本控制、持续集成、持续开发和CAID理论等,在智能数据时代同样适用,可以助力数据应用开发快速走向生产阶段。
毫不夸张地说,组装式数据分析正在重塑数据分析应用的未来,把数据中台提升到一个新的高度。