以数据供应链路监控实现数据要素价值

2023-10-04 00:25刘亚贞
现代商业银行·管理智慧 2023年6期
关键词:检核血缘数据链

刘亚贞

在数字经济时代, 数据被誉为价值连城的“新黄金”。 今年3月,党的二十届二中全会通过了《党和国家机构改革方案》,提出组建国家数据局,这一举措将打造出“数据化国家队”,必将推动数据“新黄金”更加充分地实现数据要素价值,促进全民共享数字经济发展红利。数据要素作为全新的生产要素,已经成为商业银行业务发展的内生增长力,科学的数据治理机制和治理模式是发挥数据要素价值的基石。

2022年底,《国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《意见》)中指出,要压实企业的数据治理责任,在数据采集汇聚、加工处理、流通交易、共享利用等各环节,推动企业依法依规承担相应责任。《意见》对于商业银行全链路的数据治理能力提出了新的挑战。

本文旨在通过探讨数据供应链路为什么要建立、如何建立、如何监控,再进一步思考数据供应链路监控所依赖的平台支撑能力,为基于数据供应链路监控的数据治理提供思路。

为什么要建立数据供应链路

所谓数据供应链路,即数据供应架构中,从数据源到数据应用的数据加工传输路径。在多元异构的数据源完成数据采集之后,借助于实时高效的数据通道工具,将原始数据保存在数据湖中。数据处理模块相当于巨大的数据加工厂,由许多7×24小时运作的数据加工生产线组成,将数据湖的原始数据加工成数据成品或半成品,存放在数据服务组件数据库中。数据服务组件把数据成品或半成品,包装成数据服务,实现数据的企业级共享和复用,对前端应用即时赋能。以上从数据源、数据通道、数据湖、数据处理、数据服务组件,到数据应用的全流程,即构成端到端的数据供应链路。

在数据使用的实际过程中,往往存在以下痛点:一是数据线缺少端到端的全路径数据供应链路;二是缺少数据应用驱动的统一数据质量管理,数据质量检核异常告警没有与数据链路打通;三是缺少端到端的实时监控,各环节的监控结果没有与数据链路打通,数据延迟或者作业加工报错无法快速确定影响范围。

从业务分析视角看,大量的用户诉求和数据问题的解决依赖于“全域端到端的数据供应链路” 的建设。举例如下:

其一,数据问题溯源慢。当监管报送数据出现问题的时候,依靠人工溯源,问题定位难度大、耗时长,且往往只能局部解决问题,不能有效地进行根因分析,无法从根本上实现标本兼治。数据作业加工层级多、依赖关系复杂,依赖运维人员逐层逐个确认、解决,耗时长,影响监管报送时效,同时可能造成问题数据传播,影响其他数据应用。

其二,数据需求激活难。业务部门通过数据资产平台或数据字典等,只能查询到银行可用数据,不清楚数据来源于哪里,无法定位可信数据源;数据之间的关系理不清,不了解指标的加工逻辑,无法基于现有数据高效地提出数据应用需求;部分数据无明确保存期限,数据不断膨胀,作业加工效率低,数据流转慢。

其三,数据应用场景断点多。同一笔交易往往联动多个组件,每个组件记录下局部关注的要素和信息,难以实现跨组件数据的关联整合;难以构建完整的端到端数据分析应用闭环,“九龙治水”格局不利于数据整合利用与监控。

其四,数据运营难度大。数据供应监控缺少整体的监控管理视图,无法掌握数据供应架构中整体资源的使用情况;缺少数据的供应链路,在应急处置或者数据作业版本变更时,无法快速获取数据的影响范围。数据血缘不清晰,特别是数据加工层,加工环节血缘难以追溯,数据线运营最大的痛点就是无法确定异常数据的影响范围。

随着商业银行业务的快速发展,累积出越来越庞杂的业务系统,与此同时,数据也不再局限于某个数据库,某个业务系统,而是在银行内部广泛分布、流轉和使用,形成大量的数据加工传输链路。这种情况下,商业银行只有基于应用视角,构建全域、全链路的数据监控能力,才能够跟上国家数字经济建设的新步伐。

如何构建数据供应链路

过去,我们主要通过解析作业脚本获取数据血缘,部分脚本不能解析到数据项血缘,导致无法获取全量数据血缘。据了解,头部互联网公司的数据链路基于全面的元数据体系构建,粒度到数据项,数据血缘从元数据登记要素中获得。 综合来讲,全面数据血缘的获取,可以以健全的元数据要素登记规范为主要依赖途径,以解析采集日志、作业加工日志、代码脚本等作为补充途径。

1.基于元数据的数据血缘构建

提升数据血缘解析的元数据质量,为数据链路建立提供数据基础与质量保障。

(1)元数据登记全覆盖原则

全域数据的治理和应用需要完整的元数据提供基础支撑,因此元数据的登记对象应覆盖数据供应架构全域,元数据的登记对象包括贴源数据、数据组件数据、数据服务、作业进程、算法和模型等;元数据的来源模块包括数据采集、数据湖、数据处理、数据组件、数据服务总线等。元数据的各来源模块按照架构治理要求规范登记元数据信息。

(2)元数据登记全要素原则

在保证全域数据登记元数据的基础上,每类对象所登记元数据信息项完整,登记要素包括但不限于业务属性,如业务定义、业务规则、业务管理部门等;数据属性,如数据类型、数据口径、投产后时效性、前置数据等;管理属性,如查询次数、调用次数、最新投产时间、安全等级等;历史版本,如版本号、修改时间、修改人、变更方式等。以元数据为驱动,可以完善数据标准规范,落地数据血缘溯源能力。

(3)元数据事前登记、实时更新原则

为保证全域数据可查可用,提高数据质量,应按照在数据的配置和设计阶段定义元数据并登记的原则,建立事前、实时的元数据和数据血缘基础信息。对于数据湖数据,应在采集任务配置部署上线前,定义元数据,同步登记在元数据库,并实时变更;对于加工的数据,包括组件数据、算法和模型、数据服务等,在设计完成后,部署上线前定义元数据,同步登记在元数据库;当设计变更时,在变更部署上线前,完成元数据库的更新。

以上原则保证元数据与设计态一致,并保证实时性。设计态与生产态的一致性需要在开发和上线测试环节保证。“设计即编码”开发环境越完善,该一致性越容易维护。

2.基于数据血缘的数据链路构建

交易线通过“全局流水号”建立链路,数据线通过“数据血缘”建立链路。数据产品的加工规则要追溯到数据源,数据链路记录关键节点数据(包括数据源、数据湖、数据组件、数据服务等)之间的映射关系。数据链路的建立依赖于较好的数据血缘基础,数据血缘在数据设计阶段即生成,数据血缘可以通过解析组件数据的加工规则、数据服务的封装规则获得。基于数据血缘建立从数据源到服务调用的端到端的数据供应链路,针对数据表的异常,能快速确定影响路径和范围。

3.基于数据认责制的数据链路管控

《意见》指出,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制。对于商业银行的数据资产而言,建立一条数据含义透明、数据之间血缘关系明确、数据提供方和使用方登记清晰、各个节点数据有人维护的高速运转数据链路非常必要。具体来讲,就是贴源数据有负责人,加工后的数据(组件数据、数据服务、算法模型)有创建人;对各个阶段的数据按照一定的检核规则进行质量检查,检核出现的问题能溯源到责任人进行质量整改。

如何监控数据供应链路

从数据应用视角监控端到端的数据供应链路,将质量检核和运维监控结果反馈到数据链路上,并及时反馈给下游业务应用方。

1.节点上的数据质量检核

建立数据质量统一管理,并与数据链路打通。对数据采集、数据湖存储、数据处理、数据组件等模块提供的数据质量检核结果进行分类汇总,生成数据质量检核报告;解析数据质量检核报告,对于异常的检核结果,生成数据质量检核异常结果报告;通过已经建立的数据供应链路,解析异常数据的影响路径和范围,并发出告警。

2.链路上的数据运维监控

建立端到端的全流程实时监控,并与数据链路打通。对数据采集、数据通道传输、数据入湖、数据出湖、作业任务、服务调用等作业进行端到端的监控;任务失败后,需要将失败消息发送到运维平台进行应急处置;同时需要将任务失败影响到的数据表公布给数据供应链路,解析影响范围并告警。预警是基于基线监控,基线是动态的,由业务方提出能接受的最晚产出时间、业务重要性等级等,当执行某作业发生问题的时候,关键场景以电话告警 。

数据链路监控需要的平台能力

数据供应链路监控的实施路径方面,建议能够建立统一的数据管理平台进行数据链路的整合和监控,系统越多越分散,管控的难度越大。数据管理平台应包括两大功能:一是构建数据供应链路,基于数据血缘建立数据链路,保证从数据源到数据应用各个环节的数据透明化,实现全量数据资产的“数据全链路分析”, 满足日益增长的数据溯源需求;二是数据供应链路的运营监测,建立数据供应链路的全景监控视图,提供数据链路监控的服务与视图展示功能。

数据链路监控的核心还是数据管控,应实现统筹采集,项目级采集上升为企业级采集;在采集入湖之前进行检核,集中检核主数据;监控应该从系统运营上升为企业级运营。

作为商业银行数据治理的抓手,数据供应链路监控应基于先进技术和智慧数据,构建全面感知,精准运营的数据供应链路,提升数据的可用、可信、可流通、可追溯水平,为全面支持數字中国蓝图的实现贡献力量。

猜你喜欢
检核血缘数据链
从“检核”到“鹰架”
爱与血缘的较量
多平台通用数据链助力未来战场
高速公路工程项目实施中数据链应用探析
牛犊错牵难以要回 血缘鉴定确定归属
垂直荷载木结构大跨屋顶设计
基于深度学习的无人机数据链信噪比估计算法
一种无人机数据链信道选择和功率控制方法
检核目录法的研究与应用—以书架设计为例
福建省厦门第一中学黄建通老师:中学生创新思维课程引入“奥斯本检核表技法”