魏文术 王彦博 姚宏宇 倪光南
2021年11月1日,《中华人民共和国个人信息保护法》正式施行,标志着我国的隐私立法时代正式开启。同时,随着数字经济的发展,数据要素重要性的确立与数据基础设施、数据法律法规、数据交易生态不够完善之间的矛盾日益凸显。面对越来越严格的合规与监管,特别是数据安全、信息保护、个人隐私保护等法规和技术标准的逐步健全,原来野蛮生长、明文传输个人隐私数据的大数据服务模式出现断崖式阵痛。
在隐私立法时代,隐私计算相关技术应运而生,该类技术主要关注数据资产的可用性、可见性和可得性,以可见性为例又分为可见、不可见和适度可见。在数据“可用、可见、可得”的情形下,对敏感信息进行自动分类分级的智能识别技术尤为关键。针对数据“可用、不可见、不可得”的情形,视数据用途为信息加工汇总或机器学习建模的不同,可选择采用多方安全计算(Secure Multi-Party Computation,MPC)或联邦学习(Federated Learning,FL)等技术方案;针对数据“可用、适度可见、不可得”的情形,除了普遍采用的可信执行环境(Trusted Execution Environment,TEE)技术方案,数据虚拟化技术(Data Virtualization,DV)也是非常有效的解决方案。
随着数据规模的扩展、数据复杂度的提升和数据多样性的增加,业界对数据资产管理的要求进入了一个全新的高度,传统的数据处理技术面临严峻挑战。对于企业和机构而言,亟须一种可以融合数据、整合资源、消除数据孤岛的技术来满足业务发展需求。数据虚拟化可以在不考虑其物理存储或异构结构的情况下访问数据,通过数据视图及权限控制“按需”提供数据、参与计算,同时,源数据依然留在原处,能够满足在实际应用中对数据“可用、适度可见、不可得”的需要。本文立足于商業银行视角,深入研究数据虚拟化技术及其在商业银行领域的应用,以期助力商业银行在隐私立法时代下的数据资产管理升级。
数据虚拟化技术概述
数据虚拟化发展历史
数据虚拟化一词最早出现于埃里克·布劳顿(Eric Broughton)在2005年发表的论文中。数据虚拟化的历史与数据处理技术密切相关。在数据处理技术的历史中,前后经历了三个主要的发展阶段:1.0阶段,即“计算机时代”,业务发展逐渐形成大量需求各异的数据处理场景,出现了基于不同组织形式的多种“数据库”技术;2.0阶段,即“网络时代”,数据体量及复杂度呈现爆发式增长,传统的数据库技术捉襟见肘,随之发展了数据库集群等大规模分布式处理技术,同时针对不同类型的业务需求,出现了更多专项高效的数据处理技术,如MPP、Hadoop、数据湖等;在当下的3.0阶段,即“数据时代”,随着业务数据体系的极度膨胀,数据变得越来越复杂(多源、异构、跨域),每个应用有效使用所有数据变得越来越困难。如何能够高效可靠地处理多环节、多体系间高动态、强关联海量数据,形成有效的技术解决方案,已成为金融企业成功转型的关键。
数据虚拟化是随着数据处理技术的时代演进而必然出现的一种数据处理技术,是数据处理3.0时代的高阶版本。该技术使金融业务能够实时访问、管理、集成和聚合来自不同来源的数据,既不受其物理位置或格式的影响,也不必关心底层的复杂性,因而受到了金融业机构的广泛关注。
数据虚拟化工作原理及优势
国际数据管理协会(DAMA)数据管理知识体系(DMBOK)对数据虚拟化的定义如下:“数据虚拟化使分布式数据库以及多个异构数据存储可以作为单个数据库进行访问和查看。数据虚拟化服务器不是使用转换引擎对数据执行物理ETL(数据仓库技术),而是虚拟地执行数据提取、转换和集成。”图1展现了数据虚拟化与数据源、业务分析之间的关系。
数据虚拟化允许在一个视图中集成和聚合来自不同物理位置和不同格式的数据,无需将数据移动到中央存储器中。虽然所有数据都保存在源系统中,但数据虚拟化创建了一个虚拟层,以支持实时访问,并可以对其进行操作和管理,在虚拟视图中转换数据。数据虚拟化的核心是虚拟层,无论数据是在本地还是在云中,它都能使数据或业务用户独立于其格式、源和物理位置来操作、连接和计算数据。虚拟层还允许在不同的虚拟模式和虚拟视图中组织数据,用户可以使用其业务逻辑轻松地丰富源系统中的原始数据,并为分析、报告或自动化流程准备数据。
与传统ETL工具等简单的数据存储复制器不同,数据虚拟化通常不会持久化地来自源系统的数据,只存储元数据以提供虚拟视图,并支持创建单个集成逻辑,从底层源系统实时获取数据,并将集成的数据实时交付到任何前端或应用程序。与传统的数据处理技术相比,数据虚拟化技术具有以下三大优势:一是数据“可用”,数据虚拟化提供了对数据长度和广度的无缝触达,并允许快速原型化,进而给企业和组织带来高效的解决方案,加快和改善决策过程,提高业务敏捷性;二是数据虚拟化隐藏了数据环境的复杂性,使数据工程团队在更短的时间内完成更多工作,且数据源或前端解决方案的变更不会导致昂贵且复杂的重组,因而易于使用,能在降低成本的同时带来更高的扩展性,实现敏捷开发;三是借助新增的数据管控策略及用户和权限管理,数据虚拟化实现了统一且安全的数据治理,保障数据“适度可见”,在数据可用的同时“不可得”。
面向数据资产管理升级的银行数据虚拟化
作为典型的数据密集型行业,银行数据虚拟化技术可有效解决数据所有者与数据使用者之间的鸿沟。
数据“可用”——模式归并和多模式协议解析
在银行的分布式数据系统中,众多数据库可能采用相同的模式存储,也有可能采用不同的模式存储。对于采用相同的存储模式,可能有多个存储销售数据或交易数据的数据库,每个数据库存储一组租户或一个地区的数据,数据虚拟化技术可以检测各个系统中的数据模式,并使它们在数据虚拟化过程中以单一模式出现,这个过程就称为模式归并。对于不同的存储模式,数据虚拟化技术通过多模式协议解析实现统一的数据访问。例如,通过SQL协议解析引擎,将输入的SQL语句解析成各数据库的方言,由各数据库处理和执行,处理结果返回给虚拟化层,合并后返回给应用。通过模式归并和多模式协议解析,数据虚拟化技术使多源异构数据变得可用,进而有效支撑金融业务场景。
数据虚拟化技术通过适配每个数据源的处理能力,在每个数据源的实际存储位置访问数据,可以避免移动和复制数据所造成的延迟,在对数据实时性要求较高的应用场景如欺诈检测中,这一能力非常关键。此外,所有存储库数据都可实时访问,并执行数据质量校验,基本上消除了监管问题以及数据出错问题,可快速完成风险报告与分析。
数据“适度可见”——全景视图和跨数据资源协同计算
针对数据“可见”,数据虚拟化技术支持对不同类型的数据系统进行关联查询,例如通过一条SQL语句对存储在Oracle数据库、MySQL数据库以及Hadoop中的数据进行分析。由于不需要抽取、转换和加载(ETL)以及复制数据存储,所以能够加快处理速度。与迁移数据的方法相比,该流程能够更迅速、更可靠地為决策应用或分析人员提供实时访问能力。此外,数据虚拟化技术还可以与数据迁移的方法进行互补,因为有时候出于历史记录、归档或监管的目的,仍然有必要复制和移动一些数据。
数据虚拟化技术可提供精巧的视图定义工具,支持针对不同类型而且可能分布在不同地理位置的数据库定义全局逻辑数据库和逻辑数据视图,如图2所示。
数据虚拟化技术还可以通过可视化图表的形式展示数据资源总览信息和分类统计信息,如图3所示。
为了实现数据“适度可见”,数据虚拟化技术在原有数据管控的基础上叠加了一层数据管控策略,保证需要参与跨数据资源协同计算的数据可见,而其他无关数据则不可见,并且不同的计算和不同的数据消费者可见的数据也不同,真正实现了“按需可见、适度可见”。
数据“不可得”——数据不搬家
银行业具有天然的数据禀赋,但数据产权归属也具有天然的复杂性。一方面,产权主体多元,在数据从收集、流转到加工并沉淀为数据资产的过程中,会产生大量衍生数据,而衍生数据资产的主体往往与原始数据主体不一致,造成数据产权边界不清。另一方面,数据资产存在产权交叉的情况。以银行交易数据为例,数据既来源于客户的交易行为,又由银行的信息系统产生,产权交叉增加了数据确权的难度。而在监管和合规越来越严格、个人隐私保护等法规逐步健全的情况下,数据“不敢给”的情况日益加剧,当“数据是重要资产”成为社会共识后,数据“不愿给”也成为司空见惯的现象。
针对这些困境,数据虚拟化技术可将所有数据源连接到一组虚拟的能够实现自我平衡的数据源或数据库中,不需要将数据复制和存储到集中位置再进行分析查询,如图4所示。
在数据虚拟化技术的支撑下,分析应用提交的查询,在数据源所在的服务器上处理分析工作,查询结果合并到群集中,并返回给原始应用,因此不需要复制任何数据,数据始终保留在数据源中,能在数据“不搬家”的情况下实现数据“可用不可得”,从而有效保障数据所有权与使用权的分割与安全。
数据虚拟化在商业银行中的应用
银行数据虚拟化应用“SAFE”框架
在数字化转型过程中,银行的开放经营模式是数据安全问题增加的原因之一。银行数据中包含大量的个人隐私和商业秘密信息,如果银行自身的数据安全管理能力跟不上数字化转型的节奏,大概率会导致数据丢失或泄露的风险增大;开放银行的发展将银行自身与互联网生态相融,与外部机构的沟通日益紧密,在一定程度上加剧了数据安全隐患,开放模式下的数据流转路径更加复杂和难以控制,加大了银行对数据管理边界定义的难度;在互联网生态环境下与外部机构进行数据互通,有可能导致银行被外部机构的数据安全问题所累;合规与监管机构的政策使得银行在数据治理方面投入大量人力、财力、物力成本,以降低数据安全、隐私及合规的风险。
在商业银行中存在诸如核心业务系统、信贷管理系统、财务系统、ECIF等成百上千个不同类型的操作型系统,为了实现全行统一的数据存储及分析,各商业银行普遍实施了数据仓库平台项目,以汇总银行内部各交易系统的数据,并进行清洗、转换、统一存储,用于行内数据统计与分析应用。然而,随着银行业务的发展壮大和数字化进程的加深,数据源也在不断扩充,各种结构化、非结构化海量数据蜂拥而至,与第三方外部数据的交互需求也逐渐增多。数据应用的时效性、复杂性和安全性面临着巨大挑战。
与其他解决方案相比,数据虚拟化相对容易实施,因为它以现有形式适应现有基础架构。由于数据从各系统实时提供,例如事务处理系统和基于云的存储系统(集成通常非常耗时),因此数据虚拟化技术的应用面更加广泛。基于商业银行应用实践,本文针对银行数据应用面临的难点,结合虚拟化技术创新提出“SAFE”框架,即监督监视(Supervision & monitoring)、告警提醒(Alerting)、编织查询(Fabric & query)和交换数据(Exchange of data),具体内容如下。
监督监视(Supervision & monitoring)。为了更好地支持实体经济,促进产业生态繁荣稳定发展,某商业银行基于产业链和生态场景交易,为产业生态的参与主体提供信贷、结算等场景式的产业数字金融服务。在基于生态交易的信贷风控过程中,产业链上交易数据的监测和真实性验证需求尤为迫切,传统依赖API数据接口传送的方式面临着数据安全以及传输量大、及时性无法保证等问题,很难满足业务需求。基于数据虚拟化技术平台,在产业端可开展一系列操作监测、异常监测、数据交叉验证等,保证在数据不出库情况下的可用性。
告警提醒(Alerting)。在产业数字金融服务场景中,在产业端开展的操作监测、异常监测、数据交叉验证,须同时基于数据虚拟化技术平台配置相应的告警提醒规则,一旦出现问题需及时触发告警提醒,以便于业务人员第一时间采取相应的风险应急处置措施。
编织查询(Fabric & query)。数据查询被广泛应用于各种业务处理类系统,为操作人员提供全面、精准、即时的查询结果。通过数据虚拟化技术,可以构建统一的数据访问服务与标准的数据访问接口,隔离应用与数据库的直接连接,实现全业务数据的便捷查询,将原本基于数据复制的业务集成方式变为数据共享使用方式,结合统一数据模型和主数据,消除数据冗余,提高跨专业数据一致性与时效性,以此提高数据安全性、提高效率、减少资源浪费,以便快速、简易、全面地使用数据。
交换数据(Exchange of data)。由于商业银行在不同项目建设过程中采用不同数据存储技术,导致不同业务应用系统产生了众多数据孤岛,不利于统一使用数据。基于数据虚拟化技术,可实现跨域异构数据的数据交换,避免陷入各类数据系统的选型困难,减少决策成本;解决业务应用间ETL采集带来的诸多适配开发工作,以及因ETL开发导致的数据访问时效性问题,大大提高了业务系统开发的效率。
全面高效支撐金融数字化核心能力
据相关数据显示,银行业每获得100万美元的收入,就会产生约820G的数据量,数据产生量居于各类行业之首。随着各类银行数字化转型速度的提升,数据资产管理的相关工作也在稳步开展。数据资产管理的核心挑战之一是数据规模激增、结构更复杂,其次是数据呈零散式分布,这些问题给数字化转型和业务敏捷响应造成了障碍。值得关注的是,金融运营环境充满了不同的数据源,包括多个数据仓库、数据集市和数据湖。数据虚拟化可以有效地跨数据仓库、数据集市和数据湖连接数据,无需创建全新的集成物理数据平台,而现有数据基础架构也可以继续执行,其核心功能不受影响。
遵循数据虚拟化技术应用“SAFE”框架,银行可以考虑的一些关键功能和业务场景,包括但不限于以下十项:一是风险报告分析;二是流动性管理;三是客户报告和CRM;四是客户倾向分析和追加销售;五是多渠道使用情况集成分析;六是社交媒体集成;七是个性化市场营销活动;八是个性化定价;九是欺诈检测;十是合并/迁移/整合和现代化。想要成功实现数字化转型,银行须改善以上十项能力中的一项或多项,但传统的数据治理和数据使用已经跟不上业务快速发展的节奏。
借助数据虚拟化技术,银行机构可获得极为详细的全面视图,以了解客户不断变化的需求和行为,可通过集成来自多个来源的数据改进客户报告,借助及时的财务情报作出更好、更明智的定价策略,以及适用于整个组织的统一实时风险视图,获得更有效的欺诈检测以及实时和历史交易数据。
数据虚拟化带来的效率十分惊人。国外某银行借助数据虚拟化平台,将报告时间从使用静态报告所需的一周时间,缩短到只需几分钟即可完成交互式自助服务报告,可供贷款、存款、欺诈、信贷和风险部门的业务用户使用。借助数据虚拟化技术,在传统数据资产管理中可能需要一年才能完成的数据集成工作,现在只需要数月即可完成,方便业务用户随时掌握不断变化的数据源,确保数据及时、准确地提供给报告系统,并按业务线、区域、资产类型、行业或法人实体等维度无缝汇总数据,支撑业务发展需求。
结语
数字经济时代,数据已经成为全社会重要的生产要素之一。随着《中华人民共和国个人信息保护法》的正式实施,数据隐私保护的概念也被提升至一个全新的高度,重要数据的泄露可能成为导致企业经营失败的原因之一。企业和机构对数据的需求增大、对数据可用性、安全性的要求提高,传统的数据资产管理技术难以应对海量数据的处理。因此,数据资产管理转型升级的重要性日益凸显,数据虚拟化技术能够满足在实际应用中对数据“可用、适度可见、不可得”的需要,且过程简化、安全性高。
数据是科学,数据是资产,数据也是服务,既属于科学世界,也属于生活世界。隐私立法是对科技伦理的战略回应,而在隐私保护框架下的数字世界,正遥相呼应着100多年前胡塞尔对西方科学危机的预警——在科学的世界产生之前,其实有一个生活的世界。
(华夏银行股份有限公司信息科技部张彦超、贾蒴以及龙盈智达〔北京〕科技有限公司杨璇、张月、高新凯对本文亦有贡献。)
(作者单位:华夏银行股份有限公司,龙盈智达〔北京〕科技有限公司,北京友友天宇系统技术有限公司,中国工程院)
责任编辑:孙 爽