浅谈企业数据流通风险管理框架的构建

2024-05-14 13:27黄超贾宇航李克鹏代威梅述家

信息通信技术与政策 2024年4期

黄超贾宇航李克鹏代威梅述家

(深圳市腾讯计算机系统有限公司,深圳 518057)

0 引言

国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出[1],要激活数据要素潜能,解决数据流通机制不畅、应用潜力释放不够等问题。数据流通是推动数据要素市场化配置的关键,但是目前数据流通正面临严峻的挑战和困难。如数据提供方因担心风险而不愿提供数据、数据需求方因担心风险而不敢使用数据、管理方因担心风险而不能放松要求、个人用户因担心风险而不愿其他主体使用其个人信息等。因此,如果无法有效管理企业数据流通风险,就无法真正让数据合规、高效地流通。

1 数据流通风险管理

1.1 风险要素概述

企业要管理数据流通风险,需要了解几个核心要素及其之间的关系(见图1)。风险会影响数据流通的意愿及效果,可以通过加强保护措施来降低风险,促进数据流通。在数据流通风险中,合规和安全风险是目前最大的挑战。在实施保护措施时,虽然保护措施越强意味着风险越低,但是也会带来更高的实施成本和更低的流通效率,因此需要找到成本和效率之间的最佳平衡点。

图1 企业数据流通风险要素关系图

1.2 企业数据流通风险管理框架

本文提出了一种企业数据流通风险管理框架,用于有效识别数据流通中的相关要素及其风险,并对风险进行分析和处置,从而降低风险发生的可能性以及发生后的损失,以加强数据流通各个主体之间的信任,为数据的合规、安全、高效流通提供保障。

如图2所示,整个管理框架分为1个管理原则和4个管理层次。其中,管理原则中的安全合规是基础,应确保数据流通中涉及的数据内容、流程、操作等合法合规;数据要素具备很强的时效性,因此对数据流通风险的管理要动态且有效;数据流通的任何环节出现问题都可能导致严重后果,因此需要对全流程进行穿透式风险管理;最后,需要鼓励和支持数据流通中的新技术、新业态创新,关注数据流通的约束和创新的矛盾性,在一定安全保护的基础上寻找最优的流通效率,达到成本和性能的平衡,才能使得数据流通工作可持续[2]。

图2 企业数据流通风险管理框架

4个管理层次遵循经典的风险管理理论[3],即资产识别、风险识别、风险分析、风险处置和持续改进,具体到数据流通场景则包括流通对象识别、流通风险识别、流通风险分析和流通风险处置。其中,流通对象识别涉及流通资产识别和流通活动识别。流通风险识别主要针对数据流通中法规、标准中涉及的合规风险,以及技术和管理方面的安全风险。流通风险分析包括对各要素的风险分析、对个人信息风险分析以及对企业已有风险保护措施的分析。流通风险处置主要包括对风险保护措施的增强以及对评估后的残余风险接受。

2 企业数据流通关键对象识别

企业数据流通关键对象的识别如图3所示,数据流通的关键要素主要分为资产、活动两大方面。资产又可以分为流通需求、数据资产、流通主体、支撑环境等;活动主要是指在数据流通过程(各环节)中涉及的各项任务/操作的集合。企业数据流通风险管理的核心是盘清涉及的所有资产和活动,识别和分析针对资产和活动的风险隐患,提出与保护措施相关的建议并落地实施,不断减缓风险,让数据在安全合规的基础上流通更加畅通。

图3 企业数据流通关键对象识别

2.1 数据流通资产识别

流通资产识别包括流通需求识别、数据资产识别、流通主体识别和支撑环境识别。流通需求识别内容主要包括数据流通的原因、背景和应用场景、模式和方法等;数据资产识别主要识别流通数据的具体字段、规模、敏感程度、状态(原始数据、中间数据、结果数据)、类型(数据库表、文件、数据服务应用程序编程接口(Application Programming Interface,API))以及元数据等;流通主体可以分为数据提供方、数据需求方、数据流通服务平台方、管理方、个人用户等;支撑环境识别内容主要有支撑数据流通的业务和信息系统、工具、服务等,具体可包括数据流通的审批流程系统、合规评估工具、数据脱敏工具、审计工具、数据建模分析平台、访问数据的终端设备等,这些支撑环境可能存在不同维度的脆弱性,在威胁源的利用下可能导致不同的风险。

在流通主体识别中,各主体存在不同的数据流通职责,且主体之间相互配合,共同完成数据要素流通的目标和任务。具体来看,数据提供方在流通前需要采集数据并对采集后的数据进行预处理,如数据脱敏、数据去标识化、信息匿名化/假名化等,保障流通前数据合规、可流通,并且需要对数据进行声明和注册,确保数据的合法性、准确性和可追溯性;在流通中负责数据开发以及数据发布的工作,即将数据发送传输至数据需求方;流通后对数据进行加工,支撑联合计算或建模,并监督整个数据流通合作合约落实情况。数据需求方在流通前需要进行流通需求申请以及安全措施声明,并与数据提供方签署数据流通合作合约;流通中进行数据接收,包括数据接入、数据存储、第三方申请等;流通后对数据进行加工处理,如联合建模、应用,并确保数据安全保护以及使用后数据的及时销毁和删除。数据流通服务平台方负责流通前的数据流通目录维护,流程评估/审批工具的支撑以及流通环境的平台支撑;整个流通中,数据提供方、数据需求方、数据流通服务平台方需要保障整个数据流通中订单履行的正常实施。管理方需要对整个数据流通进行合规评估和监督,在流通前需要需求评估以及合规评估,并进行合规审批工作;在流通中需要对流通进行监督审计以及算法、模型、传输的监控,确保数据流通实施过程合规,避免出现流通过程中的新增风险;流通后做好事后的监督审计,包括交易审计、合同约束、操作审计等。个人用户在流通前需要对涉及用户的个人数据进行用户告知和授权同意,并对整个流通中和流通后的数据进行监督。

2.2 数据流通活动识别

数据流通活动可以细分为流通前、流通中和流通后三大过程中的各项数据处理任务/操作。本文针对不同的流通主体,分析梳理了其在三大过程中的活动,形成活动集合。例如,数据提供方在流通前需要开展数据采集和预处理、流通数据声明/注册、保护措施准备、数据流通合作合约签署等活动;在流通中需要进行数据开发(针对要流通的数据做筛选、预处理等)、数据发布(将数据传输到目的地)、联合建模(如利用联邦学习的方式,数据不出本地域进行建模分析)等活动;在流通后需要开展数据审计、合约落实监督等活动。其他主体(数据需求方、数据流通服务平台方、管理方和个人用户)的活动可详见图3。

3 企业数据流通风险和保护措施

如表1和表2所示,本文识别并分析了数据流通中的相关风险,总结了企业数据流通风险和保护措施。表1和表2可用于指导企业内外部数据流通实践,促进企业内外数据流通的合规、安全和高效。本文从流通主体、数据资产、流通需求、支撑环境4个维度全面识别了数据流通涉及的流通风险,并针对每一个风险给出了保护和控制措施。

表1 企业数据流通风险识别与分析

表2 企业数据流通风险和保护措施

3.1 流通主体

流通前,签约主体不满足资质要求(如失信、缺失相应牌照等)时,通过主体资质审核避免主体资质安全风险。同时,各相关主体分工职责需要明确,如数据提供方需要保障数据来源的合法性、数据提供方需要保障数据服务的可靠性。

流通中,流通主体存在身份安全风险,比如主体身份存在被攻击伪造、密钥管理不当等风险。通过对主体身份进行进一步认证以及合约校验的方式保证流通主体的合规。

流通后,流通主体需要及时履行合约要求,通过完善主体履约监督机制,保证数据流通后业务的正常运转以及合规,避免主体有/无意识的数据泄露风险,数据需求方未经允许不能进行数据的二次转售/超出范围使用。

3.2 数据资产

流通前,管理方需要对企业数据源的合法性进行风险判别,例如数据来源是否合规,是否未遵守相关隐私保护法律法规,数据知识产权是否侵权等;还需要通过企业数据合法性审查和知识产权保护,如协商、投诉等方式对潜在风险进行控制。数据提供方,针对数据权属问题,需要对数据进行授权,如获取个人用户知情同意;针对数据质量问题,如数据真实性、完整性、准确性存在问题,可以通过准确性校验、元数据管理、数据分类分级等方式解决;针对流通前的数据安全风险,需要通过数据脱敏、去标识化、匿名化等对数据进行隐私脱敏、加密等安全保障处理;最后,在违规定价方面,如果未能按照定价规定或未能精准定价容易发生业务纠纷或诉讼的风险,需要进一步完善数据定价机制,保障企业数据支付交易的正常运转。

流通中,主要涉及传输和存储风险、模型风险、数据一致性和完整性风险。针对传输和存储风险,需要通过数据传输加密、数据沙箱(封闭域)、访问控制等方式解决数据传输安全(如未加密传输)或数据存储环境安全(如第三方存储环境的访问控制、未加密存储)问题,保障访问控制和存储加密;针对模型风险,即流通中发生模型攻击(如使用联邦学习方案被攻击)导致原始数据泄露,一方面通过对模型安全进行评估等方式进行保障,另一方面通过增强隐私计算安全(如同态加密、差分隐私等)进行保障;针对数据一致性和完整性风险,通过数据一致性和完整性校验,确保数据没有丢失、损坏或增加。

流通后,企业数据同样需要避免数据存储风险,如数据需求方存储环境安全(需求方或第三方存储管理方实施访问控制和存储加密)。此外,还可以解决重识别风险、重标识攻击、个人信息的重识别。此类风险需要通过数据去标识化、匿名化、合同约束操作审计等方式保障企业数据流通正常运转。

3.3 流通需求

流通前,企业法务需要识别出需求合法性风险以及合同合法合规风险。针对需求合法性风险,如数据流通场景需求不合理、数据需求方对数据的申请不满足最小必要原则等,法务需要通过需求审核对流通主体反馈;针对合同合法合规风险,例如合同条款的法律风险,法务需要对合同进行审核。

流通中,存在合同履行过程风险,涉及供需主体履约行为与订单不一致,其中履约行为包括数据流转、资金流、订单、供需方交易平台信息、交付结算信息等。流通中需要进行合同履行的监督,如通过合同履行过程信息追溯和审计的方式进行监督。

流通后,可能存在潜在的合同验收风险,如工序主题履约行为与订单不一致(履约行为包括费用结算、项目验收等),或者未按合同要求按时删除数据。此类风险需要法务在流通后进行合同验收的监督和审计来有效降低。

3.4 支撑环境

在整个数据流通过程中需要一定的环境支撑,同时也存在一定风险,此类风险仍然会影响企业数据要素的正常流通,仍然需要去识别并制定必要的控制保护措施进行规范。

流通前(即在系统设计阶段)存在安全风险,包括系统环境(如软硬件故障、物理环境影响、算法、密码强度等)造成的风险。需要采取一定的保护措施,如系统安全设计、系统设计阶段安全测试、系统设计阶段安全评估。针对系统设计阶段稳定性风险,例如系统性能、资源未达到数据流通要求,在系统设计阶段通过一定的稳定性测试进行控制,包括平均故障间隔时间(Mean Time Between Failures,MTBF)、平均修复时间(Mean Time To Repair,MTTR)、平均故障时间(Mean Time To Failure,MTTF)评估;针对管理风险,包括人员无意识操作失误、有意识越权或滥用以及安全事件管理上没有明确的安全应急响应机制等,通过制定管理制度和惩罚机制、安全应急响应机制、安全培训制度等进行控制。

流通中包括系统运行阶段安全风险和系统运行阶段稳定性风险两大类。针对系统运行阶段安全风险,如系统环境造成的风险,需要通过系统运行阶段安全测试和安全评估进行风险控制;针对系统运行阶段稳定性风险,如系统不稳定而导致数据流通停滞、数据丢失等风险,需要通过系统运行阶段稳定性测试进行风险控制。

流通后仍然包括系统运行阶段的安全风险和稳定性风险,此外,还包括审计风险和管理风险。如未审计或监控用户的操作记录、管理制度监督落实不到位,可通过安全审计和管理制度、惩罚机制的落实进行约束和风险控制。

4 企业数据流通风险管理实践要点

4.1 个人信息风险评估要点

4.1.1 个人信息流通前的合规性评估

开展个人信息数据流通活动之前,需识别数据流通的合法性,即是否属于法律禁止或受限的情况。正当性和必要性可根据数据流通的场景进行评估,评估流通活动是否具有明确、合理的目的,是否限于实现流通目的的最小范围,以及是否采取安全保护措施等[4]。

4.1.2 个人信息流通活动的用户同意情况评估

评估个人信息的流通活动(将本企业收集的个人信息提供给数据需求方)是否征得过个人用户的同意(查阅隐私协议、单独授权等内容),并且在数据处理目的、方式、期限等变化时是否重新征得个人用户的同意;涉及敏感个人信息的流通,是否单独征得个人用户同意;征得个人用户同意的具体方式是否满足《中华人民共和国个人信息保护法》(简称《个人信息保护法》)的相关要求。

4.1.3 个人信息流通的安全保护措施情况评估

评估各数据主体的数据安全保护措施和水平;评估是否通过合同、保密协议等约束数据需求方的安全责任;评估数据流通安全审计机制和技术工具情况。

4.1.4 个人信息流通的影响评估

评估数据流通的过程以及流通后的数据加工使用情况;评估是否会对用户的个人信息安全和合规产生新风险;评估个人信息维权通道是否通畅等。

4.2 技术安全风险评估要点

4.2.1 基础安全保障

评估是否根据国家网络安全等级保护制度要求,确定了网络安全保护等级,并根据相应的级别实施安全措施。

4.2.2 特定安全风险

一是联邦学习算法安全风险。联邦学习算法经常用于涉及个人隐私数据的联合分析场景,需要开展隐私数据泄露风险评估。联邦学习算法的安全风险主要是指联邦学习算法在训练、部署的过程中,对外公开的信息、与外界交互的信息泄露训练数据中的敏感信息的风险。因此,可以通过模拟攻击者与联邦学习的目标模型交互,选择合适的攻击算法,配置不同的攻击强度进行隐私攻击,评估算法的安全性。数据防污染评估：训练数据投毒污染是在训练数据中植入恶意样本或修改数据以欺骗联邦学习模型的方法。可以对训练数据采取安全措施,包括数据进行加密存储、访问控制、完整性校验等防止数据被篡改和污染。

二是重标识风险。《个人信息保护法》中对“匿名化”的定义是“个人信息经过处理无法识别特定自然人且不能复原的过程”。匿名化后的数据不属于个人信息,匿名化因此成为个人信息安全合规流通的重要方式。但是,目前业界的匿名化技术尚未完全成熟,也缺乏理论支撑,匿名化后的数据不能在任何情况下还原后重识别特定个人。因此对匿名化的效果进行评估,就成为了降低匿名化后数据使用风险的重要保障。例如,使用k匿名方案进行匿名化效果评估,即在经过匿名化处理后的数据集中,特定字段若存在k条重复记录,则说明该记录的匿名化处理程度达标等。

4.3 管理安全风险评估要点

评估数据流通企业的管理水平,包括是否建设了专门的数据管理部门、组织架构用于支撑、监督、管理企业的数据流通活动;是否制定了数据流通相关的制度文件和标准规范,例如企业数据分类分级管理、个人信息合规和安全保护管理、数据内外部流通流程管理等;是否进行了数据流通的审计和监督管理工作(如内部审计或第三方审计等)[5]。

4.4 技术方案推荐

4.4.1 匿名化技术方案

个人信息的共享流通,会增加信息被泄露、滥用等可能性,而大数据和人工智能技术的发展,将进一步增加个人信息在汇聚融合后被违法、违规挖掘分析的风险。在此背景下,匿名化技术[6]作为一种行之有效的解决路径引起越来越多的关注,并成为平衡数据要素流动和数据合规安全利用的一种关键路径。对个人信息进行高效的匿名化处理,能够确保数据要素的合规流通,极大提高数据利用效率。常见的匿名化技术有统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术等。

在匿名化处理之后,对于离线场景下库表格式的结构化数据,建议进一步基于k匿名的匿名化效果评价方法,对匿名化处理之后的数据集进行评价。参考国内外的实践经验,例如,根据新加坡个人数据保护委员会发布的《基础匿名化指南》,如果数据经过匿名化处理已达到最小k匿名值5,再加上相关的保护措施,则数据可被认为是充分匿名的,可以与外部各方流通。对于组织内的用例或数据流通,即内部数据共享,数据实现较低的最小k匿名值3以及相关的内部控制措施,可以被认为是合理匿名的。

在实践层面,建议综合性地采用合规管控、流程管控、安全管控、评价工具等方面的措施,实现可控环境中的匿名化要求。具体措施可包括以下几种。一是合规管控措施,包括定期开展匿名化重标识风险评估、签署数据共享协议、开展合规培训等;二是流程管控措施,对数据流通行为进行管理、业务审批、定期清除数据、定期内部检查、监测审计等;三是安全管控措施,采用适当的匿名化技术将重标识风险控制在可接受风险阈值范围内,以及采用访问控制、隐私计算、数据沙箱、存储环境安全、事件管理等措施;四是技术工具措施,采用数据发现、匿名化处理、匿名化效果评价等相关的技术工具,实现自动化处理。

4.4.2 隐私计算的技术方案

隐私计算是在保证不泄露原始数据的前提下,由两个或多个参与方对分散的数据源进行联合计算的一类信息技术,可以保障数据在处理全过程中“可用不可见”。隐私计算的常用技术方案有多方安全计算(Secure Multi-Party Computation,MPC)、联邦学习、可信执行环境(Trusted Execution Environment,TEE)等。MPC是一种在参与方互不信任且对等的前提下,以多方数据为输入完成计算目标,保证除计算结果及其可推导出的信息之外不泄露各方隐私数据的协议;联邦学习是一种分布式机器学习范式,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,可以在各方原始数据不出本地、不传输原始数据的情况下联合多方数据源建模和提供联合模型推理服务;基于TEE的安全计算是数据计算平台上由软/硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据的机密性、完整性。

隐私计算技术既可以保障数据安全和用户隐私,又能够挖掘多方数据协同应用所带来的价值。隐私计算技术目前在金融、政务、互联网、医疗等数据密集型行业积极开展落地实践,促进数据资源开放共享,释放数据价值。例如,在金融场景中,金融机构一般作为数据需求方,通过隐私计算技术引入外部数据提高金融风控、联合营销等效果;在政务场景中,可以基于隐私计算技术打通跨域数据的应用价值链,实现政务数据的开放和共享,充分发挥数据融合价值;在互联网场景中,隐私计算可以帮助互联网机构之间共享和交换密文数据,实现对已有客户的精准推荐,以及进行数据协作,实现获客引流;在医疗场景中,基于隐私计算的数据融合应用主要是跨医疗机构之间的数据共享流通,用于临床辅助决策、医学研究等。

4.4.3 数据沙箱的技术方案

数据沙箱通过软硬件手段的结合,形成一个对数据接入和导出进行严格管控的区域,其中包含预先指定、划分出来的运算与存储资源,与宿主的其他资源完全隔离。

沙箱的实现方式可分为软件和软硬件结合等不同形态,软件形态一般通过虚拟机或容器进行创建,也可通过添加可信模块等提升沙箱安全性。在数据流通场景中,数据沙箱常用于多方数据的汇聚与计算,涉及角色通常有数据方(在计算过程中提供数据)、算力方(提供运算环境,通常指沙箱提供方)、算法方(提供具体计算任务的算法逻辑)。由于多方数据的汇聚,出于安全性考虑,算力方通常部署在可信第三方。

数据沙箱技术也被称为安全沙箱、封闭域、数据专区等。数据沙箱的使用场景主要包括3种,一是洞察和理解数据,例如验证数据准确性、查看数据字段分布和自有产品做重合度分析;二是统计分析场景,例如基于流水数据、其他数据、计算统计类指标做日常监控使用;三是复杂清洗和挖掘逻辑,例如打通多方流水数据,进行用户兴趣建模,挖掘后的结果可以通过授权和审计后导出。

5 结束语

在我国大力发展数据要素、推动数据要素市场化、加快释放数据价值的时代背景下,数据流通是每个企业的重要发展机遇和数据基础性工作,同样也会面临重要挑战。但总体而言,机遇远大于挑战,需要充分识别风险、分析风险和管理风险,在风险可控的前提下保障数据流通工作的高效、合规。企业数据流通风险管理需要在合规、技术、管理等维度,以及业界的共同努力下持续完善,才能真正发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑、具有中国特色的数字经济。

展望未来,对于数据流通风险管理体系的构建主要有3条建议。第一,建议进一步制定和健全数据要素安全流通的法律法规。进一步明确数据分类确权制度,对数据产权归属(如是否有些数据可以归类为知识产权等路径)进行可行性探索研究,明确各方主体的法律责任,明确按照数据权属确定可交易流通数据的类型、范围和流通规则等。第二,建议进一步完善数据流通风险管理的标准体系建设,指导国内数据要素流通的工作,并积极参与国际标准制定,将我国的产业实践贡献到国际。第三,建议加强技术工具的研发和应用,通过自动化的手段,形成对数据流通风险的自动化识别、研判、分析和处理,提升风险管控的效率。

随着业界对于风险管理能力的加强和完善,“数据要素×”行动的实施将不断加快,形成基于数据要素流通的新产品、新服务、新产业、新模式,开辟经济增长新空间,培育经济发展新动能。