陆志鹏
中国电子信息产业集团有限公司 深圳 518057
近年来,世界主要国家都陆续开展了关于数据空间的探索、布局和实践,一定程度上促进了数据共享流通、赋能价值创造[1]。但受制于制度框架、技术手段以及互信机制,数据空间建设并未取得预期成效。本文深入剖析当前数据空间建设的主要模式,总结不同模式共同依赖的核心要素,提出一种制度与技术紧密融合的新型安全可信数据空间建设路径,体系性破解多主体数据融合共享与数据安全之间的矛盾,以期为行业数据安全融合共享提供参考范式。
由于不同国家和地区数字化能力基础、产业数据应用诉求及数据管理理念等存在显著差异,其共同数据空间的建设模式也有较大不同,主要包括政府主导、政府引导以及市场主导三种模式。不同模式的底层运行逻辑趋同,均具备制度规则、标准规范、工具产品三类核心要素,共同构成数据空间内部主体开展数据交换的基础。
1.1.1 政府主导模式
在政府主导模式下,政府负责数据空间的顶层设计,并承担规则制定、基础设施建设等职能,市场主体经审核满足相关要求后,担任相应角色并按需参与数据交换过程。典型实践为欧盟公共数据空间[2]与美国国家信息交换模型(NIEM)[3]。欧盟2020年发布《欧盟数据战略》[4],部署在工业、科学研究、绿色协议等影响公共利益、具有战略价值的领域启动建设公共数据空间,联盟层面开展战略规划及监督指导,行业层面负责制定数据空间标准和要求以及构建技术支撑平台,市场主体根据相关要求参与数据空间运行。美国NIEM体系旨在解决不同行业领域之间以及同一领域内各级部门之间的信息共享问题,由国土安全部和司法部发起制定信息交换实施框架和标准,联邦层面负责NIEM发展规划、政策制定、资金保障及日常运营,行业领域负责本领域模型构件的维护,相关主体遵循NIEM体系所规定的三层模型构件及实施规则驱动具体业务开展。
1.1.2 政府引导、市场主建模式
在政府引导、市场主建模式下,政府对数据空间进行统筹管理并提供资金划拨或筹措支持,由行业协会、联盟或龙头企业牵头开展总体设计,审核、吸纳市场主体形成生态圈,分别担任相应角色并按需参与数据交换过程。典型实践为德国工业数据空间[5]与日本互联产业开放框架(CIOF)[6]。德国工业数据空间由弗劳恩霍夫协会牵头,连接130多家成员公司共同推进,德国政府部门按照研究经费总额的50%进行投入配比,以支撑其进行工业数据空间及相关非营利基础研究。日本互联产业开放框架旨在促进不同企业之间通过统一的数据互换进行设备联机及价值联动,该项目由日本经济贸易和工业部资助,发那科、三菱、德马吉森精机和日立参与研究,当前正在日本100强企业中推进。
1.1.3 市场主导模式
在市场主导模式下,行业内部采取自组织的形式约定形成数据交换方式和相关要求,逐步吸纳行业主体参与,按既定规则参与数据交换过程。典型实践为我国可信工业数据空间。我国工业互联网产业联盟、信通院牵头,联合16家工业企业提出建设可信工业数据空间,构建数据空间数据流通模式,形成基础共性、关键技术、行业应用三类标准体系,明确参与方类型及功能职责,面向广大市场主体提供数据开放共享和可信流通的新型基础设施和技术解决方案[7]。
上述三种模式并无优劣之分,而是需要结合不同行业的制度基础、技术条件与发展诉求灵活选择最优。
剖析当前全球数据空间先进建设经验,尽管不同国家和地区在数据空间发展模式、体系结构、建设路线、管理机构等方面各有差异,但其底层运行逻辑趋同,均具备制度规则、标准规范、工具产品三类核心要素,如图1所示。
图1 数据空间三大核心要素
一是制定制度规则,明确数据空间运行架构。制度规则从治理侧厘清数据空间的总体建设、管理和实施架构,包括明确组织机构、统筹战略规划、开展总体设计、明晰建设原则、确定技术路线、制定参考架构等相关工作。二是构建标准规范,统一数据空间描述维度。标准规范从技术侧统一数据空间的话语体系、属性维度、描述方式,包括确定技术路线、明确设计规则、梳理元素字典、制定标准格式等工作,为数据空间内不同场景应用提供共同的对话规则。三是提供工具产品,提升市场主体应用能力。工具产品从实操侧为数据空间主体赋能,提供封装、便捷、丰富的即时应用工具库,包含基础设施、运行平台、业务组件、各类辅助工具包等,降低市场主体参与数据流通活动的门槛,提升效率和互换性[8-9]。
纵观国内外数据空间探索实践,以及各参与主体在实际开展数据共享流通过程中遇到的现实难题,当前数据空间在安全、信任和规则标准三个方面的问题依然没有得到有效解决。
1)基础设施安全难以保障。当前,数据空间的建设主要侧重在组织、机制、标准等层面,并提供了软件技术工具,但在基础设施层面仍以利旧为主,导致数据流通共享仍然依靠原有设施以及开源技术,安全风险隐患较大。与此同时,我国数据安全的底层技术与关键产品国产化率低,核心环节“卡脖子”现象突出,迫切需要自主可控的新型数据基础设施保障数据存储、治理与流通的安全可控。
2)过程安全日益严峻。数据流通共享流程复杂、环节多,潜在的泄露、篡改、非法买卖、滥用等风险种类多,安全脆弱点分布广、防范难度大。传统外挂式、被动式和封闭式的安全技术体系,越来越难以满足多主体、多环节和开放性的高效数据流通共享和开发利用的需求,亟待建立内生性、主动性的数据安全防御体系。
3)制度安全权责不清。细分行业重点数据识别、数据安全评估、数据分类分级等数据安全相关制度建设进度不一,与国家数据安全立法衔接尚不充分。数据治理主体安全权责不清,机构内部数据安全管理制度尚不完善,数据在不同主体之间流动、共享和交换过程中的权责边界模糊,责任判定与追溯困难。
1)双边信任难以建立。对于数据供方而言,由于制度、技术等方面的保障仍然不完备,共享数据可能会导致数据供方失去对数据的掌控力,或减弱其商业竞争优势,还额外需要承担因数据非法使用带来的连带责任。对于数据需方而言,在“阿罗信息悖论”之下,数据需方缺少事前核验数据质量与价值的手段与能力,数据市场极易演化为“柠檬市场”。建立供需双方双边信任成本较高,难以满足生态开放、多对多流通的数据空间建设要求。
2)第三方信任仍待加强。由于公共部门多数仅提供开放数据,对数据空间的开发支持力度不足,导致缺少有公信力的数据空间开发及运营主体,“重门户建设、轻空间运营”“重技术推广、轻数据治理”的现象突出,数据空间缺乏统一的第三方信任平台。
1)治理体系不兼容。不同区域、行业之间存在较大的治理能力落差。公安、医疗、市场监管等部委,以及信息化领先的省份已经建立起较为完善的数据共享管理制度[10],信息化欠发达的地区和大多数行业尚未形成完整的数据治理体系,数据共享流通仍然采取“一事一议”方式,这导致不同区域、不同行业的主体之间共享数据面临较高的合规成本。
2)标准规范不一致。当前,地方、行业和国家标准之间兼容性和一致性仍然有待提升,越到细分行业、越到下级行政单位,所需遵从的技术标准庞杂、兼容困难的问题越突出。这导致跨层级、跨区域、跨行业间的数据格式不统一、元数据标准不一致,数据互操作困难,极大推高了数据共享的技术成本。
3)数据形态不稳定。数据在开发利用过程中,不仅会因不同的采集设备、数据处理软件等呈现异构的技术格式,还会在流通使用过程中产生复杂多元的形态变化,数据的多元异构性导致在数据共享流通过程中极不稳定,承载的数据要素价值和劳动价值边界模糊,增加了质量评价、价值评估、安全审查、过程追溯等的难度。
安全可信数据空间定位于解决数据流通过程中的安全、信任和规则标准问题,以数据金库[11]和数据元件[12]为基础、以可信计算和合规措施为支撑,融合原有数据基础设施和数据资源,通过数据空间操作系统和安全治理机制实现多主体间数据的安全合规、共享流通。
一是定义数据元件,以“中间态”形式实现原始数据和数据应用解耦,破解安全可信数据空间的数据流通系列难题。数据元件是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。在确权方面,将数据相关权利在数据资源、数据元件、数据产品的三个阶段分别进行确权,降低确权复杂度;在流通方面,以数据元件作为数据交易标的物,实现数据要素的安全流通与高效配置;在定价方面,数据元件使数据价值评估有了计量单元,在三个阶段可分别采用成本法、收益法和市场法进行定价;在安全方面,数据元件去除了涉及国家安全、商业秘密和个人隐私的信息,显著降低信息泄露风险。
数据元件和数据金库的功能示意如图2所示。
图2 数据元件和数据金库功能示意图
以“安全合规、共享流通、智能敏捷”为目标,构建以“制度+机制+技术”三点互为支撑的安全可信数据空间总体架构,连接跨行业、跨层级主体,提供统一安全可信数据空间,支撑不同行业的业务应用开发需求。安全可信数据空间的总体架构如图3所示。
图3 安全可信数据空间总体架构
在制度层面,为确保数据空间有效运转,围绕管理机制、组织架构、标准体系与安全体系,形成层次丰富、协同高效的配套制度体系。在机制层面,构建多主体广泛参与的协同治理机制,以保障数据空间的安全可信运营和管理。在技术层面,以五层架构和数据空间操作系统为核心共同构建统一的安全可信数据空间技术体系。
3.3.1 组织架构
安全可信数据空间以数据增值过程为主轴,以数据空间运营服务中心为枢纽,形成“一横、一纵、富生态”协同运行的组织架构体系,如图4所示。
图4 安全可信数据空间组织架构
一横:以数据从原始数据、数据资源、数据元件到数据产品的价值链为主线,涵盖数据的供给、流通与使用三大环节,涉及数据主体(即数据原发者)、数据持有主体、数据元件开发商、数据空间运营服务中心、数据应用开发商、数据消费者等六类主体(角色)。
一纵:以安全可信数据空间的治理与运营为主线,以数据空间运营服务中心为枢纽,涵盖数据空间的统筹管理、业务运营与技术支撑三个层面,涉及数据空间管理委员会、数据空间技术委员会、数据空间生态联盟、数据空间运营服务中心、数据金库运营商等五类主体(角色)。
犊牛肉肉质细嫩,色泽一般。嫩度反映肉的质地和老嫩,是消费者在购买时品质评价的常用指标[5]。pH值直接反映糖原酵解的强度,是测定肉品质时最重要的指标之一。pH值不仅直接影响肉的适口性、嫩度,还与牛肉的系水力和肉色等相关[5]。由于环境条件和基因选择的不同,不同肌纤维的特性也不同。食品风味是消费者在购买时最直观感受的品质之一。在确定产品的特征风味时,不仅要依靠仪器分析检测,还需要标样核对和感观评定[5]。
富生态:以构建数据空间内数据共享流通所需的数据要素化、数据安全与合规等第三方专业服务体系为目标,集聚数据资产评估机构、数据安全审计机构、数据合规服务机构、数据咨询服务机构、数据经纪人、数据基础设施托管运营商、第三方数据技术供应商等产业生态,为安全可信数据空间的参与主体提供优质可靠的专业服务。
3.3.2 管理制度
为保障安全可信数据空间的有序运行,凝聚各方共识,有效满足政府监管与行业发展需求,构建三级数据空间制度体系。
面向全数据空间的共识类制度。根据数据空间建设模式的不同,可以选择强监管类的部门规章、地方政府规章,也可以选择自律公约、联合声明等形式凝聚行业共识;对于涉及各参与主体的权利与义务等需要立法予以明确的,可以推动制定法律、地方性法规;对于技术规范类共识,可以根据实际情况选择制定团体标准、行业标准以及国家标准。
面向数据空间运营服务中心的运营管理类制度。针对数据金库专营商、数据元件开发商等与数据安全与合规体系建设密切相关的参与主体,应当以数据空间运营服务中心为主体,牵头制定数据空间基础设施管理规范、主体准入及管理办法等安全可信数据空间运营管理制度,确保参与主体身份可信、行为可控。
各参与主体的组织内部制度体系。为增强数据持有主体、数据元件开发商、数据空间运营服务中心、数据应用开发商等参与主体的数据安全防护能力与数据合规能力,应当在组织内部建立涵盖组织建设、人员管理、项目管控等的立体性安全合规制度体系。
3.4.1 数据确权机制
数据在安全可信数据空间内流通的各个环节,每当要素形态发生转换时,均需要对其权属进行准确划分和确定,为定价、交换和交易创造条件。在安全可信数据空间内,数据主体作为数据源发者,享有数据主体权;数据资源持有主体、数据空间运营服务中心、数据元件开发商及数据应用开发商享有数据的用益权。
3.4.2 数据流通机制
在安全可信数据空间内,支持参与主体间的无偿共享交换和有偿数据交易等多种流通模式。在数据无偿共享交换模式下,以数据元件为主要流通形态,通过数据空间运营服务中心的中介服务实现数据供给方和使用方的供需匹配;在数据有偿交易模式下,需要额外引入数据资产评估机构等第三方专业服务商,确定数据资产价值,确保数据合理定价。无论何种数据流通模式,均可以按需购买数据安全审计、数据合规、数据经纪、咨询服务等多元化服务,满足各类数据流通场景需求。
3.4.3 数据定价及分配机制
在有偿交易模式下,定价机制基于数据价值转化的不同阶段,采用成本法、收益法、市场法等多种定价策略。在数据资源阶段,需结合数据资源获取的稀缺性、数据质量等诸多因素,采用以成本法为主的定价机制;在数据元件阶段,结合数据元件应用领域和数据元件价值,采用收益法为主的定价机制;在数据产品及服务阶段,发挥市场机制决定作用,按照市场法定价。
3.5.1 五层架构
安全可信数据空间五层架构包含数据资源层、数据组织层、本体孪生层、决策推演层以及业务应用层。其中,数据资源层整合来自政府、组织、企业、个人的多个主体的数据,实现将原有数据基础设施数据(如数据中心、互联网等)与数据金库的数据以数据资源、模型结果集、数据元件等方式归集存储,实现融合计算与共享。数据组织层的元件资源融合平台支撑数据资源与数据元件安全合规的融合共享,保障生产到共享过程的安全合规,并针对空间运营以及共享情况进行统计。本体孪生层通过空间资源管理平台提供空间数据资源的需求对接、资源目录管理、参与主体管理以及使用存证等功能,为技术组件、本体组件的开发使用提供统一的管理。决策推演层通过决策推演平台,为以业务目标为导向的数据挖掘和仿真推演提供搜索研判、时空分析以及本体可视化等相关功能支撑,满足面向不同行业需求的决策推演需求,支撑不同行业的数据产品开发与应用分析。业务应用层提供面向场景域的各类业务应用。
3.5.2 数据空间操作系统
数据空间操作系统为安全可信数据空间提供空间资源分配、任务编译、调度管理、组件管理与系统管理等功能,是链接数据空间生态的核心能力平台。数据空间操作系统是各数据主体访问数据空间的统一入口,是实现数据互操作的统一桌面;同时,数据空间操作系统也是空间内数据组织、本体孪生层与决策推演层之间统一调配的核心引擎,负责组件接入、资源分配、任务协同调度等。
当前公安系统烟囱式业务和信息孤岛依然存在,跨网跨警种数据融合难,安全风险大,高价值的数据无法与公安业务数据融合计算、碰撞,严重阻碍了公安智能化业务融合发展。亟需构建数据安全和融合共享的技术、制度支撑体系,有效化解数据安全与融合共享之间的矛盾。公共安全数据空间定位于以业务场景为驱动,安全合规为前提,有效贯通公安各警种数据资源和外部数据,实现“原始数据不出域,数据可用不可见”的数据融合共享,全面赋能各业务警种实战应用,如图5所示。
图5 公共安全领域数据空间示意图
公共安全数据空间兼容原有的多云、多级、多警种数据现状,基于新一代公安网“一网两域”框架,主要承载面向“多云合一”业务场景下的数据融合共享。政府、互联网数据可通过数据金库归集和安全存储,数据空间提供统一身份认证、目录管理、供需对接、数据融合计算能力。各警种数据可通过数据建模平台在各自数据域(网)中将原始数据加工成数据模型结果,通过单向安全传输技术将数据模型结果摆渡到数据空间进行融合计算生成数据元件。通过数据元件方式进行本体建模、决策推演形成本体和业务组件,支撑反诈、实有人口管理等跨警种多数据融合应用场景。在此过程中,通过数据空间安全与合规相关系统将部门规章和法律法规程序化,实现自动化和智能化校验和审核,保障数据安全与合规,规避公安数据泄露与滥用风险。
公共安全数据空间为解决公安跨警种、跨密级数据融合共享提供了一种可落地、可操作实施路径,通过建立明责明权明法的空间运行机制和融合创新技术平台,全面实现了公安数据协同计算、融合赋能。