隐私计算:保障公共数据安全开放的利器

2024-12-13 00:00:00王庆华
中国经贸导刊 2024年15期

近年来,我国公共数据开放在制度建设、平台建设、数据供给、生态应用等方面取得了一定的成绩,但数据开放过程中还存在一些风险和问题,使得我国公共数据开放明显不足。公共数据开放不足的问题在较大程度上受制于数据开放与数据安全之间的平衡困境。隐私计算“原始数据不出库、数据可用不可见”“数据使用可控可计量”“计算分布式、监管有中心”的特征,天然契合公共数据开放业务需求,可帮助数据提供方、公共数据开放平台管理方以及数据使用方等主体在不同场景中发挥价值,助推公共数据开放迈入新阶段。

一、我国公共数据开放水平逐步提升

近年来,我国已开始全面部署和推行公共数据开放制度,省市地方政府公共数据开放平台数量逐年增长,全国范围内正加速形成适用于激发公共数据要素价值的基础环境。在制度建设方面,与公共数据开放相关的法律法规、实施细则、标准规范等陆续出台,制度体系不断完善。2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》强调,对各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据,加强汇聚共享和开放开发。《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号)明确指出,打造安全可信流通环境,深化隐私计算、可信数据空间、区块链等技术应用,充分依托已有设施,探索建设重点行业和领域数据流通平台,促进数据合规高效流通使用。2024年10月,中共中央办公厅、国务院办公厅印发《关于加快公共数据资源开发利用的意见》,指出要破除公共数据流通使用的体制性障碍、机制性梗阻,激发共享开放动力,优化公共数据资源配置,释放市场创新活力,充分发挥数据要素放大、叠加、倍增效应,为不断做强做优做大数字经济、构筑国家竞争新优势提供坚实支撑。在平台建设方面,各地公共数据开放平台的功能逐渐扩展和优化,运营维护能力不断提升。截至2024年7月,我国已有243个省级和城市的地方政府上线了数据开放平台,开放的有效数据集超过了37万个,最近八年来增长了44倍。在数据供给方面,目前全国开放数据集数量从2017年的8000多个增加到2023年的34万多个,各地平台无条件开放的可下载数据集的容量从2019年的15亿增长到2023年超480亿,开放数据的数量与质量稳步提升。在生态应用方面,企业、公众等社会主体越来越多地参与利用开放数据。目前,全国17个省(市)、10个副省级城市开展了公共数据授权运营实践,形成了一定数量的应用成果。例如厦门市的数据安全屋、上海市的安全沙箱、青岛市的数字实验室等。

与国外对比,我国公共数据开放起步较晚,制度体系还需进一步完善。2000年,德国通过实施《信息自由法》等系列法律,明确政府数据的公开性和透明化原则,界定个人和政府数据安全有关问题。2003年11月,欧盟发布《公共部门的信息再利用指令》,认为有必要为公共部门信息再利用构建一个总体框架,形成公平、均衡和非歧视性的环境。2009年,美国奥巴马政府颁布《开放政府指令》,全球开始掀起政府数据开放浪潮。随后,美国颁布《透明和开放的政府备忘录》《开放数据政策》《开放政府数据法案》,将政府数据开放逐步合法化;颁布《隐私保护指令》,强调开放数据过程中要注意对个人隐私权的保护。2016年10月,法国颁布《“数字共和国”法案》,强调政府数据开放和数据安全。

从社会大众对公共数据开放的需求来看,我国各级政府、公共机构对公共数据的供给明显不足,加上尚待完善的制度体系,不愿、不敢、不会开放的情况依然较为普遍,大部分公共数据没有充分发挥数据资源作为“生产要素、无形资产和社会财富”的应有作用。

二、我国数据开放存在的问题和风险

目前,我国公共数据开放不足的问题在较大程度上受制于数据开放与数据安全之间的平衡困境。在开放过程中存在的各类安全隐患增加了数据管理平台所承担的风险,降低了数据提供部门开放数据的意愿和动力,导致数据供给部门在数据数量、数据质量、开放范围等方面较为保守,未能充分满足社会对公共数据开放利用的需求。

(一)数据提供方不愿、不敢、不会开放数据

第一,不愿开放。一方面是认识的问题,一些政府部门和公共机构尚未意识到数据开放的价值;另一方面是“衙门”思想的问题,一些政府部门和公共机构把自己掌握和获取的数据,作为自己利益和权力的一部分,造成不同部门之间甚至同一部门不同机构之间都难以实现数据开放。第二,不敢开放。主要是由于我国目前尚缺乏严格规范数据开放的法规制度,相关人员担心政府数据开放会引起信息安全问题,担心数据泄密和失控,对数据开放具有恐惧感。第三,不会开放。公共数据开放是一个高度专业化的工作,需要分级分类、收放结合、科学把握。但目前我国尚未出台相关法律对数据开放的基本原则、数据格式、质量标准、可用性、操作性等做出规范要求,导致政府部门和公共机构数据开放能力不强、水平不高、质量不佳,严重制约了大数据作为基础性战略资源的开发应用和价值释放。

(二)数据管理平台风险加剧

一方面是数据汇聚与存储的风险。当前我国公共数据开放主要采用“部门数据供给—数据资源汇集—数据平台开放”的形式,数据供给过程中存在数据泄露、数据篡改、数据被重新识别等隐患。数据平台作为数据存储方存在被恶意攻击、数据泄露等安全隐患,平台的安全防护面临较大压力。另一方面是数据流通与利用的风险。数据提供到数据平台后,平台对部分数据缺乏监测与控制,无法对数据利用过程及结果进行追踪,难以监管数据应用的合规性与正当性,且现行脱敏技术手段并不能解决所有的隐私问题,在数据利用过程中仍有通过数据拼凑还原个体数据的可能,使个人信息面临泄露风险。目前我国尚未制定统一的公共数据分类分级标准,各地方各部门对数据安全的管控手段主要还是以严格控制数据出域和严格制定数据获取条件为主,因此间接导致了数据供给不足和数据获取门槛过高等问题。

(三)数据使用方效益不佳

总体来看,市场和社会对公共数据的需求尚未得到充分满足,主要表现为开放数据数量不多、容量较低、质量不高。在已开放数据中普遍存在字段少、条数少、颗粒度较粗等问题。此外,在已开放数据中还存在高缺失、低容量、碎片化等低质量数据,数据利用价值较低。数据开放不足造成了利用端的成果数量不多、质量不高等问题。

三、隐私计算推进公共数据安全开放迈入新阶段

隐私计算“原始数据不出库、数据可用不可见”“数据用法可控可计量”“计算分布式、监管有中心”的特征,天然契合公共数据开放业务需求,可帮助数据提供方、公共数据开放平台管理方以及数据使用方等主体在不同业务场景中发挥价值,推进公共数据开放迈入新阶段。

(一)特征优势显著,契合数据开放需求

一是原始数据不出库、数据可用不可见。目前,国内隐私计算厂商的产品多采用联邦学习和多方安全计算两种技术路线的结合体。联邦学习可实现多个数据持有方主体在其原始数据无需出本地数据库的前提下进行多方协作建模,即“原始数据不出库”。多方安全计算通过密码学技术实现原始数据对人和机器的不可见,但原始数据的价值被计算获得,即“数据可用不可见”。二是数据使用可控可计量。隐私计算是在多方数据共同参与协作下完成,最终的计算结果(服务)需获得计算方同意才能使用。数据按算法使用,服务按次数调用,可做到“数据使用可控可计量”。三是计算分布式、监管有中心。从隐私计算产品架构设计来看,实现了“计算分布式、监管有中心”。监管方可以通过部署一个中心管控节点(平台)做到对参与计算各方全局的控制,包括计算方准入控制和计算规则及指令下发等,但监管方无需参与计算。

(二)集中资源逻辑,减轻数据存储压力

在隐私计算技术“原始数据不出库、数据可用不可见”的新型数据流通模式下,公共数据资源可实现“逻辑集中、物理分散”,即公共数据目录要集中汇集至平台,而公共数据资源可分散存储在各数据提供方本地。通过统一的公共数据目录,数据使用方可根据相关需求开发利用有关数据资源,使用时可申请通过隐私计算方式进行获取。这种新型数据汇集模式具有三方面的优势:一是可以有效降低公共数据安全风险;二是可以最大限度汇集全社会可开放数据;三是可以极大减轻公共数据监管方的数据存储压力。

(三)升级平台功能,保障数据安全开放

在《网络安全法》《数据安全法》《个人信息保护法》的驱动下,公共数据开放平台将进行增强数据安全能力的功能升级。传统的数据安全技术多以保障平台内部数据静态安全为主,即数据不被越权访问、不被违规获取等,重点以数据加密、数据脱敏、数据识别等技术为主。隐私计算技术“计算分布式、监管有中心”的特征可以有效保障数据流通过程中的安全性。

(四)优化供给方式,提高数据使用效益

供给方式的优化重点体现在对有条件开放数据的方式上,传统API接口尽管在一定程度上保障了数据的安全性和及时性,但当参数发生变化时,API接口改造成本较高,而且数据提供方对不同API接口的管理和维护成本也较高。通过隐私计算方式进行数据供给,可在很大程度上保障公共数据的安全性、自主性和灵活性。隐私计算平台“数据用法可控可计量”的特征,可实现对数据用法用量的管控授权,即数据提供方可对不同权限的用户提供字段和颗粒度不同的数据,而且可以指定数据用途、使用时间、使用次数等。数据使用方在获得数据及隐私计算服务申请授权后,可直接在隐私计算平台进行开发利用,有效提升数据开发利用的敏捷性,降低开发利用成本。

(作者单位:国家信息中心)