贾轩 白玉真 马智华
(1. 中国信息通信研究院云计算与大数据研究所,北京 100191;2.电信科学技术研究院,北京 100083)
作为释放数据要素的关键环节,数据流通的需求日益增加。然而数据盗用、滥用等安全事件频发,如何兼顾应用和安全、平衡效率和风险,是当前面临的重要课题。隐私计算在不获知其他参与方原始数据的情况下处理数据,通过授权和防篡改等手段有效控制数据滥用,保障数据在流通与融合过程中的“可用不可见”,成为数据安全合规流通的一种“技术解”。2022年1月,国务院办公厅印发的《要素市场化配置综合改革试点总体方案》中提出探索“原始数据不出域、数据可用不可见”的交易范式,探索建立数据用途和用量控制制度,实现数据使用“可控可计量”。随着政府各部门发文鼓励隐私计算技术研究与应用[1-3],隐私计算发展火热,市场呈爆发态势,逐渐在金融、政务、医疗等数据密集型行业开展应用。本文将从技术概述、典型应用场景、应用面临的问题以及未来发展趋势等方面对隐私计算应用进行系统的梳理和展望。
隐私计算是在保证数据进行分析计算的过程中不泄露给数据参与方原始数据的一系列信息技术。
隐私计算技术分为三类主要技术方向:第一类是基于密码学的隐私计算技术,主要为多方安全计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是基于可信硬件的隐私计算技术,其中以可信执行环境为代表。不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。
多方安全计算由姚期智等[4]于1982年通过提出和解答百万富翁问题而创立,是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,并且保证每一方仅能得到自己的计算结果,无法得到其他任意一方的输入数据。其实现包括多个底层密码学协议或框架,主要有混淆电路、秘密分享、不经意传输等。
联邦学习本质是分布式机器学习,由谷歌在2016年提出才逐步受到广泛关注[5]。其通过中间加密数据的交互来完成多方联合的机器学习训练,根据参与计算的数据方分布情况,可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。
可信执行环境通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据的机密性和完整性。该技术依赖硬件环境,因此常与多方安全计算等密码学技术相结合应用[6]。
虽然隐私计算各技术方向的侧重点不同,但在实际应用时的主要计算场景包括联合统计、联合查询和联合建模等。联合统计包括基础计算、联合排序等,适用于金融总资产认证、医疗统计分析、政务常住人口迁徙等场景;联合查询通过隐私求交、隐匿查询等方式在参与方数据集间进行查询任务,适用于反洗钱、反欺诈等场景;联合建模是指联合多方数据进行机器学习建模,如分类模型、回归模型、深度学习模型等,适用于联合风控、精准营销等场景。
随着政策与需求的双重推动,隐私计算技术和产品的成熟度迅速提升,从2018年起逐渐由研发阶段转化到实施阶段。根据隐私计算联盟统计[10],进入实施阶段的产品比例逐年提升,截至2021年年底进入实施阶段的产品比例由2020年的38%上升至48%,部分产品能够支持较大规模应用的实施(见图1、图2)。
隐私计算应用场景进一步丰富,基于金融、互联网、政务、医疗等数据密集型行业开展落地实践,覆盖金融风控、精准营销、政务服务、保险定价、医疗健康等场景,探索数据资源开放共享,进一步释放数据价值。
金融行业作为数字化应用最为广泛的行业之一,在数据采集、生产、挖掘中有着丰富的积累与需求,数据价值贯穿于金融风控、营销、运营等全业务流程。随着数据合规、信息安全、隐私保护的要求趋严,在政策举措[11-13]指引下,隐私计算在金融行业呈现出较大的应用空间(见表1)。
表1 金融行业的隐私计算政策举措
在隐私计算金融场景应用中,金融机构一般作为数据需求方,通过隐私计算技术引入外部数据提高普惠金融、风控管理、精准营销等效果。数据提供方主要是金融机构、互联网平台、运营商、政府部门等。由于金融场景广泛、复杂,本文以联合风控、联合营销两个大场景举例,根据细分场景的业务逻辑及目标结果,可通过不同的隐私计算算法完成(见表2)。
表2 隐私计算在联合风控、联合营销场景常用算法
不同金融场景间的差异,除选用算法不同外,还反映在不同场景的数据规模上。根据中国信息通信研究院的调研统计,应用数据量在100 万以下占比36%,多为金融机构在与政务或其他金融机构数据联合计算的场景;应用数据量在1 亿以上占比36%,多为金融机构在与通信、互联网数据联合计算的场景(见图3)。总体来看,应用的数据量在100 万以下、介于100万~1亿之间、1亿以上三个区间呈哑铃状分布,反映目前隐私计算在金融应用中不均衡、不充分。
医学研究、临床诊断、医疗服务和基因分析等工作依赖大量数据的累积,这些数据多是个人健康数据,分散在各个医疗机构和业务系统内,数据开放共享和联合应用难度大。因此,机构间数据如何安全流通,实现医疗应用场景的创新是当前面临的难题。
在魏金枝看来,封建家族制度一方面造成了封建专制,滋生了家庭的不平等,另一方面更严重的是既造成了人类“自卑自弃的堕落”,“不事生产,家居作乐”,“滥事消费”,又带来了“繁滋生殖,不但弱小人种,还要堕落本能,代代相传,哪有不穷”的人类危机。显然,必须打破这种制度。这种思想认识,我们不能不承认其先进性。后在来新文学中,这种思想被反复表现,最突出的是曹禺先生的《北京人》。
随着当前医疗数据安全相关政策相继出台,对数据安全共享和流通的关注逐渐增加。例如,2021年7月,正式发布了《“十四五”优质高效医疗卫生服务体系建设实施方案》,其中提出推进跨地区、跨机构信息系统互联互通;2021年7月,开始实施国家标准《信息安全技术 健康医疗数据安全指南》[14],规范了健康医疗数据控制者在保护健康医疗数据时可采取的安全措施;2021年8月起草的《全国医疗机构网络信息安全管理办法》不久将出台。
在隐私计算医疗应用场景中,数据融合应用主要有两种形式,一是跨医疗机构之间的数据共享流通,二是医疗开放数据与政企等单位数据的融合应用。数据提供方多是医疗机构、基因测序机构、科研机构等,数据使用方则是医疗机构、科研机构、制药企业等,主要用于基因组学分析、群体遗传学分析等医学研究、药物研发、辅助诊疗和疫情防控等方面。目前,主要的应用场景参见表3。
表3 隐私计算主要的医疗应用场景
隐私计算发挥技术优势助力医疗数据互联互通,实践案例从概念验证阶段正逐步到落地阶段。目前,厦门市落地了全国首个基于隐私计算的城市级应用,上海市长宁区构建了健康医疗大数据应用开放平台,福建省采用多方安全计算等方法打造防疫平台和身份认证系统。
政务数据规模大、种类多,涉及公安、司法、交通、水利、税务、电力、环境等关系社会生产的方方面面,政务数据的流通和共享将发挥巨大的作用。但各机构间的数据孤岛难以快速消除,数据合规和安全管控要求严格,因此如何让政务各部门间、政务与企业间进行数据共享应用,是当前面临的主要问题[15]。
在隐私计算政务应用场景中,主要有政务数据共享(如使用公共数据平台)和政务数据开放两种形式。数据提供方多是政府、医疗机构、金融机构、运营商等,数据使用方则是政府、医疗机构、金融机构、企业等,主要用于金融风控、商业选址、健康医疗、群租房、劳动就业、人口迁移等方面。目前,主要的应用场景参见表4。
表4 隐私计算主要的政务应用场景
在政策和技术的推动下,政务数据的实践案例显著增多,应用场景种类丰富,省市级创新场景非常突出。例如,南京市应用隐私计算技术建立了群租房识别系统,中山市应用隐私计算打造了政府数据开放共享的统一渠道,珠海市应用多方安全计算首创驾培资金监管新模式,山东省上线国内首个省级政务数据隐私计算平台。
除以上集中应用场景之外,隐私计算技术应用也呈现出向多行业、多场景扩散的态势,在物流运输、公共安全、智慧能源和数据交易所等场景均有探索性应用。
(1)多方数据打造安全物流新模式:物流数据与银行卡数据联合,建立散单客户风险识别模型,降低收款坏账风险,提升收派效能,推动“先寄后付模式”落地。
(2)多方数据助力公共安全精准画像:公安数据与运营商数据,联合建模区域安全态势感知模型,预防和管控群体性事件发生;多地公安数据结合,精准画像嫌疑人,辅助打击“黄牛”买分卖分专项整治行动。
(3)多方数据探索智慧能源新场景:电力数据与通信数据联合建模,“多维度”评估客户电费回收风险,实时监控预警企业非法用工行为;电力数据与互联网数据联合,打造火力发电燃烧优化系统,提高锅炉效率,降低污染物排放。
(4)多地数据交易所变革数据流通模式:北京国际大数据交易所上线基于隐私计算技术的新型数据交易平台IDeX系统,工商银行、招商银行等多家银行的数字金融服务悉数落地;上海数据交易所签约多家隐私计算企业成为首批数商;贵州借助包括多方安全计算平台、联邦安全计算平台在内的数据流通交易平台,构建形成了“数据归集—数据流通—数据交易”的体系化数据产业布局,打造全面数据产业生态。
作为促进数据合规流通的技术解之一,隐私计算技术复杂且常常呈现“黑盒化”现象,获得用户信任的门槛较高。一是隐私计算技术使用成本较高。目前,企业决策者较关心隐私计算应用的安全合规、收益与成本等方面,因此技术人员需要通过产品测试验证其安全性、性能及准确性,还需与业务人员调研需求并测算隐私计算与其他解决方案间的性价比。二是隐私计算正值风口,如果盲目跟风,用户很可能会放大隐私技术的价值和效果,造成技术的误用和滥用。
隐私计算在规模化应用时往往面临参与方多、数据量大、项目成员多且权限复杂等实际情况,需在安全、性能两方面提高可用性。
一是目前隐私计算从技术、产品、应用上尚存在安全风险。从技术上看,底层基于密码学算法协议,尚无法实现“绝对”安全[16];从产品上看,隐私计算产品安全性依然会受到恶意黑客攻击(如侧信道攻击、侵入式攻击等)、社会工程学攻击等挑战;从应用上看,隐私计算产品对使用者安全意识及规范操作素养有很高要求,安全意识不到位、操作不规范都会导致安全风险,一方面管理员需进行合理的角色权限分配并对使用者进行安全培训,另一方面是平台需确保权限管理正确运行。
二是性能瓶颈亟需突破。首先隐私计算中由于密文下计算和通信负载较大,同步性和可用性对隐私计算参与方的资源要求较高,因此目前难以支持海量数据实时计算[17]。此外,随着安全性和隐私性的提升,隐私计算的性能通常也会出现较大幅度下降。最后,在实际应用时,部署成本和企业节点间网络带宽等限制,也会进一步降低隐私计算产品性能表现。
许多数据提供机构和数据应用机构在与不同机构合作时会部署不同的隐私计算平台,这些重复建设的平台带来了巨大的运营成本。由于不同的隐私计算平台采用不同的算法原理设计实现,且目前多数平台并不开源,平台间的信息交互很难完成。因此,平台互联互通壁垒成为了隐私计算新挑战,或使得“数据孤岛”变成了“数据群岛”[18]。究其原因,是多种多样的算法为互联互通带来挑战并且系统设计中的个性化功能组件也增加了互联互通的成本。
当前数据安全相关法律法规配套文件仍不完善,隐私计算一定程度上从“最小化原则”“匿名化要求”等方面助力数据流通更加合规,与传统数据流通方案相比更有利于满足合规要求。但隐私计算是否能够满足“不可识别且不可复原”的监管要求仍需探讨。此外,隐私计算“数据可用不可见”的特性亦可能成为庇护违规数据交易的路径,目前尚无技术应用合规的有效监管机制。
在行业生态方面,行业组织平台作用的进一步发挥,有助于提升协同研发、成果转化、评测咨询、供需对接、创业孵化等服务水平,打造大中小企业融通发展的健康产业生态。在科普方面,目前媒体宣传、论坛展会、赛事活动、体验中心等多种方式加强隐私计算宣传,有利于提升社会认知水平,理解隐私计算在应用上的特点及效果。在标准方面,国内外众多标准化组织已开始制定或发布以框架和功能为主的隐私计算相关技术标准及相应评测。完善的隐私计算相关标准有助于产品规范,成熟的检测和验证手段有助于产品落地应用,目前中国信息通信研究院推出“可信隐私计算”标准和评测体系[20],在基础能力、性能专项、安全专项的基础上,进一步完善金融、通信、政务等场景应用标准。
针对安全风险,根据《隐私计算 多方安全计算产品安全要求和测试方法》《隐私计算 联邦学习产品安全要求和测试方法》等标准,在产品中对算法安全、密码安全、产品安全相关的多重安全风险点进行全面系统的安全加固;针对目前产品难以支持海量数据实时计算、提升性能与强化安全难以兼顾、可信执行环境硬件国产化程度不高、实现互联互通阻力较大等技术瓶颈,研究平衡技术性能和安全性的可行方案,优化算法协议及工程化方案,有利于进一步提升隐私计算可用性。
实现隐私计算互联互通能够促进数据积极有序流通。探索隐私计算各分支技术间、隐私计算与外部技术间的不断融合,为拓展应用边界夯实技术基础。例如,隐私计算各流程的操作和处理记录上链保存,可实现记录的防篡改;通过使用联盟链技术,引入隐私计算群体激励机制,制定多个标准化智能合约保证服务可靠[19];引入安全审计与智能合约机制,提供合规监管服务,使得更易验证隐私计算保护隐私数据的合规性。
一是要加强隐私计算等数据安全技术的法律法规适配性研究,厘清“隐私计算”“匿名化”“去标识化”等概念的内涵、实际数据保护效果和合规性影响。二是在此基础上完善《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等数据安全相关法律法规配套文件,为隐私计算等数据安全技术的合法性与合规性划出清晰的判断标准。三是建立隐私计算应用合规性监督与检测机制,通过相关技术手段检测和评估隐私计算的应用流程和效果,强化监管以防止技术滥用。鼓励企业完善内部合规管理制度,监控应用隐私计算进行数据流通的全流程。
本文通过隐私计算在金融、医疗、政务及新型场景中的典型应用,梳理相应应用范式,并提出问题与展望。本文的局限在于样本量基本来源于调研收集,还不够充分,未来将在研究中进一步扩大案例调研范围。在政策扶持、行业推广、技术分享等多方生态共同作用下,隐私计算可用性将进一步提升、应用边界将进一步拓展、行业进一步健康发展、合规及法律适配性进一步增强,作为数据流通中关键技术解,进一步促进数字经济高质量发展。