生物医疗场景下的隐私保护计算应用*

2022-06-01 05:57陈如梵王林郭兰停郑灏孙琪李帜王爽
信息通信技术与政策 2022年5期
关键词:联邦医疗模型

陈如梵 王林 郭兰停 郑灏 孙琪 李帜 王爽,3

(1.杭州锘崴信息科技有限公司,杭州 310053;2. 济南大学,济南 250022;3. 四川大学华西医院,成都 610041)

0 引言

在数字经济时代,不仅数据成为了新的生产要素,同时数据要素的市场化发展也带动数据融入各行各业,促使其他传统生产要素和领域进行数字化转型以更好地适应时代的变化。以医疗为例,在医疗信息化的浪潮下,医院信息系统(Hospital Information System,HIS)、电子病历(Electronic Medical Records,EMR)、图像存储和传输系统以及实验室信息系统等已经迅速普及,成为各医疗机构必不可少的一部分。我国的“电子病历系统应用水平分级评价”对医院的电子病历系统等级做出了分类,级别越高即电子病历的渗透率越高,4级意味着全院信息共享,可实现初级医疗决策支持;8级则表示可整合跨机构的医疗健康记录[1]。

尽管我国的大部分医疗机构内部已经初步实现信息化,但是距离真正的信息化还有一定的距离且大部分医院与医院之间的数据仍然互相独立,形成了众多“数据孤岛”。与此同时,在医疗领域中,从致病原因分析、疾病的早期筛查、临床诊断辅助到药物研发等几乎都依赖数据和样本量的积累。“数据孤岛”的存在很大程度上影响了精准医疗、AI辅助诊疗等领域的发展,阻碍了我国迈入智慧医疗的步伐。只有打破这些“数据孤岛”,将各个医院之间的数据,乃至医院与其他不同数据源之间的数据连接起来,构成多维度、多数据源的数据网络,才能充分发挥数据价值,使信息化行之有效。

制约生物医疗数据互联互通的问题诸多,其中最主要的包括数据流通的合规风险、流转过程中的隐私安全隐患,以及生物医疗数据种类繁多、处理难度大等。我国在数据隐私安全方面已随着现行法律制度的完善进入强监管时代。2021年正式实施的《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》不仅填补了我国法律法规在该领域的空白,更是目前全球范围内惩罚力度最强、监管力度最大的数据隐私安全相关法律,其强度甚至超过号称最严格的欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)。

已经有不少研究证明,传统的隐私保护手段很难完全满足现行法律所要求的“数据匿名化”,即无法通过处理后的数据重新识别出具体的个人身份信息。美国《健康保险便利和责任法案》(Health Insufance Portability and Accountability Act,HIPAA)中的安全港(Safe Harbor)策略是以往最常使用的数据脱敏手段之一。然而,即使按照其所要求的,剔除所有可用于识别、联系、定位某一特定个体的18种标识符,仍然有可能通过这些数据重新识别出特定个体的身份信息或者与该个体相关的敏感信息,称其为重识别攻击。对生物医学数据来说,这样的重识别攻击所造成的危害远大于其他类型的数据。有研究显示[2],这样的重识别风险广泛存在于中国的医疗卫生系统中。该研究对横跨33个省83 万患者的生日、性别及邮编进行了调查,发现其中19.58%可以通过这些信息的三段求交进行唯一定位,也就是说能够被识别出个人身份。尽管安全港策略能有效降低风险,但其中仍然有601 人能够被唯一识别[2]。

因此,迫切地需要更完善、更有效的技术手段来解决这些医疗机构的后顾之忧,保证数据能够安全共享,让隐私保护不再是“无用功”。隐私保护计算正是在这样的大背景下迅速由幕后走向台前,从理论发展到实践。目前,隐私保护计算相关技术被认为是技术层面解决数据共享和隐私安全矛盾的“最优解”。本文将对目前隐私保护计算技术体系下3种最主要的技术路线进行介绍,同时对这些技术在医疗领域的应用及医疗场景下隐私保护计算未来的发展方向和可能遇到的挑战进行分析和研究。

1 隐私保护计算技术

隐私保护计算(Privacy Preserving Computating)是以数据“可用不可见”为核心概念,在原始数据不外露的前提下实现多方数据协作、联合计算的一门交叉学科。值得注意的是,隐私保护计算不是某种特定的技术,而是一套完整的技术体系,主要通过联邦学习、密码学和可信硬件等多种技术的融合来实现。经过近几十年的发展,已发展出多种技术路线,其中以安全多方计算、联邦学习、可信执行环境为主流技术,以下将具体介绍这3种隐私保护计算技术的特点及其优劣。

1.1 安全多方计算

安全多方计算(Secure Multi-party Computation,MPC),目标是使一组互相独立互不信任的数据拥有方根据各自的私有数据联合计算,并且每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入和输出数据。安全多方计算最早于1982年由姚期智院士提出[3],描述了安全多方计算的一个通用场景,m个参与方联合计算一个函数f(x1,x2,…,xm),xi表示第i个参与方的数据输入。安全多方计算对协议的安全性有着精确的定义,一个合格的安全多方计算协议通常需要满足以下安全性定义。

(1)隐私:任何一方都不应该了解到超过其规定输出的内容。

(2)正确性:每一方都保证它收到的输出是正确的。

(3)输入的独立性:腐坏方须独立于诚实的参与方的输入来选择他们的输入。

(4)保证输出:腐坏方不应阻止诚实方获得其输出。

(5)公平性:每一方都应得到他们应得的输出。

安全多方计算拓展了传统分布式计算以及信息安全范畴,为多中心协作计算提供了一种新的计算模式,对解决多中心环境下的信息安全具有重要价值。但由于底层繁复的密码学理论基础,导致MPC在计算过程中的计算量和通信量非常庞大,对于网络带宽有限、算法复杂或数据量较大的任务场景有一定挑战。

1.2 可信执行环境

可信执行环境(Trusted Execution Environment,TEE),通常指存在于CPU上的一块特定区域,这块区域可以给数据和代码的执行提供一个安全的空间,以保证它们的机密性和完整性。TEE最早是由Open Mobile Terminal Platform(OMTP)提出的概念,起初是针对移动设备开放环境的安全问题。TEE中具有代表性的有ARM的Trust Zone和Intel的SGX(Software Guard Extension)等。

以SGX为例,它是一套扩展的x86指令集,通过使用“飞地(Enclaves)”来实现保护。“飞地”是CPU内置的隔离存储区域,这种区域可以保护数据免受特权级别(如操作系统、BIOS)进程或模块的影响[4]。即使攻击者可以控制整个软件执行环境(如操作系统、管理程序、BIOS等),SGX仍然能够有效地保护在飞地内处理的数据。更具体地说,SGX并没有将系统中的恶意部分作为传统的安全沙箱进行隔离,而是使用“反向沙箱”设计将私有代码、敏感数据和其他选定的需要保密的内容密封到飞地中[5]。SGX提供的远程验证(RA)过程可以使用户能够验证远程控制的平台是否真的具有可信硬件和相关软件配置,这点在SGX环境由不受信任的机构托管时至关重要[6]。图1展示了TEE架构的工作流程。

TEE技术实现了安全性和可用性之间较好的平衡,在当前传统公钥密码学性能受限的情况下是一个可选择的替代方案。然而,其安全性在一定程度上依赖于对硬件厂商的信任,同时攻击面较多,安全边界定义不清晰,而这些问题都在一定程度上阻碍了TEE技术的大规模应用[5]。

1.3 联邦学习

联邦学习(Federated Learning,FL)是一种分布式机器学习技术。2013年,王爽教授团队[7]提出以分布式系统解决隐私保护数据计算的初步概念和基本框架,着重探讨了在线联邦学习在医疗大数据方面的应用。2016年,Google团队将联邦学习应用在移动设备上进行联邦式的多节点数据联合建模。联邦学习的核心思想是在多个数据源(如边缘设备、数据中心、服务器等)之间协同训练模型,在这期间,各方的本地数据不会被其他方直接观测,从而实现数据协作与隐私保护的平衡。

联邦学习按照参与方数据分布模式可以分为横向联邦学习和纵向联邦学习。横向联邦学习主要是通过融合不同数据集中数据维度大致相同的数据来增加样本量(见图2)。纵向联邦学习是指不同数据源拥有同一个样本的不同特征时,每个参与方对各自的特征数据进行处理,最后汇总中间结果得到最终模型的场景(见图3)。

尽管联邦学习被认为能兼顾数据共享和隐私保护的双重目标,但其仍然存在一定缺陷。一方面,联邦学习虽然不直接暴露用户数据,但缺乏对中间统计信息、模型评估和最终输出结果的保护;另一方面,联邦学习不支持模型评估阶段的隐私保护。在具体的实践中,模型评估阶段也包括许多敏感信息,如模型参数、模型输入数据、模型结果(如诊断结果)等。

安全联邦学习(Security Federated Learning,SFL)是为了弥补联邦学习中存在的不足而产生的进阶技术。它是在原有技术的基础上,通过软硬件结合的方式,在保留联邦学习分布式计算特点的同时,通过软硬件结合的方式,仅分享经过加密的中间统计值,不分享明文个体数据,同时也对模型本身进行保护,保证生物医疗数据共享的全链路隐私安全。

安全多方计算、可信执行环境和联邦学习作为隐私保护计算的三大主流技术在互联网各产业发挥着重要的作用,可以涵盖数据的生产、存储、计算、应用等信息流程。此外,差分隐私、零知识证明、同态加密、区块链等技术也在隐私保护计算领域逐渐发力。这些技术通常情况下并不是替代关系,而是可以相互结合,为营造高效安全的隐私保护计算环境而发力。

2 医疗场景下的隐私保护计算技术应用

2.1 基因组学分析

基因组学分析,例如全基因组关联研究、致病基因分析、癌症早筛等,在疾病防治中起到至关重要的作用。以全基因组关联研究(Genome-Wide Association Studies,GWAS)为例,GWAS是将患者全基因组范围内的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点与对照组进行比较,找出所有变异的等位基因频率,继而排查出可能导致目标性状的变异基因位点。相比较于候选基因策略,GWAS不需要预设致病基因,很大程度上避免了研究过程中的“绕弯路”。同时,由于GWAS研究发现了许多此前未曾发现的基因和染色体区域,因此为复杂疾病(如脊柱炎、肿瘤、糖尿病等)发病机制、致病因素的探索以及发展新疗法、开发新药物提供了更多线索和思路。

由于基因数据的高敏感度,首先要确保数据隐私的安全。数据一旦脱离医疗机构的管理边界就会失去控制,不论是在传输过程中还是在可信第三方中都有可能面临泄露的风险,因此在带有隐私保护的基因组学研究中,可以利用安全联邦学习等技术实现隐私建模。隐私建模是指在多中心数据联合分析中,使患者级别的明文数据不出医疗机构的管理边界,即在数据可用不可见的情况下,通过交互加密的模型统计信息,实现数据虚拟融合,进而完成跨中心的联合数据建模与分析。同时,基于联邦学习的分布式计算特性,由于部分计算在本地完成,可以减少基因数据这样的大体量数据带来的通信负担。

Wu[8]提出了一个名为iPRIVATES的技术框架,用于支持强直性脊柱炎的GWAS分析。不同于以往的技术框架只注重单一技术的设计,该框架以联邦学习为核心,融合了多种技术和算法,既利用了联邦学习分布式计算的特性不交换明文数据,又结合了其他技术弥补联邦学习对中间统计信息、模型评估、输出结果等阶段信息保护缺失的不足,能够更好地保护基因数据的安全。具体来说,数据共享时,不同数据源和全局服务提供商之间的通信链路是攻击高发的环节,典型的如对中间统计和/或联合分析结果的窃听或中间人攻击。对于这种攻击,研究团队使用了基于安全套接字层消息验证码来降低风险。同样地,对于全局服务器来说,内部攻击是其所面临的最大威胁之一,比如基于似然比检验(Likelyhood-ratio Test,LLR)攻击可用于在基因组数据共享信标网络中重新识别个体。研究团队在框架中融入了基于SGX的可信执行环境以应对这一类风险。

在研究过程中,研究人员利用模拟数据集和真实世界数据来评估iPRIVATES的性能。结果显示,该框架能够支持跨多家医院和研究机构的全基因组数据协作,且其结果和传统的集中式计算等价,证明了该框架的可靠性[9]。

2.2 罕见病研究

罕见病研究中最常见的问题是样本量不足。由于疾病的特殊性,单一机构的数据量往往不足以支持一项结果可靠可信的研究,而跨机构患者数据的不安全流动又受到严格限制。不仅如此,某些疾病由于极为罕见,甚至需要联合多个国家的数据才能满足一次研究所需的样本量,而这又涉及到跨国数据流动合规性的问题。不同国家之间的隐私政策和法律监管要求不同,同样的隐私保护手段很难同时满足多个国家的要求。

Chen[10]分享了一个跨三国(美国、英国、新加坡)儿童川崎病研究的实践案例。传统的国际合作需要将个人级别的患者数据物理集中在一个站点。但该案例中应用的技术框架——PRINCESS则不同,它使用分布式计算使原始数据不需物理流动。同时,利用隐私保护计算技术进行中间结果及其他数据的安全传输和分析,在这一过程中,不论是有意或无意,都不会泄露个人隐私数据及中间结果。这保证所有数据共享符合各国数据流动法规监管要求,解决了医疗数据跨境流动难的问题。其次,该框架同时支持可信执行环境、多方安全计算和同态加密等多种技术,对于没有可信硬件的参与方,也可以通过基于软件的技术进行联合安全合作,因此使得安全的大规模跨国遗传数据分析在实践中可行。

2.3 新药辅助研发

药物研发要经历靶点的发现与验证、先导化合物的发现与优化、候选化合物的挑选及开发和临床研究等多个阶段。传统的药物研发耗时耗力,且周期长、成功率低。因此,越来越多的研究者希望能将人工智能等技术应用于药物研发,提高研发效率,最重要的是能极大地缩短药物研发时间。首先靶点发现与验证阶段,传统的方式就是基于假设的验证工作,通过不断验证找出正确的假设。要人为地从海量线索中找出关键点并推断出这其中的逻辑关系,这一学习过程势必漫长且效率低下,而人工智能的加入可以大大提高这个发现到验证过程中的效率,而且能够更深入、更全面。

然而,人工智能是高度数据依赖和驱动的领域,完整的知识图谱和逻辑的建立是大量数据训练的结果。众多药厂、研发机构由于利益关系不希望其他方获取自己的数据,法律层面也不允许缺乏保护措施的数据流动,隐私保护计算则可以解决这些问题。在靶点发现与验证阶段,可以利用隐私求交找出患有同种疾病患者之间的共同点,根据结果排查出真正的靶点,由于不会暴露患者的隐私也无需担心己方数据被窃取,因此可以打破数据孤岛,联合多个药厂和研发机构之间的多维度数据源,高效利用数据完成研发。

此外,药物研发的其他阶段,例如药物的效果评估等,也依赖大量数据的积累。Cox比例风险回归模型(Cox Proportional Hazards Model,简称“Cox模型”),是一种广泛使用的生存分析方法,可用于评估药物或干预方式的效果。为了提高分析结果的准确性,通常需要大量的数据进行模型训练,跨机构的数据共享能大幅提高样本量以实现这一目标。为了在共享数据的同时保护患者隐私,Lu[11]开发了一套基于分布式Cox模型的在线服务系统:WebDISCO,该服务系统用于支持跨多个中心的带有隐私保护的基于联邦学习的生存分析。该服务系统在本地处理个体级的敏感数据,只交互敏感度较低的中间统计值以构建全局Cox模型。试验结果显示,联邦式的Cox模型和集中式Cox模型的模型系数一致,其平均方差范围在10~15到10~12之间,这证明了联邦式的Cox模型这一概念的可行性和实际的应用前景。

2.4 医学影像分析

医学影像学数据是生物医疗数据中一个非常重要的组成部分。与新药研发相同,在医学影像分析中也越来越多地应用到人工智能等技术,通过智能辅助诊断疾病、智能勾画靶区、智能判断病理切片等方式辅助医生和研究人员完成临床诊断和研究。然而,人工智能模型精度和效果往往是由训练样本的数据量及其质量决定。在实践中,由于数据孤岛问题、传统数据脱敏的局限性带来的隐私问题、数据监管问题等,导致人工智能模型没有足够的数据支撑完成训练,也就限制了医学影像人工智能的发展。

一项研究针对2020年期间发表的,通过胸部X光检查(CXR)和电子计算机断层扫描(CT)图像进行机器学习建模以检测或预测新冠病毒的文献进行了临床应用价值的调查[12]。研究团队[12]从2212 篇文献中最终筛选出了62篇质量较高的文献,然而最终发现这些文献中所提到的模型都不具有临床应用价值,研究人员指出,这些模型所使用的数据集质量和规模严重不足是导致这一问题的主要原因之一。其中,超过半数的模型使用了公共数据集,然而这些公共数据集往往不具有足够的数据多样性,因此可能导致严重的偏差风向,使模型失去临床应用价值。

隐私保护计算可以让患者级明文数据在数据所有方管理边界的前提下实现数据虚拟聚合,因此既可以保证患者的隐私安全,又能保证药厂等数据源方的权益。在这一前提下,数据源有意愿参与数据共享,就可以打破数据孤岛,联合多维度大规模数据协作,提高模型精度和效果,解决上文所提到的模型缺乏临床应用价值的问题。

在具体实践中,这类数据的高效传输和储存是一个难点。由于在这类场景下不仅需要保证数据隐私的安全,还需要尽可能地保证数据的完整性和可利用性,因此不论是直接压缩加密的影像数据还是在加密之前压缩数据,都不适用这种场景。传统的压缩算法无法处理加密数据,会破坏数据的完整性,使其失去可利用性,而在加密之前压缩数据则无法在处理数据的同时保证其隐私安全。Wang及其团队[13]开发了一个基于分布式源编码(Distributed Source Coding,DSC)的安全隐私保护医学图像压缩框架(SUPERMICRO)。该框架可以在不影响安全性和压缩效率的情况下对加密数据进行压缩,保证数据在带有隐私保护的前提下进行传输和存储以及服务于后期的数据分析。该团队在两个CT图像序列上测试了这一框架,并将其与最先进的JPEG 2000无损压缩进行了比较。试验结果表明,SUPERMICRO框架提供了增强的安全性和隐私保护,以及较高的压缩性能。

3 未来方向及挑战

3.1 平台兼容性问题

隐私保护计算技术在精准防疫、基因分析、临床医学研究等领域都在积极地实践落地。然而,由于医疗领域的计算任务目标纷繁复杂,精度和数据量要求也相对严苛,这就对隐私保护计算平台的能力提出了更严格的要求。此外,不同机构使用的隐私保护计算平台也可能来自不同的技术提供商,从而使用不同的特有技术,这就导致使用同一平台的机构与地区可以实现互联互通,然而不同的平台之间却互相孤立,无法实现信息交互,数据孤岛变成了数据群岛。

因此,制定不同平台之间互联互通的标准是破除数据群岛现象,进一步释放数据潜力的必经之路。中国信息通信研究院等标准化组织也正在积极推动这一互联互通的标准建设。具体来讲,互联互通指不同技术方案的隐私保护计算平台之间协同完成某一项隐私保护计算任务的能力。鼓励各平台的技术百花齐放,各自发展,但在必要时可以使用标准接口协作完成隐私保护计算任务。

隐私保护计算行业互通标准的制定落地,将有助于进一步发展基于数据驱动的医疗领域研究开展,以及发展新的经济和商业模式,反向刺激数据要素的生产推动数据的开放和应用,完成医疗等行业数字化和智能化的数据新基建。

3.2 落地部署面临的挑战

首先是安全问题,与其他领域的数据不同,医疗数据的敏感度更高,也对安全的要求更高。以基因数据为例,仅仅通过基因数据很难回溯定位到个人,但如前文所提到的,当多个“单一数据”被结合在一起时,就有可能推断出身份信息或是患者不希望被公开的敏感信息。此外,由于每个个体和其血亲之间的基因具有高度相似性,基因数据泄露所带来的负面影响将不止局限于单个个体,还极有可能蔓延至其家族群体,使伤害扩大。由于很多研究中会将数据交由可信第三方进行计算,即使可信第三方真得可靠,一旦数据脱离医疗机构掌控,就面临数据泄露和篡改计算过程的风险。因此,为了保证患者的隐私安全和生命安全,在进行此类研究时,隐私保护计算多使用恶意模型作为安全假设,而非其他领域经常使用的半诚实模型,以确保计算过程中出现可能导致风险的篡改行为时,能够被及时发现并阻止。这就要求隐私保护计算服务的提供商拥有较强的技术实力,因为在同样的场景下,基于恶意模型的算法难度要高于基于半诚实或诚实模型的算法。

其次是数据类型和处理难度方面的挑战。医疗数据的类型丰富,除了常见的结构化数据,还有非结构化数据,包括医嘱、医学影像数据、基因数据等,这些类型的数据是其他领域所没有的。此外,医疗数据在处理难度上也更高。在非医疗领域,所需的方法论往往比较简单,例如逻辑回归或者是树模型就可以满足绝大多数场景的需求,但是在医疗领域,所需的方法论可能要增加几十或几百倍。例如,全基因组关联分析中基因数据首先要进行对齐,然后才进入到致病基因的筛查和分析;对于影像学数据可能涉及到勾画病灶;对于非结构化数据,比如医生给患者的医嘱,需要对这些数据进行自然语义处理,提取关键信息,形成结构化可用的数据才能进行后续工作。因此,市面上流行的开源框架很难直接用于医疗数据的处理,或许需要医学领域的专业人员和隐私保护计算专家统一协作,结合医疗场景的特性研发出真正可用、适合医学场景的技术框架。

最后是对于计算精度的要求。在非医疗领域,比如征信、风控等,大多只需要输出一个数值用以评估,这个数值只要和传统集中式计算的结果大致一样就可以用来做实际的生产投入。但是在医学领域,由于直接关系到患者的生命安全,计算过程中的误差可能是致命的。如果这一误差是由于加入了隐私保护计算而产生的,那么隐私保护计算的引入就不能够被接受。因此,医疗领域的隐私保护计算需要做到没有误差,或者是将误差控制在一个非常小的范围内,这对技术研发人员同样是一个非常大的考验。

4 结束语

从技术层面来说,隐私保护计算确实是促进数据互联互通的最优解。在医疗领域,隐私保护计算也有了不少的实践案例,然而由于医疗数据具有敏感度高、数据类型复杂、处理难度大等特点,相比于其他领域,隐私保护计算在医疗场景下的应用难度更高。未来,除了融合多种技术以更好地保护生物医疗数据的安全之外,隐私保护计算的研究人员和从业者还应当增进和医学领域学者专家的合作,以期开发出更适合医疗场景的技术框架和底层算法逻辑,避免出现闭门造车导致所开发的技术不具有实践价值的问题。

猜你喜欢
联邦医疗模型
《现代仪器与医疗》2022年征订回执
联邦学习在金融数据安全领域的研究与应用
适用于BDS-3 PPP的随机模型
《现代仪器与医疗》2022年征订回执
自制空间站模型
新型医疗废弃物焚化舱
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
模型小览(二)
遇到疾病,如何医疗
离散型随机变量分布列的两法则和三模型