医疗大数据隐私保护技术的研究进展

2019-06-17 02:18:20史婷瑶马金刚曹慧孟琳张驰

中国医疗设备 2019年5期

史婷瑶，马金刚，曹慧，孟琳，张驰

山东中医药大学理工学院，山东济南 250355

引言

21世纪，科技的快速发展使得信息技术广泛应用于人们生活的各个方面，日常产生的数据量急剧增多，传统的数据模式已不能满足现在的需求。不可否认，大数据时代已经来临。医疗领域不仅有服务和行政的运营类数据，还包括临床、影像、基因、实验室及公共卫生等复杂医疗数据，数据量大且类型繁多[1]。患者就医时所做检验（例如影像检查、化验等）数据及结果、医生医嘱等信息会被传送到云端或设备进行存储[2]。医院掌握着患者的个人信息、病情、用药情况甚至基因信息，如果能够合理分析总结，会对医学的发展提供很大帮助，反之，患者医疗信息一旦遭到泄露，或许会为医院和患者本人带来严重的损失。可见，大数据方便了我们工作生活的同时，也面临诸多安全问题。

1 医疗大数据概述

2010年，Apache Hadoop组织把大数据定义为“一般普通的计算机软件无法在可接受的时间内获取、管理、处理、分析的超大规模的数据集”。2011年5月，麦肯锡全研究院在《大数据:创新、竞争和生产力的下一个前沿领域》中定义，大数据是一种在一定时间内无法用传统数据库软件工具获取、储存、管理、分析的足够大的数据集合。

大数据具有数据种类繁多、数据量庞大、数据处理速度快、数据价值密度低等特点，如果其在收集、存储、传输和使用的过程中未被妥善处理会对用户的隐私安全造成威胁，引发严重的安全问题[3]。

1.1 医疗大数据的定义

医疗大数据是大数据在医疗领域的一个分支，是指在与人类健康相关的活动中产生的与生命健康和医疗有关的数据，主要来源于电子健康病历等临床类数据、医院运营、生物医学研究、疾病防控、健康保障和食品安全、公共卫生及健康管理数据、养生保健等方面。医疗领域是大数据的一大重要应用领域，Kayyali等[4]指出医疗领域大数据处于初级阶段，许多潜在的价值正在逐渐显现。国家卫健委提出了“推进健康医疗大数据应用，制定促进健康医疗大数据应用的相关方案，推动健康医疗大数据有序发展的意见”。2018年9月13日，国家卫健委公开《国家健康医疗大数据标准、安全和服务管理办法（试行）》，旨在对医疗大数据的发展方向加以引导，可见国家对医疗大数据的重视。

1.2 医疗大数据的特点

除了具备大数据的特征，医疗大数据也有其特有的特征[5]。

（1）数据具有不完整性。无法全面搜集、处理和反应所有疾病的全部信息，数据存在残缺和偏差。

（2）数据具有长期保存性。《医疗机构管理条例》规定，患者门诊信息保留时间不少于15年，住院信息不少于30年，影像信息永久保留。

（3）数据具有时间性。医学检验的波形和图像是时间函数，或同一种疾病在不同时间的情况可能不同，这都具有一定的时间性。

（4）数据源多变。在不同领域的医学研究中，数据的记录数量、存储量类型、样本大小及数据维都可能不同。

医疗大数据在提取过程中简化了原始数据，且临床数据是按照固定格式收集的，所以数据相对结构化，这是医疗大数据与其他领域的大数据最大的区别[6]。其次，相较于其他领域，医疗大数据直接关系到人类生命健康，因而对分析结果要求更精确，安全问题也相对突出。

2 医疗大数据的隐私保护

冯登国等[7]提出了六种大数据的隐私保护技术：数据发布匿名保护技术、社交网络匿名保护技术、数据水印技术、数据溯源技术、角色挖掘、风险自适应的访问控制。总结现有的隐私保护方法，医疗领域的隐私保护技术主要有医疗数据的分级保护制度、基于访问控制的隐私保护、基于数据加密的隐私保护、基于匿名化的隐私保护。

2.1 卫生行业信息系统等级保护

国家卫计委在《卫生行业信息安全等级保护工作的指导意见》中指出，要优先保护重要信息系统，在信息系统建设过程中，同步开展等级保护工作，并且要根据信息系统的变化及时调整保护等级。卫生行业信息系统等级保护体系的建设需要两方面的支持，一是技术支持，保障物理、网络、主机、应用、数据安全；二是管理支持，包括安全管理制度、安全管理机构、人员安全管理、系统建设管理和系统运维管理。《计算机信息系统安全保护的等级划分准则》将信息系统划分为五级，而重要卫生信息系统原则上不低于三级，可以从边界安全防护、网络环境安全防护、主机安全防护和应用防护4个层次进行保护[8]。虽然国家已经出台了不少等级保护相关政策，但在实际保护和管理过程中仍存在一些问题，如医疗卫生行业没有普及等级保护的重要意义，领域工作人员责任感不强；缺乏专门的管理部门和标准化的规章制度等，我国医疗卫生行业等级保护工作还有很长一段路要走。

2.2 基于访问控制的隐私保护

基于访问控制的隐私保护是指通过对用户访问各类资源权限的限制来防止越界访问的一种方法。在医院信息系统中，参与人员众多，信息传递过程中泄露的机率也非常大。访问控制技术大多是以角色为基础，访问和控制为主体，对不同职责的人员设置不同的访问权限，这也涉及到了数据分级方面的内容。通过建立相应的角色树，根据一定规则进行创建、分配，明确各部门职责，财务处负责财务管理，护理部负责病区管理，药剂科负责药品管理等，不需要访问与本部门无关的信息。但是制定怎样的规则和怎样将权限分级并不是一项简单的工作，实际工作中会存在很多特殊情况需要一一设定，不便于访问控制的整体管理和调整。基于此，Yarmard等[9]基于交互式架构提出了一种访问控制模型，该模型能通过捕获用户的动态行为来相应地设定访问权限，更好地应用于医疗领域。

2.3 基于数据加密的隐私保护

数据加密技术在保障网络信息安全方面有非常重要的作用，基于密钥的数据加密技术分为常规密钥加密和公开密钥加密，通过对敏感信息（明文）经过密钥和函数进行替换或移位，转换为不能识别的乱码（密文），密文传输到信息接收方处，再通过密钥和函数将密文还原为易读取、有意义的明文，还原的过程称作解密。

常规密钥加密又称对称加密，收发数据的双方需在数据传输前商定一个公用密钥，随后用此密钥和加解密函数进行加密和解密，加密密钥即解密密钥，其安全性一方面取决于密钥复杂程度，另一方面，如果密钥在传递过程中发生泄露，对信息安全也是一大威胁。公开密钥加密又称非对称加密，信息发送方使用公钥对信息加密，接收方用私钥解密，公钥与私钥不同且不能相互推导。

因此，我们可以不对公钥进行保密，只保证私钥的安全性即可[10]。二者加密过程对比图如图1所示。

常规密钥加密是目前应用最普遍的加密技术，常用的算法有DES算法。DES是一种具有16轮迭代的分组密码算法[11]，加密过程与解密过程相似，使用同一密钥，只是运算顺序相反。此算法加密速度快，效率高并且应用范围广，通过将明文以64位为单位进行分组，加密后得到64位一组的密文，其中密钥有八个字节共64位，实际有效的只有56位，8、16、24等八的倍数位为奇偶校验位未参与运算[12]。由于DES算法的密钥较短，容易受到穷举法攻击，即反复尝试不同的密钥直到成功，因此拓展出二重、三重DES等算法，通过延长密钥长度提高安全性[13]。计算机运行速度的不断提升可能会使DES算法的安全性比从前低，但目前来说仍是有效的方法。

图1 常规密钥加密与公开密钥加密过程对比图

公开密钥加密常用到RSA算法。RSA算法需要产生素p和q（p，q保密），p和q是随机生成的且需要足够长（长度约为十进制数的100位或更大），p与q构成模n（公开）和Euler函数φ(n)（保密），n=p×q，φ(n)=（p-1）(q-1)，φ(n)表示n的欧拉数。选取随机的一个正整数e作为加密密钥，e可公开，1＜e＜φ(n)且 gcd(e,φ(n))=1，即 e与 φ(n)互素。通过ed modφ(n)=1计算得解密密钥d，d需保密。(n,e)为公钥，(n,d)为私钥。假设明文为m，密文为c，加密过程满足c=memod n，解密过程中明文m=cemodn[14]，其中，e作为公钥是公开的，如果模n遭泄露，n=pq被因式分解，即可由p，q计算出φ(n)，从而能根据ed modφ(n)=1计算出密钥d，计算获得明文[15]。可以说，n越长，因式分解难度越高，RSA安全性越高，但如果不断增加密钥长度，就会使得加密效率低下。RSA自开发至今的四十余年，被公认为是最完善、应用最广泛的加密算法，但是其加解密速度缓慢仍是一个不可忽视的缺点。肖振久等[16]提出一种将双素数改为四素数的RSA算法，以提高算法安全性和运算效率；李云飞等[17]提出可以将解密时的一些计算量转移到加密方，提升算法性能。

面对日益增大的数据量，医院陆续引进了医院信息系统来管理各部门的信息，达到使工作更加便捷高效的目的。医院信息化在推广过程中面临许多风险和问题，例如攻击者可能假冒患者获取患者资料，或攻击通信信道获得患者信息，从而篡改信息达到某些目的，针对这些问题，我们可以将患者的信息加密后再储存，或者对通信信息进行加密，这样即使攻击者获得了患者信息，也是无法理解的密文。与其他领域数据不同的是，医疗数据类型多样，医院系统中储存的信包含数值型数据、文本、信号、图像、音频、视频等等，对于文档型数据，除了用DES、RSA算法进行加密，也可以将二者相结合，加密速度快且强度高。密码技术也同样适用于动、静态图像，将图像颜色的二维数据转换为一维数据，再以64位为一组进行加密。

此外，数据加密技术也应用于人类健康医疗的各个领域，如远程医疗、无线医疗传感网、可穿戴设备数据等，为我们的隐私安全提供保障。数据加密还广泛应用于网络数据库、软件、电子商务和虚拟专用网络（VPN）等领域，目前很多医院都构建了自己的局域网，VPN应用于医院局域网，通过加密等技术，可以保证各种医疗信息安全并有一定访问控制的功能。

2.4 基于匿名化的隐私保护

已发布的信息常常被攻击者拿来与别的途径所获信息进行链接操作，经过推理得到隐私信息，这种隐私获得方法即为链接攻击，而匿名化是对抗此类攻击的主要技术之一。文献[18]给出了例子，将医疗信息表与选民登记表相链接，就能基本确定患者的诊断结果。为了应对链接攻击，Sweeney[18]提出并改进了k-匿名。

待发布的数据通常包含四种属性：① 个体标识符，可以表示个体身份的属性，如姓名、身份证号等；② 准标识符（QI），与其他属性进行链接从而表示个体身份的属性，如性别、年龄、邮编等；③ 敏感属性，描述个人隐私，发布时需保密的属性，如收入、健康状况等；④ 非敏感属性：公开后对隐私不造成影响的属性。

患者的档案通常以患者的名字、身份证号等可以确认身份的信息进行标识，而这些信息本身就是该保护的部分，所以需要对其进行匿名化保护，我们可以建立k-匿名模型，通过泛化和抑制两种方法对准标识符进行分组[19-20]。泛化是将具体的数据替换为抽象模糊的数据，如将患者出生日期“1990年1月1日”替换为模糊的“1990年”。抑制是将属性进行隐藏，被抑制的元组在发布后是看不到的。k-匿名模型要求发布表中的每个元组都至少与其他（k-1）个元组具有完全相同的准标识符属性[21]，泛化处理后具有相同准标识符属性的称为一个等价类簇，且重复次数至少为k（k≥2），这样使得发布表中每个元组主体信息就会和其他k-1个元组无法区分，来保护隐私信息[22]。

由于k-匿名模型是对准标识符属性进行约束，没考虑敏感属性，攻击者可以根据自己的知识和已有的信息，推理出匿名数据，因此，k-匿名不容易抵挡同质性攻击和背景知识攻击[23]。为了解决以上问题，Machanavajjhala等[24]在k-匿名基础上提出了l-多样化匿名，这样使得每一个等价类簇中的敏感属性包含l个元素，从而解决问题。

现有的匿名模型大多是先删除身份标识属性，再将准标识属性匿名化，基本都是保证了数据的有效性，但会损失某些数据属性，然而，在信息交互的过程中，丢失的那部分信息可能会影响正常运作。基于此，童云海等[25]创新地提出了一种隐私数据发布中保留身份信息的匿名方法，提高了信息的有效性。

3 总结与展望

大数据的出现，为各行各业带来了或积极或消极的影响，医疗领域的特殊性使得人们对隐私安全问题更加重视，通过对以上方法及技术的分析可以看出，医疗卫生信息系统等级保护还存在医疗卫生工作人员等级保护意识薄弱，缺乏专业部门管理并缺乏标准化的规章制度等问题；基于访问控制技术效率高，但是灵活性差，特别是在医疗卫生信息系统中参与人员众多，情况复杂，往往难以满足实际需求；数据加密技术可以保证数据安全性，确保信息准确，是保障网络数据安全的关键技术，但因其大运算量耗费大量时间，开销较大；传统匿名化技术能够抵抗推测类的攻击，且效率较高，但是经过泛化处理后容易丢失某一些信息，降低数据可用性。除了本文介绍的几种基本算法和模型，国内外学者也提出许多新的思路，根据实际需求对算法和模型进行改进，如将DES与RSA算法相结合的混合加密方法，加密效率快且加密强度高；将RSA与AES算法相结合，既能安全保管密钥，有提高了加密效率；将DES拓展为多重DES算法，通过增加密钥长度提高了安全性；对k-匿名技术进行改进，提出基于身份保持或者有损连接的个性化数据发布保护方法，既保证运算效率又保证数据有效性。除了技术方面的保障，还应建立完善的制度保障，在医疗领域建立完善的隐私保护体系，为数据的存储、访问和应用形成系统的保护。