医学科学数据共享与使用的伦理要求和管理规范(二)隐私变迁与挑战

2020-04-21 05:36:42关健

中国医学伦理学 2020年3期

关健

(中国医学科学院北京协和医院&国家人口健康科学数据中心(临床医学)和肿瘤专题数据服务，北京 100732,gjpumch@126.com)

互联网和大数据时代，数据共享成必然趋势，共享是大数据建设和精准服务的前提和基础。但是，随着数据产生、传播和分析等技术的发展，无论是涉及金融(如银行、保险)、生活日常服务(如交通、出行、通信、电子购物及其运输等)，还是医疗服务等都涉及隐私权的保护，隐私的内容、范围、泄露的速度和影响等均与传统服务和传播有所不同。有专家认为面对大数据，传统的隐私法律面临崩盘。数据共享和大数据带来服务的精准增加隐私泄露的风险[1],服务越精准，信息泄露隐患越大。医学科学数据涉及的健康隐私具有独有的内容和特点。生命科学技术的发展和互联网、大数据分析技术的广泛应用，使健康隐私信息，也可以称为受保护的健康信息(Protected Health Information，PHI)的内容和形式不断发生变迁，医学科学数据的共享过程中隐私保护面临更多的挑战和问题。

1 隐私保护是医学伦理要求更是法律要求

医学科学数据的共享必须遵循生命伦理学的基本原则。特别是涉及人体的研究产生的数据的共享和使用。隐私保护是生命伦理学基本原则——有益原则应用在涉及人体的医学研究受试者和数据共享的个人参与者保护的重要要求。

科学研究产生了巨大的社会效益，但同时引起一些令人不安的伦理问题。《贝尔蒙特报告》确定了开展涉及人类受试者的生物医学和行为研究所应遵循的三个基本伦理原则——尊重人、有益和公平原则，为指导解决涉及人类主体的研究所产生的伦理问题提供了一个分析框架[2]。隐私保护是有益原则应用于涉及人类主体研究的伦理要求。有益原则是指受试者应该受到伦理对待；不仅要尊重他们的决定，还要保护他们免受伤害，且努力保障他们的福祉。《贝尔蒙特报告》中把有益原则解释为一种义务，并相应的制定了两个一般性规则，即：不损害和最大化潜在利益并尽量减少可能的危害。要求在特定研究或项目，研究人员、数据提供者及其相关机构有义务事先考虑研究或共享过程中利益最大化和风险降低，包括隐私保护及隐私泄露的风险。

1948年联合国大会通过的《世界人权宣言》将隐私权确定为一项基本人权[3]。只是不同国家、不同时期的隐私保护内容有所变化。隐私权是我国公民的基本权利，公民的隐私权受法律保护。我国《宪法》第38-40条分别从公民的人格尊严、公民的住宅以及通信自由和通信秘密方面作了规定，为我国日后完善隐私权制度提供了宪法依据。民法总则第五章民事权利中有隐私权的直接条款。其中，第110条明确提出自然人享有隐私权。第111条则进一步规定“自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的，应当依法取得并确保信息安全，不得非法收集、使用、加工、传输他人个人信息，不得非法买卖、提供或者公开他人个人信息。”在《侵权责任法》第2条中也用列举的方式明确隐私权作为民事权益被侵害时，应当依照该法承担侵权责任。程序法，如《民事诉讼法》也有保护隐私的相关规定。数据共享中的隐私保护的对象是数据的贡献者——产生数据的个人参与者，保护隐私是数据共享的必要先决条件。

2 个人健康隐私概念和数据共享的潜在隐患

医学科学数据共享与使用对医学科学研究和疾病诊治等具有重要意义和潜在的巨大社会效益，同时，共享的无论是解决医学科学问题的研究，还是用于研究的医学业务数据，侵犯或泄露个人健康隐私的行为都可能会产生严重的后果。美国《健康保险可携带性和责任法案》(the Health Insurance Portability and Accountability Act，HIPAA)隐私规则保护健康信息的去识别方法指南，把受保护健康信息(Protected Health Information，PHI)确定为该法案的适用实体或其商业伙伴以任何形式或媒介传输或维护的可单独识别的健康信息[4]。该定义下豁免了少数类别的个人可识别健康信息，例如在该实体作为雇主持有的就业记录中发现的个人可识别健康信息。

医学科学数据共享和使用更要重视健康隐私信息的保护。数据共享(Data Sharing)是指公开或在特定访问条件下向其他研究人员提供个人水平数据，包括原始数据和/或衍生数据；并包括数据用户之间的数据传输或数据交换。数字化储存、电子传输是数据共享的基础，也使个人参与者的隐私泄露风险大大增加。而个人健康隐私信息对公民具有更大的潜在危害性。2018年5月1日实施的国家标准“信息安全技术个人信息安全规范”(以下简称“个人信息安全规范”)把健康生理信息与身份证件号码等一并归为个人敏感信息，即“一旦泄露、非法提供或滥用可能危害人身和财产安全，极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息[5]。如健康体检信息的泄露(如乙型肝炎病毒携带者)会导致当事人的工作就业歧视和健康保险歧视。因此，一些保险公司要求共享健康体检数据是绝对不能允许的，且这与保险公司的初衷相悖。疾病及其诊疗信息，特别是涉及一些敏感信息或疾病数据的泄露，可能不仅导致个人的声誉或者生活和工作受到严重影响，还可能影响其家庭。如心理障碍、精神疾病或一些遗传性疾病信息的泄露，也会对其家庭带来不利影响；性传播疾病(如梅毒、获得性免疫缺陷综合征)感染者和患者信息的泄露将给其家庭带来极大的生活、工作压力和不利影响。因此，对个人参与者保护的要求应该是医学科学数据共享和使用的必然伦理要求。

3 个人健康隐私内容和传播方式变迁及其影响

数据共享中不可避免的一个挑战是健康隐私内容变迁。生命科学技术的进展，为疾病诊治提供了新的机遇和发展。分子遗传学检测技术的临床应用，使更多的疾病被证实有遗传性因素参与或决定。更多疾病成为广义上的遗传性疾病，如心脑血管等慢性疾病、恶性肿瘤，甚至肥胖、阿尔兹海默症等均具有一定的遗传基础。随着新一代测序技术在医学研究的广泛应用、临床基因组学的进展，个人和其家庭的遗传信息已经成为研究、医疗和数据共享的潜在个人健康隐私信息[6]。“个人信息安全规范”中个人敏感信息列举的个人生物识别信息，可以理解为个人遗传信息。事实上，大数据分析技术使基因组测序信息完全构成个人隐私和个人健康隐私信息。通过基因组测序结果逆推人的外貌特征已成为可能。有研究报道，在线个人图像服务与大型基因数据库(如23andme)共存，将基因组数据与身体特征(如眼睛和肤色)联系起来获得特殊的相关性;通过基因组数据建立模型可以预测三维面部结构、声音、生物年龄、身高、体重、体重指数、眼睛颜色和肤色等。甚至可以高精度预测遗传上简单的性状，如眼睛颜色、肤色和性别；结合现代的面部和语音识别系统达到了重新识别人类的性能。尽管仍处于初期，但对面部的基因组预测可能有助于识别个人(图1)[7]。遗传信息作为隐私的逆向识别不可避免地将带来对个人、家庭、工作和生活的基因歧视。与此同时，基因检测和基因测序及其数据共享的商业化增加个人健康信息和遗传信息泄露的风险[8]。因此，笔者认为“个人信息安全规范”中对“个人信息经匿名化处理后所得的信息不属于个人信息”的观点不完全适用个人健康信息。

此外，医学数据和人工智能的结合的成果具有巨大的经济效益。人体各部位不同层次的图像检测信息(器官、组织和细胞)也成为人工智能的研发基础。与其他部位的图像信息不同，人的面部信息不仅直接构成个人健康隐私信息，也是传统隐私的重要组成部分。未经当事人允许，对一般人群(包括对本单位工作人员)和疾病人群的面部图像的收集，无论直接商用，还是用于人工智能分析、研究或产品研发(如疾病诊治软件等)都涉嫌侵犯隐私权。应用人脸识别技术的面部图像识别和收集的应用应该加强规范和管理。

图1 对面部的基因组预测图和真实图比较：真实(左)预测(右)

互联网和大数据时代隐私的潜在传播方式和范围也有所变化。传统的纸质版健康隐私信息的传播，对个人的影响有限。如果不是恶意传播，发现隐私泄露后采取措施，可以尽快限制隐私泄露的范围。而互联网时代，电子数字化健康信息往往通过互联网、自媒体等传播媒介，个人健康信息的传播快速而广泛，使隐私泄露范围不可预知和难以控制。网络时代的数据传输和共享，如果不加以管理控制，重要的数据和信息一旦传输或发布，不受地域的影响，全球几乎可以同时获知。因此，医学科学数据，包括医学大数据的共享和使用，使隐私保护难度加大，责任更为艰巨。

3.1 数据共享中隐私保护的挑战

第一，数据共享与隐私保护的矛盾。共享价值的实现与隐私保护之间的矛盾关系如同防火和防盗之间的关系。正如互联网和大数据分析在提供便利和精准服务的同时，还引起隐私泄露的巨大风险。天网成为刑事破案神器，有效地震慑犯罪，但是个人生活隐私也暴露在无处不在的监视器下。随着产生大数据的技术和科技发展而不断扩展和变迁，无论是金融(如银行、保险)工作，还是生活日常服务(如交通、出行、通信、电子购物、物流等)，隐私的内容、范围、泄露的速度和影响等均与传统服务和传播有所不同，有专家认为面对大数据，传统的隐私法律面临崩盘。可以说，数据共享和大数据带来服务的精准与信息和隐私泄露的隐患是成正比的，服务越精准，信息泄露隐患越大。类似地，个人水平数据的共享，其最终目的是促进数据的二次分析和再利用，共享数据的完整度与数据的潜在价值呈正向关系。共享的数据越完整，包含的信息越多，数据再使用的科学价值越大，但其个人健康隐私信息泄露的风险也越大；反之，健康隐私信息的过度保护，则医学科学数据共享没有意义。

第二，数据共享隐私保护的利益相关者众多。医学科学数据共享隐私保护面临的另一挑战是隐私保护责任归属问题。目前互联网和大数据时代，个人隐私信息泄露情况较严重，如子女教育信息、购物和商业信息等，生活中经常面对教育广告和银行贷款的骚扰、网络诈骗等。而且被侵权和损害后的法律救济——路径不清、维权困难。一方面因法律法规滞后于科学技术发展有待完善；另一方面是利益相关者众多隐私泄露责任认定较困难。医学数据共享面临相似的问题。医学科学数据共享实践中，明确规定数据共享中利益相关者隐私保护的责任归属和要求更为迫切。但是医学科学数据共享涉及利益相关者众多。如图2所示，除了个人参与者(患者或受试者)和数据持有者，还包括数据使用者和提供数据共享服务的第三方服务平台等。需要面对如何明确各方隐私保护的责任和义务问题，以及规范相关标准和要求，并促使各方切实履行相关责任和义务。

图2 医学数据共享的利益相关人示意图

第三，医学科学数据共享中隐私保护策略。促进可持续发展的医学科学数据共享，需要处理好隐私保护和数据共享的平衡。鉴于加强数据共享中的隐私保护，同时使数据可用于进一步研究，各国已进行了探索和实践，获得两个主要共识。

第四，去识别数据或匿名数据。保护个人参与者的数据隐私的是数据共享的必要先决条件。其中最基本的要求就是共享数据的去隐私化处理。如《美国联邦法规汇编》第45卷第46部分，也被称为“共同规则”，要求为进一步研究发布数据之前对数据进行去标识[9]。HIPAA隐私规则还概述了两种常用的方法：“专家判定”(Expert Determination)和“安全港”(Safe Harbor)[10-11]。“专家判定”方法要求统计专家应用统计和科学原则，判定数据不可单独识别，或使重新识别的风险非常小。“安全港”方法要求删除适用于美国人群18个可用于识别个人或其亲属、雇主或家庭成员的直接识别码。欧盟(European Union)立法和欧洲药品管理局(European Medicines Agency，EMA)政策中也有相关考虑。欧盟数据隐私立法规定，“保护(数据)的原则不应适用于以使数据主体不再可识别的方式匿名提供的数据。”[12]EMA政策0070实施指南将匿名定义为“将数据呈现为不识别个人和不太可能进行识别的形式的过程”；将匿名或去识别数据定义为“不能识别个人的形式的数据，以及不太可能通过与其他数据组合识别个人的数据”[13]。“个人信息安全规范”将匿名化定义为“通过对个人信息的技术处理，使得个人信息主体无法被识别，且处理后的信息不能被复原的过程”。《科学数据管理办法》第25条规定“涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据，不得对外开放共享；确需对外开放的，要对利用目的、用户资质、保密条件等进行审查，并严格控制知悉范围。”从2005年承担国家医学科学数据共享服务平台(2019年9月被认定为国家人口健康科学数据中心)临床医学和肿瘤专题科学数据的共享服务至今，我们在探索和实践中始终把去识别和去隐私化数据共享始终作为最基本的原则之一。所有共享的数据，包括网络平台共享的样例数据均删除涉及个人健康隐私的一般和专业标识符，如姓名、住址、电话、住院号等。

第五，数据标准的FAIR原则。为了促进共享数据可用于进一步研究的目的，国际实践提出了共享数据标准的FAIR原则,已在世界范围内采用[14-15]。具体包括：①可查找性(Findable):数据应该是唯一且持久可识别的，其他研究人员应该能够找到数据；②可访问性(Accessible)：对人类和计算机来说，可以使用数据的条件应该是清楚的；③互操作性(Interoperable)：互操作性是指来自非协作资源的数据或工具以最小的努力集成或协同工作的能力。数据应该是机器可读的，并使用领域中常用的术语、词汇或本体；④可重复使用(Reusable):数据应符合上述要求，并充分利用元数据和出处信息进行描述，以便数据源能够与其他数据源链接或集成，并能够进行适当地引用。

第六，分级共享的综合隐私保护策略。FAIR原则与隐私保护通常情况下并不是矛盾的。但是，有些隐私信息本身可能是研究或再利用的内容。因此数据共享实践中，仅仅原则共识是不够的。医学科学数据共享需要根据涉及的隐私内容和潜在风险进行分级共享。理想的分级共享策略是根据隐私内容和潜在风险确立数据风险等级评估标准，进而设立相应的数据共享模式和管理方式。我们同意美国HIPPA隐私规则中的观点，经过统计分析的没有个人水平数据的分析报告不属于受保护的健康信息。在分级共享中，提供统计结果可以理解和作为最严格的数据共享方式，即共享元数据，适用于隐私信息是研究内容或一些涉及个人健康敏感信息的数据。个人水平数据不允许访问，但是可以应申请由数据持有者或提供者根据申请，直接提供统计分析的汇总结果，如地区一级的人口普查数据。此外，医疗保健机构或组织对于患者的隐私保护通常采用的多层去标识策略，对医学科学数据的共享与使用的分级管理有一定启示。如可以采用至少两层去标识策略：①公共用途：一些去隐私化的数据为公共用途可以直接完全共享，如去除个人隐私和单位信息的药物不良反应数据；②限制访问：提供元数据、共享数据的整体信息描述和少量去隐私化的样例数据，应申请可以提供适当数量的个人水平数据。采取限制访问的方式，既可以共享正在研究的数据信息，又可以避免一般个人健康隐私信息的泄露，适用多数去隐私化的医学科学数据，包括一些在研数据，也是我们应用最多的数据共享方式。分级共享具体可以参考共享临床试验的患者水平数据保护隐私的一些做法。如通过隐藏某些数据属性而不是直接访问数据的应用程序进行数据挖掘，确保在公共数据库中无法识别特定个人的多样性/封闭性模型，以及数据简化技术来转换数据以保护受试者的隐私等。

理论上，没有100%的数据隐私保护管理或技术方案，重要的是数据持有者、数据提供平台等所有利益相关者都应该重视个人健康隐私的保护并履行责任和义务。作为国家人口健康科学数据中心(临床医学)和肿瘤专题数据服务，我们采取多种策略或方法结合使用，尽量降低相关风险。如采取管理、技术安全措施，根据数据类型、来源和数据量等拟定数据风险分级标准；并依托两个服务平台的数据管理系统，与徐州医科大学医学信息工程学院合作研发了去隐私化数据管理平台和后台数据挖掘平台。此外，与数据持有者和或数据使用者签署通用数据共享章程或者数据共享协议(Data Sharing Agreement，DSA)，把保护个人健康隐私的要求列为重要的协议约定和条款。要求隐私保护的首要责任人——收集数据的研究人员、机构或其他有意愿进行数据共享的数据持有者，必须评估确认个人健康隐私信息的潜在总体风险很低，进而通过机构或我们设立的数据使用审核委员会审核确认或把关。

总之，医学科学数据所包含的个人健康隐私内容和传播方式、影响范围等都具有一定的变迁，加上数据共享过程中涉及利益相关者众多，使健康隐私的保护面临挑战。目前数据共享国际原则共识是去识别数据和FAIR原则。负责任地数据共享应该处理好数据价值与隐私保护的矛盾，风险评估和分级共享等综合保护策略，我们将在后续的伦理要求和管理规范(伦理审核指南)的体系中逐渐深入的探讨。