谢峰
上海邦信阳律师事务所
与传统临床试验需在严格受控环境下开展不同,真实世界研究的场景为真实的诊疗过程且数据来源较广,包括但不限于电子病历、医保数据库、患者登记的数据以及根据临床试验收集到的数据等。这些来源多样的数据形式可以为真实世界研究提供关键性信息和经验,但也对开展真实世界研究的数据合规提出了新的挑战。
近30 多年来,国际临床医疗模式发生了重大变化,以临床证据为基础的循证医学理念得到了广泛认同。大样本、双盲、随机对照试验(randomized controlled trial,RCT)的 结果为循证医学临床证据的最高等级,但由于其代表性不足、经济成本较高等局限性而无法解决所有的临床研究问题,在此背景下真实世界研究迅速发展。与传统临床试验需在严格受控环境下开展不同,真实世界研究的场景为真实的诊疗过程且数据来源较广,包括但不限于电子病历、医保数据库、患者登记的数据以及根据临床试验收集到的数据等。这些来源多样的数据形式可以为真实世界研究提供关键性信息和经验,但也对开展真实世界研究的数据合规提出了新的挑战。相关挑战来自于数据的全生命周期,包括生成、收集、传输、分享以及出境等各个环节。基于此,本文拟总结这些环节中涉及数据合规可能产生的问题,并结合具体的应用场景,对真实世界研究中的数据合规进行分析及问题识别,针对一些亟待解决的问题提出相应建议。
在评价某一种药物的安全性和有效性时,RCT 因其在降低选择偏倚和消除混杂方面的独特优势而被视为临床试验的金标准,但其对于受试者的选择性、严格的入组标准、较小的样本量、受限制的外推结果以及高昂的时间成本等问题而在研究的疾病领域、试验时间和成本方面具有较大的局限性。近年来,如何利用真实世界证据评价药物的有效性和安全性已成为国内外药物研发和监管决策日益关注的热点问题。2016 年,美国食品药品监督管理局(Food and Drug Administration,FDA)发布的《21世纪治愈法案》(21st Century Cures Act)将真实世界研究推向讨论的中心[1]。中共中央办公厅、国务院办公厅于2017年发布的《关于深化审评审批制度改革鼓励药品医疗器械创新的意见》[2]中首次提出以真实世界数据用于注册申请,其中规定:“支持拓展性临床试验。对正在开展临床试验的用于治疗严重危及生命且尚无有效治疗手段疾病的药品医疗器械,经初步观察可能获益,符合伦理要求的,经知情同意后可在开展临床试验的机构内用于其他患者,其安全性数据可用于注册申请。”2019 年9 月,国家药监局、海南省政府共同印发《海南博鳌乐城国际医疗旅游先行区临床真实世界数据应用试点工作实施方案》,临床急需进口药械的特许政策使乐城先行区成为国家监管部门开展真实世界数据研究和应用的重要试验点[3]。2020 年1 月,国家药品监督管理局(以下简称国家药监局)发布《真实世界证据支持药物研发与审评的指导原则(试行)》[4](以下简称《研发审评指导原则》),该文件厘清了真实世界研究的相关定义、梳理了国内真实世界数据的潜在来源、设置了真实世界证据可用于支持药物监管决策的场景、提出了真实世界研究的基本设计、明确了评价真实世界证据应当遵循的主要原则以及与审评机构的沟通交流要点。2021 年,国家药品监督管理局药品审评中心(以下简称国家药监局药审中心)发布《用于产生真实世界证据的真实世界数据指导原则(试行)》[5](以下简称《数据指导原则》),其中规定了真实世界数据治理以及适用性评价等内容。以《研发审评指导原则》和《数据指导原则》为基础,国家药监局药审中心于2023 年2 月发布了《药物真实世界研究设计与方案框架指导原则(试行)》[6](以下简称《设计与方案指导原则》),其中阐述了真实世界研究设计及方案的主要考量因素、明确了真实世界研究方案撰写的技术要求、指导申办者设计合理的真实世界研究。上述文件为药品的真实世界研究奠定了初步的政策基础并搭建了监管框架的雏形。除了我国以外,其他国家及地区也在加快真实世界证据在药物研发及监管中的应用。例如,《21 世纪治愈法案》鼓励FDA 开展真实世界研究并使用真实世界证据支持药物和其他医疗产品的监管决策以加快医药产品的开发,尤其是利用真实世界证据取代传统临床试验进行扩大适应症的批准,这可能会加快药品获批速度[7];欧洲药品管理局于2013 年参与的GetReal Initiative 项目,致力于开发出收集与综合真实世界证据的新方法,以便更早地用于药品研发和医疗保健决策过程中[4]。
在上述法律法规及政策的推动下,近年来的真实世界研究实践中出现了众多成功案例,例如:①以先前形成的电子病历作为临床试验的参照臂。2017年,FDA 加速批准、欧洲药品管理局有条件批准了阿维鲁单抗(avelumab)用于治疗Merkel细胞癌,这两项批准均依据一项单臂、无盲的Ⅱ期临床试验(NCT02155647),该试验参照臂的数据来自于真实世界的电子病历和德国的病案注册表。②基于电子病历和上市后监测报告扩展上市药物的适应症。辉瑞制药有限公司研发出的Ibrance(通用名:哌柏西利)可用于治疗女性乳腺癌,然而电子病历和上市后监测报告显示Ibrance 用于男性乳腺癌同样安全有效。基于此,FDA 于2019 年批准了该药新适应症的补充申请。③通过电子病历研究不同的药物对于同一患者群体的不同疗效。阿替利珠单抗(atezolizumab)、纳武利尤单抗(nivolumab)和帕博利珠单抗(pembrolizumab)这3 个程序性死亡受体1/程序性死亡受体配体1(programmed death 1/programmed death-ligand 1,PD-1/PD-L1)靶向药物已获批用于二线治疗尿路上皮癌,然而至今尚无相关临床试验直接比较三者药效差异。基于此,有研究使用2016~2019 年期间的电子病历,选取703 例使用以上3种药物的患者为研究对象进行比较。结果显示,3 种药物药效相近,中位存活时间均在6.4~8.5个月范围内[8]。目前,我国有多项正在进行的真实世界研究。其中,国家药监局于2020 年3 月26 日批准了美国艾尔建公司“青光眼引流管”的注册申请,这是我国首个通过境内真实世界数据获批上市的医疗器械产品。截至2022 年12 月15 日,普拉替尼、曲拉西利、氟轻松玻璃体内植入剂以及青光眼引流管、眼科飞秒激光治疗机等9 个国际创新药械产品已通过临床真实世界数据应用试点加快获批上市[9]。
真实世界研究方兴未艾,但在面对大量的真实世界数据时,由于其数据来源多元化、非结构化、非严格受控,因此需要进行质量评价。只有满足伦理原则、符合法规要求、满足数据相关性与可靠性等要求,真实世界数据才能作为新药申报或者变更上市药物说明书或者药物上市后再评价的证据。尽管如此,对真实世界数据的分析并没有突破临床试验的设计方法,仍然要遵循相应的规范性要求,因此对其中涉及数据合规问题的探讨正当其时。
真实世界研究是指针对预设的临床问题,在真实世界环境下收集与研究对象健康有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,对数据进行分析后获得药物的使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程 。真实世界研究具有形式多样性[包括回顾性和(或)前瞻性观察性研究、干预性实用临床试验等]、设计复杂、分析方法要求高及结果具有不确定性等特点。
真实世界数据指满足适用性(主要指数据的相关性与可靠性)要求的、来源于日常所收集的各种与患者健康状况和(或)诊疗及保健有关的数据。通过对适用的真实世界数据进行恰当、充分地分析而获得的关于药物使用情况和潜在获益-风险的临床证据可被认定为真实世界证据。
真实世界数据涉及类型主要有两大类,即个人信息和不具有个人属性的卫生资源数据、公共卫生数据等。其中,个人信息包括:①人口学特征,例如姓名、性别以及年龄等。②患者健康状况数据,例如相关体征指标。③医疗应用数据,例如临床特征、诊断、治疗等。④医疗支付数据,例如对于药品及住院费用的支付结算。不具有个人属性的卫生资源数据以及公共卫生数据包括医院信息系统记录数据、医保支付数据、研究登记数据、安全性监测数据、自然人群队列数据、来自移动设备的个体健康监测数据等。
从真实世界数据的使用场景角度分析,当前对于真实世界数据的应用以药品上市时间为基线进行分类,可以分为上市前的真实世界数据与上市后的真实世界数据。就上市前的真实世界数据应用而言,主要有三个场景值得特别关注,分别为:扩大适应症;临床急需药、儿童疾病用药和罕见病用药临床注册;中药的有效性、安全性评价。而上市后的真实世界数据应用主要是指药物警戒数据以及药物上市后研究。不同场景需收集或者处理的数据在具体种类上各有不同,例如在药物警戒场景下,一份有效的个例药品不良反应报告应包括可识别的患者、可识别的报告者、怀疑药品、不良反应这4 个元素。其中,当患者的下列一项或几项可获得时,即认为患者可识别:姓名或姓名缩写、性别、年龄(或年龄组,如青少年、成年、老年)、出生日期、患者的其他识别代码。提供病例资料的初始报告人或为获得病例资料而联系的相关人员应当是可识别的;个例不良反应报告中的用药情况和不良反应情况均与患者个人的健康相关。依据《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》),上述信息属于个人信息甚至是敏感个人信息。在以真实世界数据作为新药上市审批依据时主要是以受试者随访数据为主[10],包括体格检查、实验室检验以及问卷调查等,其中,个人姓名和随访时间等常规信息属于一般个人信息;与个人健康、疾病等涉及生物识别以及医疗健康的信息可被归类于敏感个人信息。
上述真实世界数据在法律上可分为六种属性,每种属性之间既有区分也有重合,例如个人信息如果含有人类基因或者基因组数据,则会认定为人类遗传资源信息;医疗健康数据如果能够识别到个人,则同时也属于个人信息甚至是敏感个人信息。同时,每种属性所对应的法律法规、保护程度和方法不同,例如含有个人信息的人类遗传资源信息,在收集或者进行其他处理活动时不但要遵守《个人信息保护法》的规定,也要符合《中华人民共和国人类遗传资源管理条例》的要求。具体的属性分类如下。
(1)个人信息。根据《个人信息保护法》以及国家标准《信息安全技术 个人信息安全规范》(以下简称《个人信息安全规范》),大量真实世界数据因能够识别自然人或者与已识别或者可识别的自然人相关而属于个人信息,受《个人信息保护法》的管辖;同时个人生物识别信息、个人健康生理信息、个人财产信息等一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息属于敏感个人信息,因此临床特征、诊断、治疗、生理体征以及支付结算等真实世界数据均会纳入到敏感个人信息的范畴,对其收集、使用、出境等均会受到比一般个人信息更加严格的约束。
(2)人类遗传资源信息。如果真实世界数据属于人类遗传资源信息,即包括利用人类遗传资源材料产生的人类基因、基因组数据等信息资料的,按照《人类遗传资源管理条例实施细则》(以下简称《人遗条例细则》),其采集、保藏、利用、对外提供等均应当遵守《人遗条例细则》的规定。需要说明的是,依据《人遗条例细则》,人类遗传资源信息不包括临床数据、影像数据、蛋白质数据和代谢数据。因此在真实世界数据中的随访数据、影像检查数据等不属于人类遗传资源信息。
(3)健康医疗数据。根据国家标准《信息安全技术 健康医疗数据安全指南》(以下简称《健康医疗数据安全指南》),真实世界数据由于能够反映特定自然人生理或心理健康,因此可以被定义为健康医疗数据;同时依据该指南,可能涉及的健康医疗数据包括个人属性数据、健康状况数据、医疗应用数据、医疗支付数据以及公共卫生数据。在《健康医疗数据安全指南》的基础上,可以依据数据的重要程度、风险级别以及对个人健康医疗数据主体可能造成的损害和影响进行分级,并采取差异化的安全保障措施,具体包括对于不同级别的数据采取差异化的访问控制、数据传输、脱敏应用、存储架构、标注颗粒度等。在具体操作时,可以先对相应的真实世界中的疾病或者诊断数据进行分类,例如将疾病数据分为“一般病种”与“特殊病种”,然后标注特殊病种相关数据的颗粒度,不同详细程度资料的隐私级别不同,颗粒度分为以下三类:概要级、摘要级和详细级,同时规定不同的医生级别对于不同级别和颗粒度的数据拥有不同的查阅权限。特别是依据《中华人民共和国数据安全法》,并参照国家标准《信息安全技术 网络数据分类分级要求(征求意见稿)》被认定为重要数据、甚至是核心数据的数据采取更加严格的存储、出境以及其他处理要求。根据《信息安全技术 重要数据识别指南》,在医疗健康领域中,反映群体健康生理状况、族群特征、遗传信息等的基础数据(如人口普查资料、人类遗传资源 信息、基因测序原始数据)属于重要数据。因此在真实世界研究中所收集的人类遗传资源信息、基本测序原始数据等信息有可能会纳入到重要数据的范畴中;如果上述信息关系到重大民生或者国家生物安全的,还可能会被认定为核心数据。
(4)健康医疗大数据。如果上述数据构成了《国家健康医疗大数据标准、安全和服务管理办法(试行)》(以下简称《健康医疗大数据管理办法》)中规定的健康医疗大数据的,则还应当遵循《健康医疗大数据管理办法》中的安全管理以及本地化存储要求。
(5)商业数据。尽管上述数据属于个人信息,但是在形成数据集合的前提下,还可能会受到《中华人民共和国反不正当竞争法》中对于商业数据的特殊保护。参照一例对于经营者商业数据保护的司法判决案例[11],法院认为“网络大数据产品不同于原始网络数据,其提供的数据内容虽然同样源于网络用户信息,但经过网络运营者大量的智力劳动成果投入,经过深度开发与系统整合,最终呈现给消费者的数据内容已独立于网络用户信息、原始网络数据之外,是与网络用户信息、原始网络数据无直接对应关系的衍生数据。网络运营者对于其开发的大数据产品,应当享有自己独立的财产性权益。随着互联网科技的迅猛发展,网络大数据产品虽然表现为无形资源,但可以为运营者所实际控制和使用,网络大数据产品应用于市场能为网络运营者带来相应的经济利益。”此外,依据《中华人民共和国反不正当竞争法(修订草案征求意见稿)》中的规定,该数据属于商业数据,企业对其虽不拥有所有权,但仍然享有相应的竞争性数据权益。
(6)对于一些卫生资源数据和公共卫生数据,如果符合国家秘密认定标准的,还应当遵守《中华人民共和国保守国家秘密法》的规定。
广东省计算机信息网络安全协会发布过一份《健康医疗数据合规流通标准》[12](以下简称《数据流通合规标准》),该标准规定健康医疗数据合规流通划分为三个阶段,即流通准备、流通过程以及流通完成,并分别就每个阶段的合规要求提出了基本的管理模块。例如在流通准备中,基本的合规要求包括来源证明、数据处理合规、安全存储以及合规评估这4 个方面。参照《数据流通合规标准》,本文将真实世界数据的收集、流通以及使用场景分成数据的收集、使用、共享及二次利用共四个阶段。
尽管场景不一,考虑到真实世界数据需要同时符合一般数据和隐私保护规则以及临床研究的基本要求,笔者认为依然可以参照《涉及人的生命科学和医学研究伦理审查办法》《个人信息保护法》《数据指导原则》等法律法规和国家标准,从实际的真实世界数据处理活动中提炼出几项基本的要求:①遵守与数据处理相关的法律法规及国家标准。②遵循有益、不伤害、公正的医学伦理原则。③尊重个人隐私保护,充分保障个人信息知情同意等权利。④确保健康医疗数据的真实可信、健康医疗数据流通过程可控和流通的可追溯性。
根据真实世界研究所依据的数据获取时间、因果探寻顺序以及数据获取是否可控等不同,可以将真实世界数据采集场景分为回顾性收集和前瞻性收集。在回顾性收集场景下,数据主要来自于既往开展的研究活动;而在前瞻性收集的场景下,数据主要来源于即将开展的前瞻性研究或者实用临床试验。前瞻性收集是面向未来收集数据,主要关注于数据收集时患者的知情同意以及合伦理性;而回顾性收集的数据主要是对既往数据的二次利用,因此在利用之前需要对数据来源、数据中所包含信息的合规性、合伦理性以及数据质量进行相应的尽职调查。但无论是回顾性收集场景还是前瞻性收集场景,其对于个人信息的收集均应当秉持合法、正当以及必要的原则。
1.数据收集的合法性
就合法性而言,主要是要确保获得数据主体的授权或者同意。该授权或者同意应当视数据的性质而有所差异。
(1)对于单条数据而言,如果该数据已经被匿名化处理,则不属于个人信息,因此个人也不享有任何权利;未被匿名化处理的信息还属于个人信息,应当由相关的主体享有与该数据相关的权利。即如果该个人信息是一般个人信息的,则应当取得个人信息主体的知情同意;如果该个人信息是敏感个人信息的,应当取得个人信息主体的单独同意或者书面同意。同时根据《涉及人的生命科学和医学研究伦理审查办法》的规定,应当取得研究参与者的知情同意 。就具体的取得授权同意方式,考虑到数据的敏感性,在前瞻性研究或者实用临床试验场景下,可以采取《信息安全技术 个人信息处理中告知和同意的实施指南》中规定的“增强告知”的方式,即通过简洁易懂的语言,突出展示与个人权益最为相关的内容。具体操作方式包括在知情同意获取过程中,项目研究者应当按照知情同意书内容向受试者逐项说明,其中包括:受试者所参加的研究项目的目的、意义和预期效果,可能遇到的风险和不适,以及可能带来的益处或者影响;有无对受试者有益的其他措施或者治疗方案;保密范围和措施;补偿情况,以及发生损害的赔偿和免费治疗;自愿参加并可以随时退出的权利;发生问题时的联系人和联系方式等。
(2)对于数据集合而言,如果该数据未被该领域内的相关人员所普遍知晓且不能轻易获取、经权利人采取相应的保密措施且具有商业价值时则应当作为商业秘密进行保护;如果不符合商业秘密保护条件的,在收集、存储、使用等数据处理行为合法的前提下,该整体数据具有商业价值属性以及数据集合的表现形式,可以被认定为商业数据而受到《中华人民共和国反不正当竞争法》项下有关商业数据的保护,即商业秘密保护终止的地方就是特殊产权保护的起点[13]。我国《中华人民共和国反不正当竞争法(修订草案征求意见稿)》中即首次定义了商业数据并设置几种不得非法获取、使用商业数据的情形。考虑到经营者或者其他主体对于商业数据所拥有的竞争性利益或者权益,在获取商业数据前需要在取得相关主体对于该商业数据的授权同意后方可使用;如果该商业数据中含有个人信息的,是否需要取得个人信息主体的授权同意仍有争议。按照“三重授权”理论,如果要使用既往已经收集的数据,则需要取得相关个人信息主体以及相关组织的三重授权,即个人信息主体对数据持有人、个人信息主体对数据获取人、数据持有人对数据获取人的三重授权。因此,在处理数据集合时,需要对于数据的来源进行合规性审查,这种合规性审查一般包括两个方面:①如果数据集合中包含个人信息,其所包含原始个人信息的收集是否合法合规以及个人信息主体是否已经授权对于其个人信息在本次真实世界研究下的使用,如果原始的知情同意书中未授权对个人信息开展真实世界研究的,还需要重新取得该个人信息主体的知情同意 。②如果数据集合不包含个人信息,则需要确认数据集合提供方是否对于数据集合享有相应的权益,其收集、获取商业数据的方法是否正当。关于取得数据集合方法的正当性,应提供数据来源证明。
(3)一般而言,取得数据集合有两个途径:①无偿取得或者购买、合作。当前一些脱敏后的医疗健康大数据是对公众开放的,以《山东省健康医疗大数据管理办法》为例,其对健康医疗大数据实行分类管理,除涉及商业秘密、个人隐私或者依据法律、法规规定不得开放的健康医疗数据外,其他数据均有条件或者无条件开放,在此路径下,需要考察其获取大数据的路径是否为法律法规指定的平台;除了开放数据之外,购买或者合作也是比较常见的获取大数据的途径,在此情形下,就需要考察卖方或者合作方获取或者使用数据的资质及来源的合法性。②公开抓取。我国对于商业数据的保护日趋严格,如果数据的来源是通过自动化程序抓取的,则需要满足以下三个条件:抓取的数据为公开数据,如果是非公开数据,则很有可能是通过突破或者绕开技术管理措施而获得,因此会有不正当获取的风险;抓取的手段遵守机器人协议(Robots 协议),如果违反了Robots 协议,则还需要审查Robots 协议本身的合理性和正当性;其所采取的手段未突破或者绕开技术管理措施,也就是说未违反数据方的授权访问机制。同时也需要考察数据抓取方是否在抓取数据过程中对于商业数据主体的运营或者利益造成了不正当的损害等。
2.数据收集的正当性
对于数据收集的正当性,在进行真实世界研究的场景下,由于其属于科学研究性质,因此正当性应当可以得到满足。除非该真实世界研究本身即是以研究为名义向医疗机构或者第三方提供不当利益,在此情形下,数据收集也就失去了正当性。
3.数据收集的必要性
就数据收集的必要性而言,还需要满足个人信息的最小化原则,即只应收集满足个人信息主体授权同意范围内的最少类型和数量的个人信息,不应收集与其提供的服务无直接或无合理关联的个人信息。
真实世界数据的使用主要包括数据的提取、清洗以及转化。其中,数据提取主要是确保提取的数据符合真实世界研究的研究方案,同时提取的数据与原数据一致并进行时间戳管理;数据清洗主要是对原始数据进行冗余和重复数据的去除、变量值逻辑核查以及异常值的处理;数据转化是将清洗后的原始数据按照统一标准格式转化为真实世界数据的过程 。在真实世界数据的使用或者管理过程中,主要涉及数据合规的问题有四个,即尊重受试者的隐私保护、数据的去标识化、数据完整性和准确性要求以及数据的安全性要求。
1.尊重受试者的隐私保护
《涉及人的生命科学和医学研究伦理审查办法》第十七条第(五)项规定:“保护隐私权及个人信息。切实保护研究参与者的隐私权,如实将研究参与者个人信息的收集、储存、使用及保密措施情况告知研究参与者并得到许可,未经研究参与者授权不得将研究参与者个人信息向第三方透露。”具体在操作时应当在真实世界研究设计的初期将隐私保护纳入技术层面进行考虑,包括:①对于基本人口学资料进行去标识化处理;②在不影响数据的完整性和不违反《药物临床试验质量管理规范》的前提下,尽可能不包括个人标识信息。控制者可以在数据分类分级的基础上,按照隐私保护级别将个人信息分为无标识数据集、受限制数据集以及可标识数据集。无标识数据集一般指汇总概要的数据,该数据不涉及任何可以识别到自然人个人的数据或者信息,但是依然需要注意防止通过汇总数据间接进行个人信息识别的可能;受限制数据集涉及患者级别的受保护信息,但身份标识被删除、加密或者泛化,尽管患者数据被采取泛化等加密措施,此时的患者数据仍然属于个人信息而受到《个人信息保护法》的保护;可识别数据集指包含患者的身份识别信息,例如部分研究需要用到患者的地址、户籍、基因等信息。除此以外,在真实世界数据使用中的受试者隐私保护还包括严格的设备设施和试验文件管理、受限的查阅权限和严格的信息发布流程。
2.数据的去标识化
《药物临床试验质量管理规范》中要求:“临床试验数据的记录、处理和保存应当确保记录和受试者信息的保密性。”在真实世界研究过程中,其对于受试者信息的保密性也应当参照《药物临床试验质量管理规范》的要求并贯穿整个流程,而数据的去标识化是在使用过程中保证受试者信息的保密性的重要途径。因此在数据使用过程中,应当去除患者姓名、家庭地址、身份证号、手机号码、联系人姓名及电话等个人信息。具体去标识化的操作方法,可以参考《信息安全技术 个人信息去标识化指南》中的相关要求和流程进行操作。就真实世界研究中的数据去标识化,可以视其数据的重要程度采取不同的去标识化处理。对于个人属性数据中可唯一识别到个人的信息或披露后会给个人造成重大影响的信息,例如姓名、电话号码、身份证号码、家庭住址、电子邮件等,则应当采取完全的去标识化,即将上述信息以随机的符号或者代码替换、留白或者泛化(例如对于姓名可以采用留白或者空置的方法;对于家庭住址可以进行泛化至某省某市;对于身份证号码,可以在关键信息上用***替代);个人属性数据中可间接关联到个人的信息,例如出生日期、就诊时间、检查时间、治疗时间、住(出)院时间、工作单位等,宜进行泛化处理,例如对于具体的时间,可以对应到年月;对于年龄,可以设置区间,例如20~30 岁之间等。
3.数据完整性和准确性要求
根据《个人信息保护法》第八条:“处理个人信息应当保证个人信息的质量,避免因个人信息不准确、不完整对个人权益造成不利影响。”根据《数据指导原则》,对于真实世界数据可靠性进行评价的重要方面之一就是数据的完整性,应对于数据的缺失程度、缺失分布、缺失原因和变量的缺失机制予以详尽描述,并慎重考虑该数据能否作为支持产生真实世界证据的数据;而准确性指数据与其描述的客观特征一致。
4.数据的安全性要求
根据《中华人民共和国数据安全法》第二十七条第一款中:“开展数据处理活动应当依照法律、法规的规定,建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全。”由于真实世界研究中涉及众多敏感数据,因此数据处理者应当采取相应的技术管理措施以确保数据的安全。例如建立数据权限管理机制,对于数据的访问、查看、使用以及下载等进行权限控制;在多中心试验场景下的数据宜实行管理与分析并满足数据安全存储及访问等各项条件;对数据采取加密技术;建立操作设置审批流程、角色权限控制和最小授权的访问控制策略,鼓励建立自动化审计系统,监测记录数据的访问和处理活动等。
在数据收集以及使用过程中不可避免地会涉及数据的共享,数据共享的合规性需要注意以下三点。
(1)数据共享的合规要求基于个人信息的共同处理、委托处理还是提供而有所不同。根据《个人信息保护法》,共同处理个人信息的,应当约定各自的权利义务并对侵害个人信息权益造成的损害承担连带责任;委托处理个人信息的,应当与受托人约定委托处理的目的、期限、处理方式、个人信息的种类、保护措施以及各自的权利义务等;向其他个人信息处理者提供个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。
(2)如果数据的共享涉及数据出境的,还应当满足数据出境的合规要求,分别采取标准合同、个人信息保护认证以及数据出境安全评估三种路径[14],在不满足数据出境安全评估要求的前提下,对于数据出境,可以选择适用标准合同或者个人信息保护认证这两种路径。当然对于涉及健康医疗大数据或者核心数据的,还应当进行本地化存储而不能进行跨境传输。
(3)除了遵守上述关于数据出境的法律法规之外,根据《数据指导原则》,真实世界数据的传输应当基于可信的网络安全环境,在数据收集、处理、分析甚至销毁的全生命周期予以控制,并且在数据传输过程都应有加密保护。具体的安全传输措施包括:①区分在线传输与离线传输而采取不同的加密方式。②采用密码技术保证通信过程中的敏感信息或者数据集不被窃取、篡改。③保证端口安全,不使用未通过使用审批流程的对外端口。④实施访问控制。
数据的二次利用又被称为数据的再利用,这是为了提升数据的使用效率、最大程度挖掘数据潜力的一种数据处理方法。在真实世界研究中,由于使用数据来源的广泛性与多样性,不可避免地会涉及对于原始数据的二次利用,由此带来的数据使用的合规以及伦理性问题就得到了较为广泛的关注。
在真实世界研究场景下的数据二次利用中,如果数据中涉及个人信息的(具体个人信息的判断标准参见前文),则面临着二次利用是否需要重新取得个人信息主体同意的问题。《个人信息保护法》第十四条第二款规定:“个人信息的处理目的、处理方式和处理的个人信息种类发生变更的,应当重新取得个人同意。”因此如果在一项真实世界研究中,研究者收集的数据是已经取得个人信息主体同意的,则满足了合法性来源的要求;但是满足合法性来源并不意味着可以直接进行数据的使用,还需要判断当初取得的个人信息主体的同意范围是否包括了开展该真实世界研究。另外,《涉及人的生命科学和医学研究伦理审查办法》第三十八条第(一)项规定,与研究参与者相关的研究内容发生实质性变化的,研究者应当再次获取研究参与者的知情同意。基于此,笔者认为,如果原始数据收集并非是以医学研究为目的,则将个人信息用于真实世界研究需要重新获得个人信息主体的知情同意,因为这完全偏离了当时给予知情同意的目的和范围;但是如果原始数据收集的目的就是基于医学研究的,则按照 《涉及人的生命科学和医学研究伦理审查办法》,需要审查该真实世界研究与原先约定的研究内容相比是否发生了实质性变化,如果没有发生实质性变化,则无需重新取得知情同意;反之,则需要重新获取个人信息主体的知情同意。
由于真实世界研究在我国发展时间尚短,在国家层面的立法规范还在不断完善过程中,笔者认为,当务之急是:①需要对真实世界数据的法律属性进行明确。②明确数据匿名化的操作技术及标准。③更加精确地区分匿名化和去标识化。④为促进医疗进步与发展,可以豁免在特定情形下的知情同意。
真实世界数据作为数据集合,在符合商业秘密保护条件时,应当受到商业秘密的保护。但由于当前商业秘密保护的举证困难,特别是对于其“非公知性”(即需要证明相关信息不为公众所知悉)证明难度较高,并且在真实世界数据中的很多信息并不具备这样的“非公知性”属性,因此如何保护真实世界数据的收集处理主体的数据权益,激发更多的主体参与到真实世界研究中,是当前亟待解决的问题。特别是2022年12 月《关于构建数据基础制度更好发挥数据要素作用的意见》中首次提出“建立公共数据、企业数据、个人数据的分类分级确权授权制度。根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,推进非公共数据按市场化方式‘共同使用、共享收益’的新模式,为激活数据要素价值创造和价值实现提供基础性制度保障。”因此对于真实世界数据的收集处理主体享有的相关数据权益应当予以明确,以保证其对于合法收集、处理的数据享有相应的使用以及收益等权益。同时,从另外一个角度,对于符合数据开放条件的公共数据,在遵循分类分级、需求导向、安全可控的原则上,在法律、法规允许范围内最大限度开放,以促进数据的最大化利用。
《个人信息保护法》定义了匿名化,即匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程,但法律只有定义,却未明确具体的操作和实现标准,致使在实务中对于如何操作匿名化缺乏明确的指引。《个人信息安全规范》中也对匿名化进行了类似的定义,即匿名化是通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程,但在该规范中依然没有对于操作匿名化的技术、流程以及具体标准的规定。与此相对应,同样作为数据脱敏手段的数据去标识化,在国家以及地方层面均有着比较明确的操作指引和标准:在国家层面,《信息安全技术 个人信息去标识化指南 》中对于去标识化的目标、原则、过程以及角色分工进行了详细的规定;在地方层面,上海市市场监督管理局亦发布了地方标准《数据去标识化共享指南》。笔者认为可以参考当前去标识化的标准制订工作,及时制订有关匿名化的国家以及地方标准以便于数据处理者明确匿名化的路径。
基于我国对于匿名化采取的绝对标准,绝对不能识别或者关联个人,亦不能复原,因此要实现个人信息匿名化的难度非常高,基本排除数据处理者试图通过匿名化来自由使用个人信息的可能性。因为从技术层面只要给予足够的时间,没有任何信息是完全不可能被复原的。与此相对的是欧盟基于“合理可能”(reasonably likely)的标准[15],综合考虑技术、成本、时间等因素,如果数据控制者或其他人采用了所有合理可能的方法,仍无法直接或间接识别数据主体,就可以被认定为匿名化。笔者认为欧盟的相对标准有着较高的可操作性,结合当前的去标识化标准,建议在实务中更加精确地区分匿名化与去标识化,将符合条件的去标识化视为匿名化。例如可以将去标识化按照直接识别个人的难度分为四级:第1 级是能直接识别个人的数据,包含直接标识符的数据,在特定环境下能直接识别个人;第2 级是消除直接标识符的数据,是指删除了直接标识符,但包含准标识符的数据,或者对直接标识符进行了处理(例如泛化、抑制等),使其不再能直接标识个人身份,并且重标识风险高于设定阈值的数据。例如常见的身份证号码或者手机号码将部分位段标“*”处理,已转化为准标识符;第3 级是重标识风险可接受数据,是指消除了直接标识符,且重标识风险低于设定阈值的数据;第4 级是聚合数据,是对数据进行汇总分析得出的聚合数据,不再包含个例数据。将风险较低的第3 级或者第4 级的数据可以视为匿名化,如此,在真实世界研究过程中的使用、分享、传输该等数据就无需取得自然人个人同意。
为促进科学技术发展,解决患者未被满足的医疗需求,可以考虑在回顾性真实世界研究中,适当减轻申办者或者临床研究机构取得受试者知情同意的要求。尽管《健康医疗数据安全指南》中规定了临床试验知情同意的例外情形,即“对于产品上市后研究,以验证产品安全性和有效性为目的,在数据去标识化的前提下,相关申办者不需要获得受试者知情同意”;以及可以向伦理委员会申请知情同意豁免的情形:“对于回顾性研究,已无法追溯到患者,或获取受试者知情同意代价太高,在数据去标识化的前提下,可以申请知情同意豁免”。但是最新版《涉及人的生命科学和医学研究伦理审查办法》已经将原版审查办法中的关于豁免知情同意的例外情形删除并明确规定了研究项目发生实质性变化时需要再次取得研究参与者的知情同意,考虑到最新版的时效以及法律位阶,目前还是应当按照相关要求再次取得受试者的知情同意。于是这就为将来回顾性真实世界研究在取得受试者知情同意方面带来困难,特别是数据较为久远或者受试者难以取得联系时。因此笔者建议将回顾性真实世界研究区分为由政府或者医疗机构发起的公益性的真实世界研究与医药企业发起的商业性的真实世界研究,对于由政府或者医疗机构或者研究者发起的真实世界研究,其目的是为验证某项药物的安全性或者有效性的,在去标识化的前提下,可以豁免取得受试者的知情同意;在商业性的真实世界研究中,在使用第3、4 级的去标识化标准时,可以向伦理委员会申请受试者的知情同意豁免,由伦理委员会根据真实世界研究的目的、背景、对于受试者隐私保护措施等条件后综合判断是否同意豁免。
当前的真实世界研究仍然处于发展初期,在研究参与者个人信息以及隐私保护愈加受到重视的今天,应当对于真实世界研究在数据收集、使用、共享、传输以及其他处理过程中的个人信息保护进一步明确规则及责任以维护研究参与者的合法权益;与此同时,为了促进真实世界研究的开展,也需要对于通过合法方式取得数据的企业或者机构的数据权益进行规定,并且区分匿名化与去标识化,适当降低匿名化标准;同时豁免在特定场景下的个人知情同意,以建立一套平衡科学研究自由与隐私保护的机制。这对于促进科学研究与进步、保护研究参与者隐私至关重要。