李 晨, 黄丽红, 邱婧君, 王 陵, 秦伟栋, 汪旻晖, 赵 杨, 柏柳安宁, 夏结来*
1. 空军军医大学军事预防医学系军队卫生统计学教研室,西安 710032 2. 复旦大学附属中山医院生物统计室,上海 200032 3. 北京复星医药科技开发有限公司,北京 100005 4. 皖南医学院弋矶山医院药物评价中心,芜湖 241000 5. 南京医科大学公共卫生学院生物统计学系,南京 211166 6. 空军军医大学航空航天临床医学,西安 710032 7. CSCO生物统计学专家委员会RWE项目组
近年来,现实世界数据(real-world data, RWD)在医药卫生领域的应用日益广泛,其价值在医疗科研、公共卫生、医药研发、监管决策方等社会各界得到普遍共识,若干规范基于RWD开展创新药品研发[1]、辅助监管决策[2]、完善药品和医疗器械评价[3]的相关政策法规也逐步落地。
高质量的证据源于高质量的数据,在RWD转化为现实世界证据(real-world evidence, RWE)的过程中也涌现了大量问题,其中RWD相关的数据来源、数据质量、数据标准及其相关评价尚无成熟、统一的法规和指导原则,不同数据来源的信息化发展不均衡,数据共享和整合面临较大阻碍,存在大量异构的数据孤岛。本文着眼于RWD来源、数据合规性,讨论其质量控制与数据标准化,并对其未来可能的发展途径作一展望。
广义地讲,在医疗健康领域RWD是指除随机对照试验(randomized controlled trial,RCT)数据之外的其他用于提供医学证据,辅助临床决策的一切数据的统称。美国FDA在2018年发布的Framework for FDA’s Real-World Evidence Program(《现实世界证据方案的框架》)[4]以及Use of Real World Evidence to Support Regulatory Decision Marking for Medical Devices(《使用现实世界证据以支持医疗器械监管决策》)[5]中,将RWD定义为“与患者健康状况有关的和(或)日常医疗过程中收集的各种来源的数据”和“除了传统临床试验以外的数据都可作为现实世界研究(real-world study, RWS)数据”,具体包括电子健康档案、电子病例(electronic medical record, EMR)、医保数据、产品和疾病登记中心的数据、患者报告数据(包括居家环境)、其他健康监测(如移动设备)的数据等。
2019年5月,我国发布的《真实世界证据支持药物研发的基本考虑(征求意见稿)》[6]中将RWD定义为与患者使用药物以及健康状况有关的和(或)来源于各种日常医疗过程所收集的数据。其具体包括但不限于卫生信息系统(health information system, HIS)/电子健康档案(electronic health record, EHR),医保系统、产品和疾病登记系统、不良反应监测系统、自然人群队列数据库、组学相关数据库、死亡登记数据库、患者自报告数据、来自移动设备端的数据、其他特殊数据源等。而医疗器械技术审评中心则提出医疗器械的数据源除此之外还可包括在医疗器械生命周期中产生的数据(如校准记录等)[7]。
尽管各类指南规范在RWD的定义细分场景上稍有不同,但在基本内涵上保持一致。目前,RWD的数据来源已扩大至为与患者健康状况和(或)医疗服务提供相关的数据,主要有电子病历数据(或健康档案);检验数据;影像以及检查数据;生物遗传学数据(基因组学、蛋白质组学数据);家族疾病史数据;公共卫生数据(如政府公开的数据库);出生/死亡登记数据;医疗保险理赔数据;移动可穿戴设备采集的个人数据;社交媒体数据;居住环境数据;气象数据等。随着社会各界对RWD的认识不断深化,未来针对其展开的数据定义及内涵阐释也将愈加细致、规范和统一。
2021年,我国十三届全国人大常委会分别通过并施行《中华人民共和国个人信息保护法》、《中华人民共和国数据安全法》。对于涉及到研究个体诊疗、行为等多种途径的RWD数据,其收集、处理与使用等过程中涉及伦理及隐私保护的问题,其合法性、合规性值得重视。RWD应依照国家法律法规、行业监管要求等做好数据安全管理工作。
为充分保护研究个体的安全和权益,获取和使用RWD以开展RWS,须通过伦理委员会的审查批准。RWS当中的伦理问题通常包括但不限于:(1)知情同意;(2)患者完全自主地参与;(3) 研究透明度;(4) 隐私及健康公平性问题;(5)由研究产生的资料保护权及使用权。针对不同研究类型的RWS,RWD相关的伦理审查重点可能存在差异。对于回顾性数据库研究,由于是基于既有数据,不涉及对患者的干预,该类研究可向伦理委员会申请豁免知情同意,如何保护患者隐私是该类研究伦理审查的重点,在获得伦理审查机构书面批准同意后方可执行;对于登记注册研究和实效性临床试验(pragmatic clinical trial, PCT),在研究开始之前必须得到患者知情同意,并在方案中设计如何保护患者的个人隐私信息和诊疗安全,对于采集个体标本的研究,可能留置标本造成研究个体无法及时获得相应检查的结果,需在知情同意书上明确说明标本的归属权、如何保存及使用,以保证由此获得的RWD合法、合规。
此外,参与RWD数据治理的相关人员也应严格遵守相关法律、法规的要求,申办者应严格执行,尽到保护和管理义务。
除了对研究个体相关的健康数据进行隐私保护,更需要对承载健康医疗数据的信息系统和网络设施以及云平台等进行必要的安全保护。数据安全保护范围应涵盖包括数据收集、数据提取、数据传输、数据存储、数据交换、数据销毁等在内的各个生命周期。采用加密技术保证数据的完整性、保密性、可追溯性;使用介质传输的,应对介质实施管控,对访问记录进行审核、登记、归档和审计。
如果将RWD按数据获取时间进行分类,一大类是既有的数据资源,即在开展当前研究时,数据资源已经存在,如基于管理目的生成的医院电子病历数据、医保数据、健康档案等;另一大类是以特定的临床评价为目的,在常规健康医疗环境下主动收集,并设立明确的数据标准和数据收集模式的前瞻性数据资源,如以研究药物为对象产生的登记数据、实效性临床试验等。
开展RWS时,RWD的变量收集依据研究问题而定。例如,关注发病情况,需要收集患者年龄、性别、诊断、既往史等;关注治疗情况需要收集治疗方案、用药剂量、随访过程、合并用药等;关注结局则需要收集治疗不良反应、再入院率、生活质量、生存率等。不同于RCT数据受到严格控制和监测核查,RWD最关键的问题是数据的可信度。不同的数据来源、数据质量、测量误差、结果/暴露的错误分类,以及某些变量上的缺失值,可能直接影响对干预有效性和安全性的评估。对于一些大型RWS研究,其研究价值也可能因为有偏倚的结论受到限制。
3.1 原始RWD 在使用RWD的研究中,原始数据的质量取决于完整性和准确性,关键是要考虑到数据缺失及其缺失机制。随机缺失的数据会降低观测的精度,而非随机缺失的数据会导致结果偏倚。因此,研究者需要仔细考虑数据的有效性(数据是否反映了真正诊疗情况)和可靠性(数据元素的获取是否一致)。限制RWD数据来源的一个突出问题是很多研究只采集了患病和生存结局,而缺乏关于患者预后、护理过程和结局的变量,例如患者既往史、生活状态、治疗意向或疾病负担等信息,而这些变量对全面分析治疗的有效性尤为重要。
获取RWD,依然需要制定RWD的构建方案,以数据库研究为例:(1)根据研究目的选择合适的数据库,考察数据库的可及性,评估数据质量;(2)明确原始数据库的数据结构、变量含义和来源;(3)确定数据提取方式及其优势和局限。影响RWD数据质量的因素包括数据的收集方式(被动收集与主动收集)、整理数据人员的技能、数据的质控和独立监察、以及外部可能影响数据准确性的因素(如医生收入、医院管理等)。捕获到数据后,可进一步进行数据治理:(1)评估数据提取的准确性,例如从区域化医疗系统获取数据,可以随机抽取某单一医疗机构电子病历数据进行准确性核对;(2)数据核查,评估数据缺失、矛盾(如不可能的出生日期)、极端值、异常值(如多次手术切除的器官)的情况;(3)数据治理:对错误数据进行订正,删除不符合数据质量要求的数据[8]。
3.2 多源数据的链接 多数RWS需要来自不同数据源的数据,将它们链接起来才能最终形成研究型数据库。理想情况下,应该使用唯一标识符来执行数据链接,例如身份证号、医保号码等。如果没有唯一标识符,可以采用概率链接,但链接质量可能会相应降低。
3.3 衍生变量 RWD中一项复杂又关键的步骤是区分那些相似但非研究目标的变量。所有关于患者、治疗和结局的暴露都需要经历这个合并和拆分的过程[9]。临床医生根据专业意义进行划分,数据分析师思考如何在现有条件下实现变量的准确识别和划分。在制定RWD构建方案时,就需要确定衍生变量的定义。如果在数据收集过程中或分析时才定义,那么预期结果可能是有偏倚的。即使没有刻意尝试获得某个特定的结果,在获取数据后再尝试几种不同的试验性分组也会增加偶然获得有统计学意义结果的概率。此外,如果没有经过严谨的思考,仅仅是为了获得预期的阳性结果而对数据尝试不同规则的组合分析,也是很困难的。
以Booth对膀胱癌[10]和肺癌[11]治疗模式的研究为例,需要定义辅助治疗时间节点这个衍生变量。根据临床专业知识的经验与判断,研究者将术后16周内的化疗或放疗定义为辅助治疗,任何超过该节点的治疗都被定义为因疾病进展而开展的姑息性治疗。如果在手术后过早地设定时间节点(如6周),可能会排除一些接受放化疗的患者;而较晚的节点(如32周)将可能纳入一些因早期转移而接受化疗的患者。另一方面,从统计学的角度,研究者也分析了患者接受辅助治疗时间的分布,以确定这个时间节点是否更具有统计学的逻辑性。对于这类问题,并没有一种标准的完美的方法,关于治疗意向的间接推断始终应该保持谨慎思考。一些低质量数据集的研究会直接影响研究结论,例如因使用医院诊断编码记录伴随疾病,而被错分为研究对象。
相较于RCT数据,RWD在大多数情况下缺乏记录、采集、存储等流程的严格质量控制,易导致数据不完整、关键变量缺失、记录不准确等问题,而薄弱的数据基础会成为RWS的最大短板。数据质量上的缺陷,会极大地影响后续的数据治理和应用,甚至会影响数据的可追溯性,研究者也难以发现其中的问题并进行核对和修正。倾向性的数据收集,特别是登记研究数据,会导致研究结果偏倚的潜在风险等;在缺乏统一标准的情况下,数据类型较为多样,既有结构化数据,也有文本、图片、视频等非结构化和半结构化数据,在数据记录、采集、存储的过程中,也会导致数据的冗余和重复,进而造成数据处理的难度。
多数情况下,RWS需要多源数据的支持,然而,我国并未形成统一的EHR系统,不同医院拥有着不同的EMR供应商,甚至存在同一家医院拥有不同的EMR供应商的现实。这既造成了医院之间存在数据多源异构标准不一的情况,又造成EMR子系统之间的数据交流障碍。从RWD的可及性、准确性上讲,现存问题主要为数据标准不统一、数据表达之间难以理解和互通,数据管理与分析系统与相关信息系统难以实现数据的准确识别、理解和调用,数据语义的表达形式不统一, 导致大量异构的数据孤岛。多源数据系统间沟通壁垒较高,缺乏统一的数据传输标准,数据共享和整合面临较大阻碍,导致不同来源的数据连接沟通效率较低,极大地限制了RWD转化为RWE的效率。
绝大多数RWD产生基于已有的各种信息系统,将原始RWD转化为用于分析的研究型数据,并实现多源数据的共享和交换,需要依据一定的数据标准。为实现数据表达的统一,通常的做法是将现有的数据映射至通用数据模型。数据模型能够直观得展示实体及实体之间的关系,描述一组数据的概念和定义,利用数据模型可以将多种来源的RWD按照既定的模式转化为规范的数据字段和术语,无论RWD来自哪个系统,都可以对数据进行跨站点分析和研究,并以类似的方式被各方理解。通用数据模型(common data models,CDM)是根据不同研究目的,由共享健康数据网络(shared health data network,SHDN)根据某些共识开发的,描述特定领域内的数据及数据间的关系,以期得到可以在该领域内通用和泛化的数据模型。共享健康数据网络可以将数据集中聚合、存储在一个位置,可查询每个数据位置并聚合所有数据。
建立RWD通用模型,对于模型中对象类属性的规范化描述,需要对数据元的值域进行规范化表达,规范医学术语概念,明确统一语义。有关医学概念术语进行标准化表达,一般仍采用国际上通用的、较成熟的术语标准,将现有的概念或术语与其映射。常见的有临床数据交换标准(clinical data interchange standards consortium,CDISC)、系统医学命名法——临床术语(systematized nomenclature of medicine-clinical terms,SNOMED CT)、观测指标标识符逻辑命名与编码系统(logical observation identifiers names and codes, LOINC)、国际医学用语词典(medical dictionary for regulatory activities,MedDRA)等。
针对RWD常见的数据质量问题,需要对其进行数据治理,将原始RWD转化为研究型数据库,以满足RWS研究需求。数据治理及其适用性评价的流程图如下。
数据治理主要内容包括但不限于以下方面。(1)数据治理计划书:RWD治理计划书应事先制定,说明RWD源数据、使用RWD用于监管决策的目的、使用RWD的研究设计等,并与整个项目研究计划同步,如果治理计划书在研究进行过程中需要修订,应与审评机构沟通并备案。(2)个人信息保护和数据安全性处理:应遵守国家相关信息安全技术法规和指南,涉及个人属性数据、医疗支付数据等敏感的个人健康医疗数据时,应进行去标识化处理,同时防止个人信息的泄漏、损毁、丢失、篡改。(3)数据提取:提取方法应通过验证,符合研究方案要求,且具有准确性和可溯源性,同时进行时间戳管理和数据安全性保护。(4)数据清洗:对提取到的原始数据进行重复或冗余数据去除,进行逻辑核查、异常值和缺失值的处理。对于数据的修正应当谨慎并经过核实,任何数据的修改都应当留下完整的稽查轨迹。(5)数据转化与传输存储:经过数据清洗后原始数据还要按照分析数据库对应标准进行统一转化为适用RWD,尤其需注意衍生变量的算法和时间戳管理,以保障数据的准确性和可追溯性。在数据传输和存储过程中都应有加密保护、权限控制策略等,保障数据收集、处理、分析的全生命周期安全。
图1 现实世界数据的数据治理过程示意图
RWD的适用性评价可分为2个阶段:第一阶段是对源数据进行适用性评价,首先源数据是可及的、具有使用权限、能被第三方评估的,且符合伦理审查法规要求和数据安全隐私保护要求的,其次源数据对于关键变量的覆盖度要能够满足研究方案的基本分析要求和样本量;第二阶段是对经过治理的数据进行适用性评价分析,主要包括(1)相关性评价,对关键变量的覆盖度、暴露/干预和结局定义的准确性、目标人群的代表性和多源异构数据的融合性;(2)可靠性评价,评价数据的完整性、准确性、透明性、质量控制和质量保证。如果RWS中研究者根据自己设计好的电子病例报告表前瞻性收集指定来源数据,则无需进行第一阶段的初步适用性评价[12]。
传统RWD的收集途径包括临床访视评估、电话、邮件等,这些方法通常较为复杂、昂贵且费时[13]。随着移动通讯工具和智能穿戴设备等生物传染技术的发展,新颖的数据获取方式正成为RWD的新型数据来源。移动通讯工具或智能手表可在无人监管的情况下,便捷地收集研究对象的各项预设数据[14]。在临床场景中,借助此类工具可减少不必要的随访和检测,尤其是到院随访,以更少的成本管理更多患者,并更高效地获取患者结局[15]。此外,基于社交媒体等网络爬虫技术的发展极大地拓展了RWD的维度。
海量数据既为RWD提供了坚实丰富的来源,又引入了数据控制和质量评价的问题。基于医学研究领域数据标准的现状和已有成果,将CDISC标准拓展应用于RWD,无疑是RWD数据标准和质量控制的最佳选择。当然,RWD中存在异于常规RCT的数据,如患者报告的结局信息(PRO)、药物经济学信息、医保报销数据、个人健康APP以及可穿戴设备收集的数据等,现有数据标准不能直接满足此类RWD对数据标准的需求,亟待在已有数据标准相关的模型基础上,进行扩展和改进,开发与已有标准兼容的RWD数据模型,以提高RWS的科学性、规范性,从而形成有效、可信的RWE。
利益冲突:所有作者声明不存在利益冲突。