应用医疗大数据分析提升临床研究可行性及效力

2019-03-04 09:00弓孟春
医学信息学杂志 2019年12期
关键词:真实世界临床试验标志物

冯 时 刘 爽 朱 翀 郭 昊 弓孟春

(北京协和医院 北京 100730) (神州数码医疗科技股份有限公司 北京 100020) (中国医学科学院罕见病研究中心 北京 100730)

1 引言

大数据是指数据量庞大、数据结构复杂且依靠传统的方法和工具难于处理的数据集[1]。医疗领域大数据的核心特征是数据量大、种类丰富、传输速度快。对数据可靠性、医疗环节、计算技术、信息提取、数据共享等均提出挑战[2]。真实世界证据(Real World Evidence,RWE)是指在现实医疗环境中,通过分析真实世界数据(Real World Data, RWD),获知医学相关产品的用途、优点、缺点的临床证据。RWD来源于电子健康档案、保险说明、患者登记、电子健康移动设备及应用等,与传统临床试验数据的本质区别在于数据获取的环境,即真实世界研究的数据来源于医疗机构、家庭和社区,而非存在诸多严格限制的科研场所。依据实用性临床试验原则收集的RWD可用于随机实验设计,将临床研究的范围拓展到进行医疗干预的时刻。RWD分析极易发生选择偏移、信息偏移、测量错误等多种偏倚,因此数据质量难以保证。近年来越来越多的大数据项目从关注数据数量转向关注数据质量[3]。通过特定技术手段,从庞杂的数据中提炼分析得到证据,是当下临床研究的新方向。

RWE的发展现已成为各国医疗领域的前沿和热点,数据的开放与运用已成为国家综合竞争力的新标志。英国临床实践研究数据链(Clinical Practice Research Datalink, CPRD)自1987年起收集基础医疗记录,以此为基础已发表药物安全研究、临床指南超过1 700篇[4]。2009年美国启动卫生经济和临床医学信息技术(HITECH)行动鼓励医师和医院使用电子病历系统,有力推动电子健康档案的普及,成为RWD的重要组成。2016年12月美国颁布《21世纪治疗法案》,要求美国食品药品管理局(Food and Drug Administration,FDA)在医疗产品审批和监管程序中纳入RWE。此后FDA陆续发表声明、颁布指南阐述RWE的定义和特点,规范RWE的产生和应用,将充分发挥RWE在审批监管决策中的作用视作其首要战略重点。2018年12月6日FDA颁布《真实世界证据方案框架》,为实现RWE支持药品审批决策的目标提供相对清晰的路线图。

2 大数据分析提升临床研究可行性

2.1 概述

由于前瞻性随机对照实验(Randomized Controlled Trials, RCT)在很多医疗和政策支持中的局限性,大数据的重要性越来越得到认同。而RWD揭示数据中真实世界的本质,为医疗决策和政策提供更加准确和有效的证据[5]。

2.2 大数据临床实验优越性

RCT是当前最主要的临床研究方法。然而一旦在真实世界中对生物效应进行评估,患者可能受到并发症及其余合并用药的影响,生物效应未必等同于临床效应。另外分析RCT数据主要是寻找基线因素和特定临床结果之间的关系,但是很多临床试验中的患者会接受多种治疗,最终分析时需要将这些因素都纳入考量[6]。因此大数据临床实验(Big Data Clinical Trials, BCT's)的概念进入人们视野。大数据临床试验由两方面组成,一方面是收集独立个体的所有数据,另一方面是收集多个个体来代表真实世界。这里的个体未必单指患者,因为健康人群也是BCT研究的范围。在BCT背景下慢性病的治疗模式将会迎来变革。此外在流行病学方面,谷歌搭建的流感预测模型对于流感爆发的预测甚至比美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)更加快速、精准[7]。大数据时代,BCT研究将成为临床研究的主力军,实现对RCT结果及其相关大数据的客观分析,使得分析结果更加科学、准确、有效[9-10]。

2.3 RCT与RWE研究共同推动临床研究

RCT研究的最大缺点在于其结果外在效应较低。为提高内在效应,RCT研究往往需要依据假设创造理想的实验条件,缩小实验对象的纳入范围。即使在RCT研究中获得正面结果,也难以真正发展形成具有普适意义的治疗方法。此外,RCT研究往往低估药物的长期毒性,对于长期、生活质量相关参数并不敏感,研究时长、资源要求较高。而RWE研究可以提出问题、筛选所需的数据来源评估其优劣。可以应用合适的分析工具,在保证真实有效地的前提下寻找证据,同时保障内在和外在效应,结果更加具有普适性[8]。值得注意的是,与RCT相比RWE研究的内在效应相对较低,同时也较难以实现随机分组。因此在现阶段RWE研究仍不能代替RCT,对RWE研究仍应采取审慎严谨的态度[10]。RWE和RCT研究具有极强的互补性。RWE研究可以帮助制定方向,为未来RCT研究提供假设或作为未来验证性RCT的基础;也可以作为RCT研究的后续,对于在RCT研究中呈现阳性结果的治疗方法,RWE研究可以探究其长期的安全性和有效性。

2.4 以药物为中心实现大数据整合

如何收集来源可靠的数据库、电子健康档案、社交媒体中的信息,从中提取临床信息和分子数据,是一个亟待解决的问题。目前以药物为中心进行数据整合成为一种理想的解决方法。药物通过影响特定蛋白或者通路,在起到治疗效果的同时也会导致不良反应。如果将众多患者的临床信息、药物基因组信息和不良反应信息整合就可以发现临床表型和分子信息之间的关联[11]。例如,利用FDA的不良事件报告系统(Adverse Event Reporting System, FAERS)数据库,研究者发现一旦阻断β-肾上腺素通路,卵巢癌患者的死亡率随之下降,为这一临床现象的分子机制提出新思路。进一步的研究发现Src蛋白磷酸化通过调控β-肾上腺素/PKA来调控下游分子网络,促进肿瘤转移、侵袭和生长[12]。由此可见以药物作为连接纽带,大数据分析可以将临床表型和分子因素关联起来。

2.5 大数据分析拓展临床研究方向

在大数据背景下,借助回溯性分析RWE研究可以挖掘现有临床信息,增强对于疾病自然进程的认知,从而拓展临床研究方向。在疾病病因方面,美国帕金森病进展标志物倡议(Parkinson's Progression Markers Initiative, PPMI)利用大数据分析手段探究其致病风险因素并尝试做出预测性诊断和分类[13]。利用大数据分析方法可以挖掘已有数据库中的信息,获得新的认知。如分析癌症基因组图谱(The Cancer Genome Atlas, TCGA)中高级别浆液性卵巢癌的数据,发现遗传学改变多集中于抑癌基因失活,识别出包括RAS/PI3K、RB、FOXM1、NOTCH在内的数个潜在治疗靶点[14]。子宫内膜癌TCGA数据分析则进一步揭示疾病的分子生物学本质,可以根据预后将疾病重新分类为POLE超突变肿瘤、微卫星不稳定高突变负荷肿瘤、低拷贝数肿瘤和高拷贝数肿瘤[15]。在疾病治疗及预后方面,研究发现疾病治疗应答和预后并不由单基因决定,而是包括基因突变、拷贝数变异、DNA甲基化、mRNA、蛋白及其修饰、肿瘤微环境影响等共同作用的复杂网络,因此需要对临床-分子相关的多个数据组进行分析。现有电子健康档案数据多掌握在公共卫生实体或保险公司,这些数据未得到充分利用来研发新药。REW可以帮助寻找新药治疗靶点、验证药物安全性[16]。

3 大数据分析提升临床研究效力

3.1 概述

大数据提供实时结构化学习的机会,这将进一步推动临床实践改革。随着临床研究中组学技术应用的增加,对患者信息和已有数据进行回溯性和实时分析可以帮助做出临床决策,制定相关政策。目前大数据分析已经被用于探究真实世界,这对于临床研究设计有极大帮助[17]。

3.2 优化临床研究招募

在招募患者加入临床研究环节,可以根据预测的参数对参与者进行初步筛选。如对于临床药物试验,通过大数据分析筛选出治疗应答可能性更高的患者,或者排除应答可能性较低的患者,也可排除用药后发生不良反应风险相对更高的患者,尤其是在探究靶向治疗的临床疗效时具备极大的推广价值[18]。此外实用性临床试验(Pragmatic Clinical Trials, PCTs)的概念也进入大众视野。依据EHRs开展回溯性RWE研究对于参与者的纳入标准较为宽松,可以极大提高临床试验患者的应答率。在肿瘤药物的研发中,传统临床试验的参与者比例小于5%,尤其是少数民族群体、老年人群、低收入人群、居住在偏僻地区的人群。而PCTs可以在遵循现有方法学、伦理、法律等准则的前提下发挥社区医疗的作用,让更多人参与到实验中来,对临床决策提供有力支持[19]。

3.3 缩短临床研究周期

传统的关于治疗和干预效果的临床研究所需随访周期较长,因此越来越多的研究者开始寻找新的分子标志物来替代传统分子标志物。利用蛋白质、代谢产物、表观遗传标志物等分子标志物替代传统标志物,进行小型、随访周期短的临床试验,相较于传统临床试验更加方便快捷。但是由于这些替代性分子标志物未经过足够的临床检验,临床结果和分子标记之间也没有搭建正确的关联,这一类临床研究可能难以得出有意义的研究结果。在过去几十年发现的新型分子标志物中难以识别、确证的分子标记数量甚至超过成功验证的分子标记数量,因此应用这些替代性分子标记应注意时刻保持谨慎[20]。大数据分析为这一问题的解决提供新的思路,随着经验积累和自正,通过严格的模型推论和对实验结果的审查可以增加研究结果的可信度,从而筛选出真正有效的分子标志物[21]。

3.4 调整临床研究设计

在临床研究中可以依据收集到的患者队列信息,遵循预先设定的原则对实验设计进行进一步优化,包括但不限于调整样本数量、放弃某种治疗或剂量、改变接受治疗患者的比例、因为效果良好/不佳提前终止实验等[22]。如肺癌整合标记靶向治疗(Biomarker-integrated Approaches of Targeted Therapy for Lung Cancer Elimination, BATTLE)试验,运用适应性贝叶斯设计方法,实时留取患者生物标本,监测患者多种分子标志物水平变化,选择适当的治疗方法,以求某种或数种分子标志物水平能够反映该治疗方法的疗效[23]。体外肺灌注肺移植实验DEVELOP-UK调整研究纳入的参与者数量,允许由于安全、有效、无效等原因提前终止研究[24]。这种适应性的实验设计方法有诸多优点,包括减少患者接受相对无效治疗的时间,加快进度寻找有效的治疗手段,更加有效且符合伦理。

3.5 构建复杂疾病-药物治疗模型

真实世界与理论世界最大的不同在于临床患者往往不会只患有一种疾病,而是存在并发症,需要同时接受多种药物治疗,这些合并用药具有治疗效果的同时也会影响患者其他正常生理功能,从而降低其生活质量。利用大数据分析可以准确辨别药物的适应症和不良反应,评估药物安全性。将斯坦福临床数据库(Stanford Clinical Data Warehouse, STRIDE)中超过100万患者的药物、疾病、疾病-药物的频率分布结合起来,可以辨别药物与特定疾病的关系中哪些是适应症、哪些是不良反应[25]。随着对药效生物分子机制的理解加深,在电子医疗档案等大数据的帮助下,可以构建模型,模拟存在并发症情况下的人体机能,观察合并用药是否会改变抗癌药物的药效。这种建模方法可以使临床研究更加接近真实世界[16]。如果合并用药会影响药物的抗癌效果,那么就将其列为临床试验中需要排除的药物;如果在系统预测中发现患者的并发症可能会受到实验新药影响而进一步恶化,可以在实验招募环节将有此类并发症的患者排除在外。此外具体的用药剂量可根据患者的个体情况进行调整[26]。

4 大数据分析的局限性

大数据分析面临的核心问题已经不是数据量,而是多维度数据整合的方法,如机器学习、深度学习、网络分析等。而这些方法都通过黑盒子来探究多因素之间的联系,因此采用相同数据集、不同方法进行分析可能得到完全不同的分析结果,从而导致其无法真正上升到真实世界证据所需的高度。如对比MammaPrint[27]和OncotypeDX[28]两种算法对乳腺癌患者预后分析结果发现没有相同基因[29]。即使针对性地改进数据分析工具,由于变量数量极大、方法学复杂,依然极有可产生数据噪声、分析偏性、假阳性等问题[17]。因此首先需要在临床研究中寻找有力证据,证明分析结果,才能逐步推广应用于临床。另外RWD的重要组成电子健康档案是为计费和医疗设计的,因此往往难以从繁杂、未结构化的数据中将真正与临床相关的信息筛选出来[19]。庞杂的数据量可能使研究者们忽视研究设计的重要性。然而只有经过审慎的考虑、仔细研究设计才能充分挖掘已有的临床数据,完成高质量的临床研究,保障研究结果具有良好的可重复性和临床应用价值。同时数据的共享和开放需要公共政策倾斜,也需要研究者们的共同努力,确保可以获取完整的数据[16]。存储和分析大量的患者数据对计算能力提出较高要求,同时需要多个领域专家的参与[30]。此外由于大数据粒度及信息量大,为防止患者信息被再识别,数据安全需要格外注意[17]。

5 结语

医学研究突破的潜在方向,包括疾病的精确分型、发病机制、预测预警、快速诊断和精准治疗等目前都与医疗大数据密切相关。而医疗大数据是真实世界证据的基石。真实世界证据为生物学家、临床医生、流行病学家及医疗卫生政策制定专家提供有效支持,使得数据驱动的决策制定成为可能并最终实现对疾病治疗、健康监测的优化,对患者产生有益影响。

猜你喜欢
真实世界临床试验标志物
多替拉韦联合拉米夫定简化方案治疗初治HIV感染者真实世界研究
参麦宁肺方治疗223例新冠病毒感染者的真实世界研究
基于真实世界证据的人工髋关节假体临床使用研究
基于真实世界研究分析输尿管软镜手术前留置输尿管支架管的必要性
抗疫中第一个获批临床试验的中药——说说化湿败毒方
脓毒症早期诊断标志物的回顾及研究进展
冠状动脉疾病的生物学标志物
肿瘤标志物在消化系统肿瘤早期诊断中的应用
MR-proANP:一种新型心力衰竭诊断标志物
肿瘤治疗药物Tosedostat的Ⅱ期临床试验结束