王 博 周 欣 孙 晶 赵鎏丹 孙 锟
上海交通大学医学院附属新华医院儿心脏中心(上海 200092)
临床研究是针对临床实际问题进行的研究,旨在促进疾病的筛查、诊断、治疗和预后,是形成专家共识和临床指南的主要依据。儿童具有成长性,不同年龄阶段的机体代谢特征具有不同特点。若将针对成人的治疗方法用于儿童,不良反应发生的概率和强度会因年龄段而异。
大多数儿科慢性疾病发病率低,单中心临床研究无法募集足够的患者,难以形成有效的证据支持[1]。传统的大型多中心临床研究需要花费大量人力和财力来收集、录入、处理和分析数据,难度较大,耗时较长,严重影响了科研效率[2]。并且,由于儿科医师数量较少,工作负荷大,投入科研的时间和精力相对有限,儿科多中心研究的开展备受阻碍。截至2023年1月30日,临床注册研究官网(clinicaltrials.gov)注册的儿科多中心临床研究共计6 871项,仅占多中心临床研究总数的16%。
随着医疗大数据技术的快速发展,基于大数据的研究网络或许能为儿科临床研究带来新的机遇。数字化研究网络是由多家医学机构、专病研究网络以及数据合作平台共同组成的互联互享的研究平台[3],旨在整合利用医疗大数据,为更大范围内的人群提供更优质的医疗服务。数字化研究网络能够扩大研究的样本量,提高研究的时效性,并且促进更多真实世界研究的开展。现基于儿科研究网络开展的临床研究、相关算法展开讨论,分析现存的问题及可能的解决思路,以期为后续儿科研究网络的建设发展提供借鉴。
数字化研究网络可以扩大研究覆盖人群的广度,使样本更具代表性。儿科研究网络(PEDSnet)是一个北美地区由医院和医疗保健组织、研究人员、临床医师以及患者和家庭组成的全国性健康学习系统(learning health system),由8家儿童医院、3个儿童专病网络(炎症性肠病、先天性心脏病和肥胖病)和2个数据合作平台组成[4]。通过医疗健康大数据技术,PEDSnet收集了全美各地患儿的电子健康记录及其他临床数据,扩大儿童临床研究的范围,降低研究成本。
McKenzie等[5]利用了PEDSnet数据库(版本4.0)中的标准化电子健康记录(electronic health record,EHR)数据,纳入了540 9919名儿童,调查全美儿童斑秃的患病率和发病率。结果显示儿童斑秃患病率为0.11%,亚裔和西班牙裔儿童是高危人口亚群。Lang等[6]曾使用 PEDSnet 临床数据开展一项回顾性队列研究,共纳入507 496例儿童的资料,以比较超重和/或肥胖与健康体重儿童的哮喘发病率。结果显示:超重(RR=1.17,95%CI:1.10~1.25)和肥胖(RR=1.26,95%CI:1.18~1.34)儿童发生哮喘的调整风险增加。相比于哮喘的其他危险因素(遗传因素和免疫因素等),肥胖的可预防性给减少新发哮喘患者带来可能。基于儿科研究网络开展的临床研究可以纳入足够的样本量以开展全国范围内的流行病学研究或病因学研究,可均衡区域、诊疗环境及流程差异带来的偏差,形成良好的匹配设计,提高研究结果的可靠性,为疾病的防治政策提供依据。
基于大数据的多中心儿科研究网络能够迅速建立大规模队列,提高研究的时效性,及时研判儿童群体中疾病的流行趋势,制定更为恰当的应对方案。2021 年,一项基于PEDSnet 的回顾性队列研究调查了全美国儿童感染新冠肺炎的情况,研究纳入了13 5794 例在特定时间段接受新冠病毒核酸检测的患儿。结果显示阴性的比例为96%,且阳性患者中重症发生率低。黑人、西班牙裔和亚裔种族、青春期以及非呼吸道慢性疾病与新冠病毒感染有关[7]。
并且,基于大数据的临床研究能在大量儿童中探索并建立的疾病生物学模式和治疗效果,应对临床工作中最新产生的问题。太平洋儿童脑肿瘤研究网(PNOC)旨在研究儿童神经肿瘤的发生过程,为患儿提供个性化的诊疗策略。一项基于PNOC 的前瞻性临床研究揭示了该病典型的关键基因组变化,并且发现下一代测序能够促进弥漫性桥脑胶质瘤患儿的个性化治疗[8]。
数字化研究网络的儿科临床研究更加贴近诊疗实践,研究结果外部转化率高。由26 家医院组成的儿童肾结石研究网(PKIDS)的研究以比较儿童肾结石3种常见手术方式(输尿管镜、冲击波碎石术和经皮肾镜取石术)的有效性为例,描述了一种以患者为中心的实用性观察性研究的原理和方法[9]。基于研究网络的研究数据大部分来源于EHR,这能够允许真实世界数据的积累,促进了真实世界研究的发展。这种根植于临床诊疗中的试验设计比传统随机对照试验人为干预少,能够在真实临床环境中评估诊疗方案的有效性和安全性,所得研究结论外部转化性高,从而促进儿童疾病临床诊治指南的更新优化。PEDSnet内部的肥胖专病网络曾研究儿童与青少年BMI的变化[10],儿童肥胖的危险因素[11-12]以及肥胖的并发症[6,13]。上述研究结果促进了儿童青少年肥胖评估和治疗的临床实践指南[14]的更新。
基于大数据协作研究网络开展的临床研究往往会收集多个医疗机构和医疗环境的数据,使样本更具有代表性。但绝大部分数据都来自电子健康记录,研究结果可能会受到不同医疗机构的病历模板和诊疗模式的影响,亦可能受到不同医师专业能力和经验的影响,导致不同数据库数据异质性大,影响多中心临床研究的结果可信度。若是基于EHR开展的真实世界研究,非随机的实验设计和删失值等数据质量问题会让混杂偏倚和选择偏倚更为严重。并且,EHR中存在大量非结构化的文本数据,如患儿的症状、体征、既往史等重要信息,这给数据的后续分析处理带来难题。
目前医疗机构中的EHR 普遍采用国际通用的标准化术语集,如SNOMED-CT和ICD-10-CM以及RxNorm 等,促进了临床医学信息的标准化和电子化。但是,这些现存的术语集可能无法囊括疾病实时更新的诊断方式、并发症或药物等术语,给表型识别带来挑战。医疗术语还存在大量的同义词或上下位词,但ICD编码并不包含完整的上下位关系,这增加了从数据库中检索患者的难度,给病历的自动处理带来困难。并且,目前国际上缺乏针对于儿科的标准化术语集,给儿科数字化研究网络的建设造成阻碍,加大了多机构之间数据标准化的难度。未来,我们需要不断建立和完善针对儿科的标准术语库,为基于大数据的多中心儿科研究赋能。
最后,基于研究网络的临床研究多数为观察性研究。观察性研究能较快地发现不同变量之间的关联,但并不能证实因果关系。Tai等[15]比较了两本护理健康期刊上关于乳腺癌、缺血性心脏病的观察性研究和干预性研究结果之后,发现结果一致率低于25%。并且基于研究网络的临床研究多为回顾性研究,研究数据存在回忆偏倚,并且所得结论可能存在反向因果关系。但目前医疗机构普遍缺乏主动采集前瞻性数据的手段,若患者后续不来本院就诊,则无法主动了解患者的结局情况。未来医疗机构可利用互联网技术建立专科随访系统,既能获取患者出院后的康复情况,又能完成前瞻性数据的采集。
若要真正实现大数据协作研究网络对儿科临床研究的助力作用,需要一些关键技术或算法的支撑。如数据质量控制技术,能帮助研究者理解、解释和提高数据质量;基于EHR 的表型识别技术,能够快速识别出目标疾病的队列;生物组学数据挖掘技术,能促进个体化诊疗的发展。随着上述关键技术的革新与进步,儿科研究网络将更好地为儿科临床研究赋能,提高儿科临床科研水平。
数字化研究网络将来自多个机构的电子健康记录数据转换为通用数据模型,并以集中式或分布式的方式提供这些数据,以进行广泛的科学研究。但电子健康记录(EHR)是为临床诊疗设计的,而不是出于研究目的,直接将EHR的数据用于研究可能会增加偏倚。所以,如何理解、解释和提高数据质量,就成为建立大数据研究网络的关键。一项研究曾对PEDSnet 的数据质量问题作出总结:在850 个数据问题中,最常见的类型是缺失数据(>300)和离群值(>100);最复杂的数据领域是药物(>160)和实验室测量(>140);最主要原因是源数据特征(83%)和提取转换加载 (extraction-transform-load,ETL) 错误(9%)[16]。数字化研究网络中,尽管数据质量检查数量稳步增加,但可修复的问题(ETL)数量却在不断减少。此趋势可能提示了研究网络数据质量控制方法的演变即从最大限度遵循数据清理机制的公约,到更加注重临床研究准备工作的规范。但遗憾的是,在数据质量问题原因未知的情况下,合作机构仍会花费大量时间调查代表数据固有特征或者误报的问题。
使用电子健康记录进行流行病学研究需要在复杂和非结构化的数据中识别感兴趣的暴露因素和结果。使用可用的数据元素定义感兴趣的结果,被称为可计算表型,它是EHR数据库中队列识别的基本工具,也是一直是研究者努力的焦点[17]。依赖于EHR的数据元素和可执行逻辑语句的算法,可计算表型能够快速识别出目标疾病的队列,大大降低了儿科临床研究的难度和成本,提高了临床研究的效率。基于PEDSnet 的EHR 数据,研究者们已经开发出多种针对不同儿童疾病的可计算表型,且被验证具有良好的分类精度,如儿童肾小球疾病、白血病、淋巴瘤、克罗恩病及系统性红斑狼疮等[18-21]。但是这些可计算表型算法在其他数据库和医疗系统中的性能还需要验证。
近些年来,大规模生物组学数据的迅速积累引发了人们对于个性化医疗的期望。PNOC 中已有相关研究论证下一代测序能够促进弥漫性固有桥脑胶质瘤患儿的个性化干预[22-23]。但是,如何处理、分析日益增长且数目庞大的生物组学数据,成为了新的挑战。机器学习算法对于解释基因组数据集和帮助个性化药物的设计具有重要意义。一些成人疾病的数据挖掘算法或许能给我们提供借鉴,例如一种名为PrimateAI的方法,使用卷积神经网络在已知致病性变异上训练,能够从人类样本中学习重要的蛋白质结构域、保守的氨基酸位置和序列依赖性,在识别发育障碍候选基因致病性突变方面的性能大大超过了其他致病性变异预测工具[24-25]。不仅如此,人工智能算法可以将EHR中的表型与基因变异建立映射。Clark等[26]设计了一个自然语言处理系统,从罕见病儿科患者的EHR数据中自动提取表型描述,并对与基因组中致病变异的预期表型特征匹配的情况进行排序,准确率为99%。这极大提高了基因检测的诊断效率,有助于个性化医学的发展。
现有及历史的EHR中存在大量非结构化的文本数据,这部分数据对后续的临床科研分析起到了关键作用。研究者一般通过文本结构化技术识别和提取这部分数据中的专科术语和基于时间线索的临床事件,实现电子病历的后结构化[27]。但是,电子病历在数据录入时常存在数据模糊、缺失等情况,这是后结构化技术无法弥补的。因此更重要的是实现对电子病历的前结构化,根据临床语义知识图谱和深度学习算法模型建立结构化的专科电子病历,通过在电子病历数据输入时就设立的规范结构来减少后续数据分析的障碍。目前,Xiao 等[28]发现FHIR RDF规范可用来将EHR 转变为RDF 格式的结构化知识图谱,从而更加容易地与其他生物医学资源联合(如维基数据),利用其中的知识以推动循证临床决策的发展。并且,结构化EHR 所用的SPARQL 查询语言不仅能够识别目标患者,还能够提高健康管理和学术研究的自动化[29]。总之,结构化的电子病历能够提高EHR 数据质量,推动多中心之间的数据共享,更好地为临床科研赋能。
儿科相关概念在现有术语标准中没有得到很好的体现,这极大影响了研究网络中儿科研究的开展,并且给多机构之间的数据共享造成阻碍。Eunice Kennedy Shriver 国家儿童健康与人类发展研究所(NICHD)曾发起儿科术语统一的倡议,重点提高SNOMED-CT等临床术语中关键儿科研究术语的覆盖率[30]。2017 年,经过不同背景的儿科专家多次商讨审核后,儿科不良事件术语集被制定出来,包含1 000余种疾病、障碍及临床发现[31]。儿童大数据研究网络应在现有的临床标准术语集基础上,向国家标准机构提交诊疗过程中更新的核心儿科术语,并解释其定义及其与现有标准术语的关系,以逐渐形成儿科研究的标准术语库,为后续儿科临床研究奠定良好的基础。
为保证儿科研究网络的有效性,各医疗机构之间的诊疗数据需要相互传输与共享。然而,严格的隐私政策为保护数据的安全性,在警惕敏感患者数据的泄露同时,给数据共享也带来了挑战。并且儿童群体相对脆弱,临床研究的数据监管标准更为严格。为了更加有效地治理和利用健康数据,我们需要制定更完善和相称的法律和伦理框架。英国biobank的广泛同意模型或许对于我们有借鉴意义,其认识到数据管理者无法规定数据的所有潜在研究用途,也不应该规定它们将如何改变。一些研究者认为,在创新的、适宜的治理下可信地使用数据,于患者和公众是利大于弊的[32]。
随着医疗大数据相关技术的快速发展,国内外儿科研究网络节约了儿科临床研究的成本,提高了研究效率,为儿童疾病诊治指南的形成提供助力。基于大数据的研究网络开展的儿科临床研究具有样本量大、时效性好和转化率高等优势,应用于儿童疾病的流行病学、高危因素判定、并发症和诊疗方案等研究方向并取得成果。但也存在着一些问题:EHR的异质性,给临床数据的处理分析及再利用带来极大挑战,且由于纳入混杂因素较多导致研究证据等级较低。电子健康记录的结构化和儿科疾病标准术语集需要进一步建立和完善,并基于协作研究网络改善现有临床数据前结构化的程度,通过整合应用于真实临床诊疗流程,从而尽可能克服跨区域合作及不同诊疗流程带来的异质性,形成更多的标准数据池以用于后续的研究。随着海量分子数据和临床数据的快速积累,应用人工智能算法来处理和分析数据,需要更完善的法律和伦理框架来保证数据的合理使用和传输共享,以促进儿科疾病诊疗指南的更新优化,实现儿童数字化研究网络“从临床中来,到临床中去”的初心和使命。