陈亦豪 常健博 魏俊吉 冯铭 王任直
随着全球人口老龄化的加剧,脑卒中已成为仅次于恶性肿瘤的第二大死亡原因,也是造成残疾的主要原因[1]。中国目前有超过1000万例脑卒中患者,每年新发病例约250万例[2]。脑卒中可造成永久性神经损伤,产生严重并发症甚至导致死亡,影响患者生活质量,并对患者家庭及社会带来较大经济负担。中国脑卒中发病率存在地区差异[3],加之各地区人群存在文化习俗、饮食、生活习惯上的不同,使得脑卒中的一级预防以及个体化和精准治疗的开展存在一定困难,亦无法为脑卒中的临床治疗提供循证医学支持,故亟待建立大型地方或国家级医学数据库以提供和实现数据调研、存储、挖掘、共享。20世纪90年代以来,西方发达国家陆续创建以疾病诊疗和质控为核心的大型医学数据库和脑卒中网络登记中心,并以此为基础开展大量的临床研究[4⁃6]。2007年,中国国家卒中登记(CNSR)数据库建立[7],填补了国内大型脑卒中数据库的空白。随后,国内脑卒中数据库构建体系日益完善,对开展脑卒中的流行病学研究及反馈中国脑卒中诊疗质量发挥重要作用[3,8]。然而,通过对比CNSR数据库与其他国家大型数据库中脑卒中诊疗质量发现,同美国等已具备成熟脑卒中诊疗水平的高收入国家相比,中国在脑卒中有效干预和严格遵循脑卒中治疗方针等方面仍存在较大差距[9]。在人工智能(AI)技术快速发展的今天,大数据挖掘以及数据共享已成为促进科学研究进展必不可少的环节之一。如何实现高效的数据导入、高质量的数据管理和维护,以及跨模态数据库的进一步探索,是脑卒中精准防治的基础,也是未来脑卒中数据库亟待解决的核心问题及发展方向。
1.国际脑卒中数据库的应用及发展 最早的脑卒中数据库可溯源至1978年,由美国国立卫生研究院(NIH)国家神经疾病与卒中研究所基于系统性数据收集方法和标准化诊断算法,最终获得一整套脑卒中患者电子病历资料并将其存储至数据中心,然后研究者根据这些数据开展一系列涉及脑卒中诊断、临床实践和预后的前瞻性研究[10]。参与该数据库建立和应用的团队包括神经专科医护人员、流行病学家、统计学家和计算机工程师等。1979年,世界卫生组织(WHO)牵头组建的心脑血管疾病登记中心监测心血管疾病的趋势和决定因素研究(MONICA)项目,旨在探索不同人群心脑血管疾病的发病趋势和危险因素,在不到10年的时间内迅速发展成为涵盖41个分中心共118个合作单位的国际合作研究中心[11]。在脑卒中数据库建设的早期,上述数据库凭借多中心、大样本量和多学科协作的模式,成为脑卒中数据库建设之典范。不足之处在于,早期的数据库结构和数据类型较为简单。20世纪90年代以后,随着电子计算机技术的进一步发展和普及,大量脑卒中数据库及网络登记中心开始创建和应用。1991-1996年开展的前瞻性随机对照试验——国际卒中试验(IST),旨在研究早期服用阿司匹林和肝素对缺血性卒中预后的影响,该数据库拥有完整的基线及随访数据,现已对外开放并允许进行二次分析[12]。IST数据库的开放大大提高了数据的利用率,对脑卒中数据库资源共享具有重要意义。但后续利用该数据库进行的脑卒中研究普遍存在共享数据字段相对单一等实验设计的不足。1999-2003年,由86所美国医院参与的美国网络国家急性卒中治疗和操作规范化计划(Ethos)中心投入使用,该中心通过收集、分析并反馈脑卒中治疗的有效率,而提出有针对性的脑卒中治疗质量改善措施。经研究发现,通过对脑卒中治疗质量控制的登记和及时反馈促进了脑卒中护理技术的进步[13]。此后,多中心参与的国家级大型数据库成为脑卒中诊治质量控制的重要工具。传统医学数据库的出现,极大地保存了不同阶段脑卒中患者的人群结构、发病特点和治疗方式等临床资料,为同步和后期开展病例对照研究提供了丰富的数据资源。但此类医学数据库仍以文本资料为主,影像学资料较少,在脑卒中研究方向上无明显创新性。此后,随着研究人员对脑卒中认知的不断加深,一类以前瞻性队列研究为载体,聚焦于特定研究方向的大型多中心脑卒中数据库应运而生,如2008年公布的INTERACT试验(Intensive Blood Pressure Reduction in Acute Cerebral Haemorrhage Trial)数据库[14]以及重组活化因子Ⅶ(rFⅦa)治疗出血性卒中随机对照试验数据库[15]等。此类前瞻性设计的数据库多涵盖包括影像学资料在内的丰富的数据类型,虽旨在探讨降压和重组活化因子Ⅶ治疗出血性卒中的有效性和安全性,但在不同研究方向上,同样的数据仍具有较高的可应用性,是21世纪以来脑卒中数据库建设的主导趋势之一。
2.国内脑卒中数据库的应用及发展 因国内脑卒中诊治水平参差不齐、医疗保险类别和覆盖范围不一、登记网络组建协调性差等,使得国内脑卒中网络登记数据库的创建晚于欧美等发达国家。2007年,国家卫生部(现为国家卫生健康委员会)和科技部启动建立了中国CNSR数据库,截至2018年3月共纳入15 166例脑卒中患者,覆盖27个省(自治区)和4个直辖市,历经前瞻性收集患者社会人口学资料、探究病因、提高诊疗和护理质量3个阶段,填补了中国脑卒中相关数据库的空缺[16]。2015年,中国卒中协会牵头的中国卒中中心联盟(CSCA)成立,该联盟以国内大型三级医院为基础,组成多中心脑卒中数据监测平台和临床研究网络,通过开展随机对照试验对比分析脑卒中各种治疗方法的有效性,对于夯实循证医学证据、有效反馈和促进脑卒中诊疗和护理质量具有积极作用。截至2017年7月,共1576所医院计433 264例脑卒中患者的临床资料在该联盟中得以保存和维护[17]。2017年,北京大学第一医院牵头建立的中国急性缺血性卒中治疗结局登记(CASTOR)数据库通过分析社会人口学数据、治疗成本和效益、不良事件和并发症,以探寻中国最佳成本⁃效益的脑卒中治疗方式[18]。虽然国内脑卒中医学数据库因多中心参与、数据量大的优势可以开展大规模数据调研,但是海量的数据处理工作将限制数据的可靠性,应严格把关数据采集、录入和检验。此外,国家级大型数据库并不能较好地体现不同地区和不同级别医院脑卒中诊疗水平的差异,亟待建设区域性脑卒中数据库以解决上述问题。基于此,上海脑卒中服务系统作为区域性脑卒中登记数据库,由上海市政府于2013年筹建,通过自动提取结构化电子病历的核心数据,分析美国国立卫生研究院卒中量表(NIHSS)的应用率、静脉溶栓比例和血管再通成功率等关键绩效指标,对评价区域性脑卒中诊疗和护理质量、构建脑卒中护理质量改善模型具有不可或缺的作用[19]。然而,由于经济水平的地区差距,国内现有的脑卒中网络模型并不完全适用于经济相对薄弱的中西部地区。随着国家医疗保险体系的不断完善,多学科诊疗模式(MDT)及大数据共享理念的普及,未来中国脑卒中数据库还将进一步覆盖中西部地区和城乡区域,并不断提高其数据质量。
3.综合型数据库在脑卒中中的应用 除国内外特定的脑卒中相关数据库外,大型综合医学数据库的创建历史更长、使用范围更广、重复利用率更高。1987年,英国通用实践研究数据库(GPRD)建立,截至2009年共注册160万例在英国综合性医疗机构就诊的患者,同步记录社会人口学资料、就诊过程、诊断信息和治疗方式,根据性别和年龄的分布基本上可代表英国国民总体,其中,1997-2006年该数据库共注册48 239例脑卒中患者。Toschke等[6]分析GPRD数据库中脑卒中相关数据,证实积极降压治疗对改善脑卒中患者预后具有重要作用。2002年,中国台湾地区全民健康保险研究数据库成立,旨在通过循证医学研究制定临床决策和医疗政策,共纳入超过99%的台湾地区人口。2015年,Hsieh等[20]利用该数据库的原始数据进行脑卒中合并肾功能障碍患者的流行病学调查。即便如此,综合型数据库由于缺少脑卒中相关特异性数据标签,难以进行深层次的数据挖掘和提出前瞻性的临床研究假设。
相比纳入数据全面的脑卒中数据库,基于特定研究目标的脑卒中数据库可对脑卒中进一步深层次探索。例如,2008年建立的新兴预测脑卒中后语言功能结局的脑卒中解剖与功能成像数据库,基于完备的临床随访数据以及中枢神经系统解剖和fMRI数据,实现预测脑卒中患者语言和认知功能康复的目的,并助力开展神经损伤恢复机制的进一步研究[21]。出血性卒中是脑卒中的重要组成部分,病死率和病残率均较高。中国出血性卒中患者因脑出血产生的医疗费用接近缺血性卒中患者住院费用的2倍[8]。目前,国内外脑卒中数据库均以缺血性卒中数据库为主,少有聚焦脑出血的数据库建设和临床数据分析[21⁃23]。2018年,由新加坡国家神经科学研究所(NNI)公布的新加坡脑卒中数据库,涵盖2009年1月至2013年11月共1338例自发性脑出血患者的前瞻性数据,并基于该数据库的数据分析提出较传统脑出血评分量表更精准的脑出血预后预测模型,即脑出血分级量表[22]。2019年,中国医学科学院北京协和医院牵头的国内多中心颅内出血影像学数据库建设项目成立,旨在借助医疗大数据和人工智能技术,突出以头部影像学资料为核心的多维数据分析,以构建脑出血精准诊断、评估和预测体系[24]。目前该数据库涵盖国内至少32所医疗机构共5287例脑出血患者计14 609张头部CT扫描图像。该数据库实施全临床文本资料存放和完整脑出血影像标签登记,为后期开展脑出血影像组学分析和构建预测模型发挥重要作用。未来脑出血影像学数据库将进一步扩大病例容量,开展更多的临床合作研究,致力构建中国出血性卒中更全面的数据共享平台。
脑卒中数据库的目标是获得流行病学数据统筹医疗规划,收集医学资料促进科学研究发展,反馈和改善医疗和护理质量。高质量的数据资源是脑卒中数据库的核心评价指标,这要求提供原始数据信息的医疗机构配备成熟的电子病历系统和先进的影像设备,病历得以妥善保存并具有较高的内涵价值。此外,前期进行数据采集及审查人员培训、制定详细的数据库构建协议和高质量的病例报告表格,同步进行定期的数据审查等,是确保数据准确性及完整性的重要方式。近年来,电子数据采集系统(EDC)被广泛应用,通过自动检查每例患者所有数据元素的完整性、元素值范围及编码的正确性,挑选出重复条目和逻辑错误并及时反馈,便于数据质量的监测[17]。Schwamm等[23]认为,构建和运行脑卒中登记数据库需具备以下因素:(1)制定标准化数据标签并定义。(2)资金充足。(3)应用电子数据采集系统。(4)保证病例随访的完整性以及开放、活泼的团队合作。(5)在数据收集、验证、清理、输入、分析、报告生成和反馈的整个过程中,应充分保护患者的个人隐私。这需要项目实施前进行培训教育、设立数据库开放权限、数据元素匿名化、数据编码和安全的数据传输方式,以最大程度避免患者个人信息泄露。
近年来,随着人工智能技术在医学影像自动分割[25⁃27]、辅 助 疾 病 诊 断[28⁃29]和 预 测 疾 病 转 归[30⁃31]等成功应用案例的不断出现,人工智能技术也为数据库的建立提供了新的方向。例如,利用计算机技术对数据进行批量去隐私化处理,不仅保证患者信息安全,更有利于推动数据共享。应用基于人工智能的自然语言处理方法快速构建文本标签[32],可极大节约人工创建和填写标签的时间。Lee等[33]研发出一种自动提取放射学报告关键信息的人工智能模型,该模型能够自动生成患者有无骨折的关键标签内容。Wakamiya等[34]利用网络信息挖掘技术和自然语言处理技术捕获并分析基于社交媒体(Twitter)的医学相关数据,验证这种信息处理技术的可行性。此外,影像资料的自动分割技术对于影像数据的分类和保存具有重要意义[25⁃26]。北京协和医院神经外科建立了一种基于卷积神经网络(CNN)的颅内血肿自动分割模型,同手动分割方法具有良好的一致性[35]。近年关于脑出血相关水肿的自动分割也见诸报道[36⁃37]。在人工智能技术的辅助下,构建脑卒中数据库的各个环节会更加便捷,数据内容会更加精确,数据类型也会更加全面。同时,人工智能技术开始在数据库建设中发挥作用,而源于大型数据库的海量数据也是人工智能应用模型开发的学习 资 料 保 障[38⁃39]。Misawa等[40]利用大型结肠镜检查视频数据库中的数据验证了一种人工智能技术辅助的结肠息肉检测系统,提高了该系统检测结肠病变的敏感性和特异性。Inaguma等[41]采用基于大型数据库的机器学习预测模型,发现尿蛋白含量增加是慢性肾病患者肾小球滤过率迅速下降的危险因素。Stadler等[42]前瞻性设计一种带有详细注释的肿瘤成像数据库,以用于未指定任务的人工智能模型的开发。未来,人工智能技术和数据库建设还将继续融合协作,智能化的数据加工、存储和运输也将成为新型数据库建设的主流趋势。
综上所述,脑卒中和大型综合医学数据库的不断出现和优化,极大促进脑卒中研究及医疗和护理质量的提高。虽然越来越多的数据库实现从结构单一、数据质量低向高质量、多学科协作模式的转化,但数据缺失、共享和隐私保护的矛盾等问题仍然存在。此外,中国脑卒中病例数巨大,有限的医疗资源和参差不齐的地区诊治水平也使得高质量的数据生成和数据库建设面临巨大挑战,这要求从根源上重视原始病历质量、精心维护数据的保存和运输、合理调动数据的共享并注重患者隐私保护。未来,随着信息化和人工智能技术的发展,以及对跨模态影像数据库的进一步探索,中国脑卒中数据库必将发挥重要的作用。
利益冲突 无