文/张文龙(中国科学技术大学附属第一医院)
近年来,大数据、人工智能等新一代信息技术快速发展,正在引发临床科研模式的变革。2021 年12 月27 日,中央网络安全和信息化委员会印发《“十四五”国家信息化规划》,明确提出“支持构建医疗、教育领域规范化数据开发利用的场景,提升数据资源价值。探索人工智能在智能临床辅助诊疗、智能公共卫生服务、人工智能辅助药物研发等方向的应用效果。”科研大数据平台的建设将以数据赋能医学研究,对科研进程优化与科研成果转化产生促进作用。
中国科学技术大学附属第一医院(以下简称“中国科大附一院”)经多年信息化建设,已建成比较完备的医院信息系统,实现医疗服务与医院管理等信息化全覆盖。该院科研大数据平台的建设与应用情况具体如下。
2019 年,中国科大附一院获评国家医疗健康信息医院信息互联互通标准化成熟度五级乙等(目前国内医疗机构已达到的最高等级),已实现基于企业服务总线(Enterprise Service Bus,ESB),利用数据仓库技术(Extract-Load-Transform,ETL) 建立临床数据中心(Clinical Data Repository,CDR),支持临床服务于医疗管理等,但CDR 的数据用于临床科研,除了需进一步提升数据质量外,还存在如下问题。
该医院科研人员通过原始的手工方式进行数据搜集。虽然在病种维度的回顾性队列研究所需的全部数据已存在于临床数据中心中,但由于中心数据字段不完整、结构化程度不高等问题,系统无法实现自动关联、筛选和导出,导致科研数据收集过程效率低下。科研人员如需分析某项病种,必须在各类信息系统中查找相关数据,如EMR、HIS 中按诊断、手术、患者检验检查结果等检索方式查询住院号[1]。经人工记录后,再前往病案系统中按照住院号抽取并逐份翻阅病历,按照科研条件筛选并记录病历内相关临床信息,为筛查符合条件的病例数200 份,实际翻阅病历可能会达到600~700 份,耗时耗力。
大多数病种存在治疗时限长的问题,需要长期跟踪患者治疗情况并不断对历史病历进行查找,持续对比数据。多学科参与对患者病历归纳要求高,科研人员搜集病历时难免出现遗漏情况。同时研究方向的多样性与个体差异性,也会增加科研数据搜集难度,所以现有的整理手段无法满足科研需求。无论是病历搜集、归档,还是科研数据整理、精准治疗均存在一定难度[2]。而且全院没有完善的科研检索系统及统一的信息化访视平台,也无业务系统对单一科研课题的项目组织、病历登记、收集,文献应用和数据共享及集成进行管理,导致不断产生的符合条件的新数据无法做到实时搜集。
为解决上述问题,中国科大附一院于2019 年对信息系统进行统一规划,集中布局,建设科研大数据平台。
该平台建设思路包括多数据源获取、数据的整合、数据治理、数据结构化、数据应用5 个方面。医院2016 年进行医院HIS 信息系统升级,要求业务系统增量数据汇集ESB 服务总线,升级前的存量数据仍存于各个业务数据库中。针对于存量数据,大数据平台通过与业务系统做接口的方式实现一次性抽取。针对于增量数据,大数据平台通过ETL 工具实现数据抽取、整合与清洗,并在对照数据模型进行转换和校验后,统一汇总于多源临床数据中心。多源临床数据中心按照科研通用需求对数据进行整理和加工后抽取到科研数据中心(Research Data Repository,RDR)。
面对复杂厂商的业务系统与ESB 服务总线,中国科大附属第一医院明确抽取流程和抽取范围,根据临床与科研具体需求,确认抽取数据域包括患者出入转域、医嘱域、结算费用域、检查结果域、医嘱发药域、护理体征域、病案域、电子病历域、RIS 域、Path 域、SP 手术麻醉域、PIES 体检域等,将数据抽取到临床数据中心中。数据抽取后将进行自动同步工作。基于多业务数据源,截至2021 年11 月底,系统共完成65.21 亿条原始数据转储。多源临床数据中心处理并存储19.18亿条数据;科研数据中心处理并存储2.8 亿条数据;大数据中心总计数据存储容量约6.2T。
基于Hadoop 大数据集群架构,以非关系仓库HBase 为基础,平台将抽取的数据保存为最细粒度的事实表。数据完整的情况下,数据中心用患者身份信息作为主索引,整合患者就诊信息,并采用数学计算产生新的维度,例如可以通过出入院日期得出住院时长。对主数据的映射关系进行比较,有效转换编码数据,形成统一的数据标准。对数据的清洗将数据量有效收敛,清除冗余或无效的数据。采用以深度学习为核心的自然语言处理技术对非结构化文书如EMR 等进行解析形成子集,逐步实现结构化文书的推理总结。将敏感的数据如人员基本信息进行脱敏处理。在原子事实表的基础上完成聚集事实表的构建与合并后存入医院科研数据中心,根据医生或研究者的需求,从聚集事实表中定义出符合临床研究需求的特殊的事实表,根据后续的应用需求可以将合并事实表固化为关系型数据库。
为保证数据安全,平台支持对专科病项目组角色分类,划分用户权限和分级授权,对病历数据脱敏处理,支持将患者的姓名、身份证、电话和地址等敏感信息删除或者做特殊字符处理,防止隐私数据泄露[3]。保证多中心或多联盟在互联网传输和存储时的数据安全。针对专病种申请和数据使用有独立的审批和审计流程,通过系统的水印与日志管理,实现数据使用全流程管控。并依据相关管理制度要求,制定相应的数据使用审批流程。数据非必要不能导出,进一步保证数据安全。
依据学科建设发展和科学研究的需求,中国科大附一院已建成科研大数据平台,该平台可实现医疗数据检索、专病库管理、CRF 表单灵活配置与半自动填写、定义访视计划以及科研结果分析与统计功能。
医疗数据检索平台可依据医生或科研人员研究思路和需求多维度筛选病例,检索平台可实现全文检索、病案搜索和精确检索等多种检索方式[4]。既可以在医院已有的临床数据的基础上,按照医生或科研人员常用的查询需求建立不同的查询视图,如支持按照诊断、手术等各常用维度筛选病例,也可以通过对患者的临床信息创建关键字搜索引擎索引,实现针对非结构化信息的检索。搜索结果显示患者信息与360 就诊视图,并将查询出来的病历和相关影像库保存为数据集,极大地提高了科研人员进行医疗数据检索与提取的效率。
平台可根据医生和科研人员通过纳排条件生成实验组队列,为专病管理提供一个科研进展的总览窗口,实现快速浏览当前项目基本信息,快速跟踪项目搜集进度,实现项目组成员的权限与跟踪,可按照“研究者、数据稽查员、随访员、数据录入员、项目管理”对项目组进行角色分工等,系统首页会以日历的形式显示当月计划与统计数据。支持临床数据符合纳排条件的患者自动筛选分组功能。采取访视数据双人录入、信息二次审批确认等多种方法保障了录入的数据的正确性和完整性,实现科研数据质量管控。
项目负责人可自定义配置与编辑CRF 表单,平台自动关联临床数据,支持半自动化填写。实现对增量的临床数据进行自动筛查并抽取到科研病历数据,达到诊疗、科研数据同步采集的目的[5]。这在减少了科研人员工作量的同时,也可避免因人工采集造成的数据失真与缺失。平台支持CRF 版本控制的功能,可实现不同CRF 新老版本之间切换,随时调整,确保数据不会因为版本的变化导致信息流失。
打通内外网,平台实现访视计划功能。随访客户端基于移动端开发,方便患者使用。科研人员设置随访规则与患者建立深度联系。具体功能包括随访计划自动制定与提醒、患者端定时通知、随访数据半自动填入结构化表单、健康宣教。既实现了对患者的健康管理和知识科普,也准确及时地将随访数据传入专病库,完善患者全诊疗流程数据留存,实现患者健康信息的全量收集[6]。
平台提供自带统计分析和算法模块,在无须导出数据借助R、SAS、SPSS 等其他统计软件的情况下,生成相应统计图表,建立分析预测模型。不同的研究小组之间可以在其他课题组授权的情况下,共享和再利用数据,实现助力科研的目的。
目前科研大数据平台于2021 年12 月在中国科大附一院正式上线并运行,共有病例3480 余万例,其中门诊病例3320 余万例,住院病例160 余万例。前期上线支持血液科、综合神经内科的10 余项专病的研究。同期搭建的脑血管方向专病管理平台,可以有效辅助医院提升该学科的诊疗水平和管理能力,逐步建设高质量的脑血管病临床诊疗中心、诊断中心和治疗能力质量提升协同中心,从而辐射带动和示范引领安徽省整体脑血管病诊疗水平的提高。
但是在大数据平台前期建设取得初步成效的同时,我们也清楚地看到了不足:
(1)面对门诊和住院的电子病历文件、报告等非结构化的数据,系统需要进行持续的深度学习,逐步完善和提高医学用语的自然语言处理能力,提升数据质量。
(2)完善平台随访体系,后续针对平台开发通用型随访平台,完善科研随访流程,提升患者随访率和就诊黏性。