马龙鑫,汤 杰,林靖生,曹 青,陈 影,陈尔真,何 萍
(1.上海交通大学医学院附属瑞金医院a.信息中心;b.学科规划与大设施管理处;c.急诊科;d.医务一处;e.院长办公室,上海 200025;2.上海申康医院发展中心医联工程与信息化部,上海 200041)
新型冠状病毒病(以下简称新冠),是2019 年末开始出现,并迅速在世界范围内传播,其可引起急性呼吸道传染病。早期新冠肺炎重症病例比例较高,随着新型冠状病毒不断进化并产生新的变异株,新毒株的传播性及重症致死率都与之前的毒株不同,引起了人们对当前疫苗、治疗性单克隆抗体和新冠抗病毒药物对这些变异株有效性的担忧。BA.2 亚型已经在至少68 个国家占主导地位[1],其演变、传播和影响的不确定性困扰各国及其政府。目前流行的奥密克戎(Omicron)变异株,虽然其导致的新冠肺炎症状较前轻微,但该变异株具有极强的传染性和免疫逃逸能力,导致该病毒在人群中的迅速传播,给公共卫生和社会生活、经济等带来了前所未有的挑战。
截至2022 年4 月30 日,上海新增确诊病例及无症状感染者人数已超50 万。本市自3 月中旬开始进行方舱医院建设,目前已建成市区两级方舱医院119 家,总开放床位数达到27 万张。本团队牵头参与了多个市级方舱医院信息化建设[2],如上海世博展览馆方舱医院、上海新国际博览中心方舱医院和国家会展中心(上海)方舱医院等。方舱医院要求在极短时间内,为患者进行即时、高效、有序的医疗服务。借助信息化、智慧化解决方案,可对紧缺医疗资源进行高效优化配置,使不同院区及医疗团队实时精确掌握诊疗信息,优化患者管理控制及诊疗流程,可对患者临床数据进行汇总统计、决策支持及医疗质量监测,并可进一步分析疾病的流行病学特点、探讨诊疗策略等,为优化新冠肺炎的防治与疫情防控提供新的思路与依据[3]。
网络通讯是实现业务和数据流匹配的前提条件,软件定义广域网 (software defined wide area network,SD-WAN) 作为近年来逐渐受到重视的快速组网方式,具有无需专网专线等优势。大型方舱医院严格设置三区两通道和较为广阔的隔离带,不依赖公网IP 并能够实现远距离组网的优选解决方案就是SD-WAN。本单位负责建造的大型方舱医院IT 基础设施建设方案,选择以SD-WAN+无线AP实现快速开局,减少了组网人员部署时间,确保自动登录直连,保障数据业务安全稳定,避免舱内工作人员的手动联网操作[4]。
大型方舱医院每天的收治人数在七千到一万人次左右,收治高峰可能集中在2~3 h 之内(见图1)。为适应高频数据采集的需求,大型方舱应通过增加手持终端数量来提高采集信息的效率。手持终端系统涵盖了患者查询、身份确认、医嘱查询、执行医嘱、体征数据确认、护理文书确认、工作量统计等各工作环节。如果按照同传统门急诊收治流程,采用一对一的问诊,在方舱医院门口将出现拥堵情况,大大降低运行效率。而通过小程序扫码提交个人基本信息和症状描述等信息,自动生成住院基本信息页和一段症状描述的语句。通过舱内PDA、手机和扫码枪等进行核酸采样信息的录入,这些移动端还可完成每日方舱运行中的入院信息采集、舱内诊疗信息和出院信息的确认。
图1 患者出入院分时数量
大型方舱医院数据存在以下特点。①数据量大,大型方舱医院床位数过万,每日产生了大量诊疗数据;②数据覆盖面广,涉及各个业务系统的诊疗数据,患者的基础信息和各种临床信息资源分散、重复、孤立,同时还会产生大量流行病学调查、舆情数据、社会及环境数据;③数据类型多,新冠肺炎患者收治过程中会产生大量不同类型的数据,如患者基本信息、体征数据(结构化数据),患者入院录、病程记录、出院小结(半结构化数据),肺部CT影像等影像数据(非结构化数据);④部分患者近亲或者同住人关系模糊(家庭内部传播病例),部分诊疗数据存在信息匹配不一致,上下无法关联。
大型方舱医院临床数据库建设需分两步走。第一步,进行数据治理,选定采集患者的范围,定时采集方舱医院各个临床业务系统的数据,对采集的数据做清洗、分析和挖掘,形成新冠肺炎专病库的元数据,完成运营数据上报的工作;第二步,在此基础上,建立新冠肺炎阳性感染群体的数据库,提供查询和导出功能,方便临床科研人员更好地使用数据,将数据转化为有价值、促学科发展、攻关疫情的诊疗路径和临床指南。
数据标准是指为保障数据的内外部使用和交换的一致性和准确性而制定的规范性约束。
首先,确定数据业务标准规范。主要有患者基本信息(性别、年龄、职业等)、入院记录(“一诉及五史”)、诊断记录(无症状/轻症/重症/危重症)、治疗记录(各类医嘱类)、护理记录(血压、体温、尿量、呼吸频率、血氧饱和度等)、生化指标、CT 诊断报告(肺部CT 影像)、药物治疗医嘱(药物治疗的品种、剂量、疗程等)、病程记录、出院记录(转出至社区/转出至定点医院治理)以及流行病学调查与舆情数据等社会生产及生活环境数据[5]。对因各种历史原因或不明原因导致的不规范、错误的字段信息进行清洗,避免因部分明显错误的信息导致上层应用服务的结论错误,保证数据准确性;对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
其次,确定患者隐私信息技术标准。在实现数据完整性、准确性、一致性的同时,需兼顾对患者个人数据的隐私保护,本数据库采用数据编码方式对敏感信息进行脱敏,例如患者的住院号、姓名、证件号码、联系方式等。匿名化处理后的信息不属于个人信息,去标识化保存的个人信息,可有效防止未经授权的访问以及个人信息泄露、篡改、丢失等。
最后,确定方舱运行数据标准,需根据大型方舱运行管理的要求,横向调研各个管理部门对于运行数据和存量数据的具体需求,建立每个标准数据的申请、审批、变更、共享的流程,建立数据管理组织体系,明确管理数据上报工作的目标和内容,并监督及考核数据标准的贯彻与执行。
技术平台运用前后端分离的方式,后端采用新型的互联网架构模式,基于Spring Cloud 微服务化开发平台,核心技术采用Eureka、Fegin、Ribbon、Zuul、Hystrix、JWT Token、Mybatis 等主要框架和中间件,后端以Java 为编程语言进行开发,数据库采用Mysql 主从模式,运行环境采用Linux Centos7 作为操作系统,前端开发语言采用Vue3.0,同步开发了移动端应用。
整个设计方案参照《DAMA 数据管理知识体系指南(原书第2 版)》[6],基于以数据仓库架构,分为三层源数据层(ODS),数据仓库层(DW),数据集市层(DM)。源数据层(ODS)将数据源中的数据,经过抽取、洗净、传输分别装入本层的当前数据表或历史数据表,以简化后续数据加工处理的工作。数据仓库层(DW)将从ODS 层中获得的数据,按照主题建立各种数据模型,每一个主题对应一个宏观的分析领域,数据仓库层排除对决策无用的数据,提供特定主题的简明视图。数据应用层(DM)存放的是轻度聚合的数据,基于DW 上的基础数据,整合汇总成分析某一个主题域的数据,提供给数据产品和数据分析使用的数据,用于提供后续的业务查询,如OLAP 分析、数据分发等。
数据库采用关系型数据库Mysql 主从架构,即一台主数据库对外提供读写操作,一台从数据库对外提供读的操作,数据从主库同步到从库。在这种数据库架构中,从库支持读,分担了主库的读压力,提升了并发度;当机器发生故障时,从库可以作为备份库,主从库自动切换,并由Mysql 主从复制功能实现了主服务器与从服务器之间数据的同步,增加了数据库系统的可用性。
本数据库以隔离人员转运数据和入院登记数据为底座,对接移动CT 车、核酸检测等地方检测信息平台,以小程序等多终端采集源头信息为输入源,开展高频次、标准化、滚动式的数据库全面比对。实现患者自助服务为方舱医疗管理系统提供基本信息,自动完成新冠病毒感染相关医疗处理,待医务人员集中确认后完成医疗服务。高度适配疫情期间大型方舱医院运营数据库的需求,为精准防疫构建坚强的数据资源支撑。
大型方舱医院数据库基本功能包含运行管理页面、科研首页、患者中心、随访管理、人群探索、数据洞察、科研项目管理和数据安全。
大型方舱医院一方面需要完成传染性疾病收治情况的管理,另一方面需要把不同维度的数据上报到直接管理部门,为传染病管理部门的管控决策提供数据支撑。通过多终端自动采集系统实时汇聚各业务系统数据形成一目了然的疫情数据大屏(见图2),实时显示方舱医院的运行数据。比如各病区患者数量、每天出入院数据、转出患者数量、核酸检测数据、患者各项体征数据等,能够实时反映方舱医院运行情况、并对可能出现的风险进行预警。
图2 大型方舱运行管理前端显示
数据大屏通过图表方式直观展示新冠肺炎相关的诊断分布、确诊渠道分布、年龄段分布、性别分布、基础疾病分布、疫苗接种情况、住院天数分布等和低龄/高龄数据分析,同时显示当前入组患者的数量以及对应的病例数和支持项目,临床科研人员可清晰地看到新冠肺炎相关指标的趋势以及数据分布情况[7]。
本数据库选定采集患者的范围,可每日多次定时采集方舱医院各个临床业务系统的数据,并对采集的数据做自动清洗、分析和挖掘,形成临床数据库的元数据,并进行标准化、结构化处理(见图3),快速创建CRF 表格、数据抽取、数据自动采集、患者数据全景展示,支持对大量医疗数据进行深度的分析和挖掘,为传染病专病研究提供全链路数据汇总,可实现流行病学调查记录和药物流行病学数据之间的时序性联动及病历数据的高效检索,此种多模态、多维度数据的挖掘,在最大程度上为临床科研人员提供数据分析依据,为攻关新冠肺炎疾病因果推断的准确性及研究结果的可重复性提供数据支撑。
本数据库提供了强大的多维筛选工具,如根据自定义纳入、排除标准和数据导入规则,可自动纳入患者,并针对新型冠状病毒的特点,定制疾病数据库内的科研指标与指标分组方式,在患者详情页中查看每个患者的全景科研数据,即患者重点数据的全周期时间轴,患者诊疗事件按照时间进行可视化展示,支持患者原始病历视图溯源。
参照新冠肺炎诊疗方案与随访要求,数据库支持自定义(包括文本、单选、多选、数值、日期、子表单、逻辑计算题、积分题、附件题等多题型表单)随访选项及内容。随访表单具有自由逻辑配置必填项、数字值域,字段设置及计算逻辑,也可按条件出现或隐藏。按自定义随访计划自动生成并提示每日随访任务,直接进入填写当次随访表单,移动端随访记录自动同步至患者随访记录,方便医生可查看历次随访记录,并随时调整随访计划和内容。通过随访任务时间的设置,过期自动失访。
数据库自动生成整体随访信息,概览并可视化展现,便于临床研究人员了解随访进度、访视情况、随访记录。可按入组时间、就诊时间、最近随访时间、随访状态、随访表单字段等进行综合查询,随访点、随访员、患者等多个维度统计,便于随访进度的总体把控[8]。
人群探索为临床科研人员提供针对病历描述的精确搜索(诊断信息、年龄范围、疫苗接种情况等)和模糊检索(包括入院记录、病程记录、出院小结、死亡记录等),并支持设置为定时任务,根据任务定时执行检索并自动分组纳入患者。
大型方舱医院运营的过程中,数据库可梳理出大量的指标,分散在各个业务流程中,若不对指标定义优先级,建立联系,则每次分析数据、定位问题时,都会如大海捞针,存在大量的重复且无效的工作。数据洞察可为数据分析人员提供自定义查看数据分布的途径,新建各种指标体系(见图4),如患者年龄分布、诊断分布、疫苗接种情况、药品使用情况、生化指标等信息。该功能设计多种数据统计分析功能,包括样本设置、变量有效填充率计算、描述性统计、单因素分析、相关性分析、多因素分析等,将各项信息的分布、使用等结果直观展示给临床科研人员。
图4 方舱医院数据库的结构及指标模块
数据库提供病历条件检索功能,通过多维度数据的综合查询,开展复杂条件、沙漏型的病历数据查询,实现病历信息的全方位、多维度、统一视图浏览。利用于大数据和人工智能技术,根据新型冠状病毒特点建立的专科专病库能够充分挖掘利用方舱医院积累的万份病历的全量数据,通过数据治理后的元数据均作为查询条件,进行精确和模糊匹配,开展回顾性和前瞻性的科研分析,同时记录每个研究者的查询记录。在安全权限或者数据权限管理下,提供导出功能,方便临床科研人员对数据进行再加工,全流程支持整体科研提高科研医生开展课题、采集科研数据及录入随访数据的效率。
数据安全主要体现在以下四个方面。①云安全管理,采用云主机安全、Web 应用防火墙、高防IP、态势感知管理平台和漏洞扫描服务,可实现快速精准识别入侵威胁,搭建多层级高效防护机制;②权限管理,对临床科研人员进行权限分级管理,赋予不同用户不同权限,如只有授予导出权限的用户才能进行数据导出;③数据脱敏,采用数据编码方式对敏感信息进行脱敏,例如患者的住院号、姓名、证件号码、联系方式等;④实名认证和数据溯源,所有用户实名以手机号作为登陆账号,患者相关数据界面显示登录者的水印及时间,用于后续新冠肺炎科研数据使用的记录和溯源。
基于数据库进一步研发了决策即时分析指挥舱,面向临床诊疗、运营管理,展示当前方舱、病区、患者等不同维度数据分析模型;提供确诊患者来源、病区患者分布、基础疾病分布、低龄或高龄患者数据分析和重危症患者数据分析等,为管理者提供可靠的决策依据,实时改进诊疗方案,提升运营管理水平。
根据各个主管机构的数据上报要求,将指标分为三类,包括基础指标、衍生指标和计算指标(见表1)。
表1 上报指标数据列表
1.基础指标:基于单一实体的属性或行为统计得出,没有更上游的指标,即该指标的父指标是其自身。例如今日入院数、今日出院数等都属于基础指标。
2.衍生指标:对单一父指标进行某些维度上的取值限定而定义出的新指标,整体上,其统计方式和基础指标一致。例如按诊断(无症状或者轻症)分别统计的入院患者的数量、间隔24 h 二次阴性患者的数量等。
3.计算指标:对描述型指标进行计算、排序、累计等操作后定义的指标,例如累计收治人数、平均住院天数等。
建立新冠病毒病专病库,提供查询和导出功能,方便临床科研人员更好地使用数据,转化为攻关疫情的诊疗路径和临床指南,可以开展多维度的数据分析和挖掘。例如,通过患者流性病学调查数据和社会生产/生活数据的自动解析,利用人工智能进行模型搭建,挖掘病例关系,总结感染背后的高危行为,包括与患者接触、人群聚集、出行等,形成可视化的时空轨迹碰撞和区域风险研判模型和高风险活动的归因分析,用于疫情趋势预测、政策模拟仿真等应用于疫情防控实战的功能,可进一步助力疫情防控的“早发现、早研判、早阻断”,为决策者提供大数据支持的疫情分析。
方舱医院临床数据库通过快速构建符合诊疗、科研维度的高质量新型冠状病毒专病库,实现新冠患者诊疗数据的采集、存储、质控和利用,为防控新冠疫情、开展医疗救治、攻关科研难点、长效联防等提供了有力的信息化保障。方舱医院新型冠状病毒数据库建设过程中利用自然语言处理技术,对病历文本中的医学知识进行挖掘,提高了临床科研的效率和质量。同时,在保证数据安全及患者隐私保护的前提下,实现数据的完整共享与应用机制,充分发挥科研数据价值。
未来可利用方舱医院临床数据库累积的大量高质量数据,实现可数字化、图形化地仿真传染病动力的展现,自动生成和推算确诊人数、治愈人数、死亡人数的仿真结果和未来长期走势图,也可为突发公共卫生事件防护工作中疫情分析、疫情研判、应急预案提供辅助决策支持,提升应对传染病疫情处理能力[9]。