赵 坚 徐小卫 杨亚洲 虞 莹 赵 玉
(南通市疾病预防控制中心 南通 226007) (南通市第一人民医院 南通 226001)
传染病一般指由各种病原体引起的疾病,此类疾病通常在人之间、动物之间或人与动物之间进行传播[1],具有危害大、传播迅速、早期隐蔽性强等特点[2]。近年来传染病防控工作不断推进,但仍然存在一些问题,如信息系统敏感度有待提高、各传染病监测主体之间存在信息壁垒、业务协同度低、现场调查处置手段效率不高等。因此通过大数据、5G、人工智能等新兴信息技术实现传染病实时监测、早期预警、精准处置在区域化传染病防控中具有重要意义[3-4]。
近年来信息技术高速发展,相关学者利用大数据、人工智能等技术进行了多种传染病监测预警方法实践[5-6]。目前,国家疾病预防控制中心在全国范围使用传染病疫情和突发公共卫生事件网络直报系统进行监测数据的采集、自动分析、时空聚集性实时识别、预警信号发送,实现对法定传染病的早期自动预警,以及对全国各地传染病监测报告数据的分析与利用。该系统在法定传染病监测预警方面取得一定效果,数据仅来自全国各级医疗卫生机构直报,且在病例已确诊属于39种法定传染病之后才会上报,针对新发传染病监测预警的敏感性和时效性有待提高[7]。因此建设一套标准化全闭环的区域化传染病智能预警处置系统作为补充显得尤为重要[8]。
经过对系统的功能、性能、安全性等进行全方位评估,南通市传染病智能预警处置系统最终以公卫数据中心为基础,采用浏览器/服务器方式搭建,通过政务外网互联,既满足系统建设需求,又在保证数据安全的同时具备一定可扩展性。
系统整体架构包括安全基础层、设备层、数据层、应用支撑层和应用系统层5层,见图1。其中安全基础层通过通信加密、身份认证、安全审计等底层安全策略确保系统数据环境可信安全。设备层从底层硬件出发为系统搭建可靠的运行环境。数据层为系统提供数据基础并对采集数据进行治理及质控。应用支撑层主要为应用系统提供决策支持,其中预警模型主要为传染病监测预警应用提供支持;身份识别信息、5G通信模组、视频监控数据等主要为突发公共卫生事件的研判和处置提供支持。应用系统层为该系统提供监测预警、应急响应、智慧流调等主要功能。
图1 传染病智能预警处置系统架构
基于上述架构,系统可以采用热力图、动态指标、预警消息等可视化展示形式,结合地理信息系统 (geographic information system,GIS)[9-10]监控公共卫生事件风险因素发展情况。同时,通过构建风险预测预警模型进行区域化传染病监测预警,在接收到预警信号后根据不同内容和风险指标详细研判分析,实现风险精准定位和全流程闭环处置。南通市公卫数据中心内还配备高速服务器集群等高性能计算资源,在移动端设备中采用5G通信技术,进一步提升系统的可靠性和安全性。
本系统主要采集电子病历、传染病直报系统、公共卫生、交通出行、学校缺课、重点场所和重点货物及食品和药品监测、环境监测等多渠道数据资源。采集数据主要来自南通市全民健康平台、国家疾病预防控制信息系统、南通市食品药品监督管理系统、南通市出入境人员管理系统等。系统自2021年试运行以来,已采集各类数据3.12亿条,重点监测全市47类重点人群,共计180余万人,以及学校、医院等400余个重点场所。
针对不同数据来源,执行国卫办医函〔2018〕1079号《关于印发电子病历系统应用水平分级评价管理办法(试行)及评价标准(试行)的通知》、苏卫办医〔2011〕92号《江苏省医院电子病历系统评价标准与细则(试行)》等卫生健康数据标准规范,确保系统兼容性[11]。建立规范统一的主数据索引,运用Hash函数对原始数据进行脱敏,从数据的完整性、一致性、规范性、逻辑性等方面分析质量评估需求并制定评估规则,对采集数据进行质量分析与控制。基于Hadoop技术架构对系统采集到的数据进行分布式处理,为半结构化及非结构化临床数据提供分布式数据存储资源,并为自然语言处理模型算法提供分布式计算资源。对多源异构数据进行汇聚,利用大数据、自然语言处理技术对数据进行结构化、标准化治理,形成高可用的传染病监测预警数据库[12],见图2。
图2 多元异构数据采集治理流程
首先综合多种算法,解析传染病时空聚集特征;其次通过回顾性研究,分析传染病传播的风险因子;再次构建一个模型超市,采用仲裁组合策略加权整合候选模型;最后通过测试和自适应学习,进一步提升模型性能[13]。目前该模型已经实现对肺结核、流行性感冒、手足口病、流行性腮腺炎等法定传染病的监测预警,并在试运行中取得预期效果。
采用时间聚集模式挖掘方法如聚类分析、集中度和圆分布法等[14],分析突发传染病的时间聚集性分布特征,包括年际发病特征和季节性发病特征,以实现预警前移;采用空间聚集模式挖掘方法如核密度估计和最近邻指数法等[15],分析突发传染病的空间聚集性分布特征;采用时空聚集模式挖掘方法如层级聚类法、时空扫描等[16],分析突发传染病的时空聚集性分布特征。
采用贝叶斯时空模型从时间和时空层面探讨传染病发病影响因素:假设区域i在时间t的某疾病发病或死亡人数为yit,当发病或死亡率较低时,通常认为yit服从泊松分布;当发病或死亡率较高时,则认为yit服从二项分布,那么:
E(yit)=eitθit
(1)
其中E代表期望值,eit是i区域在t时间的疾病期望发病或死亡人数;θit是i区域在t时间疾病实际发病或死亡人数与期望发病或死亡人数的比值,也就是疾病发病或死亡的相对危险程度。连接函数采用θit的log函数,则贝叶斯时空模型公式如下:
log(θit)=α0+βXit+C
(2)
其中α0为截距,β为相关因素的回归系数,Xit为i区域在t时间的相关因素。C为拟合的时空效应,可为互相独立效应或交互效应。贝叶斯时空模型的计算可以基于马尔科夫链蒙特卡罗算法,模型拟合优度可采用离差信息准则,该值越小表示模型拟合效果越好。
基于模型超市思想,针对不同传染病在不同应用场景下构建多组模型,采用组合策略根据误差大小进行加权组合,对不同阶段个体环境暴露水平进行估计,基于仲裁组合策略的加权思想进行模型整合,见图3。
图3 基于仲裁组合策略的加权整合设计
其中,Mi表示各候选模型;Yi为各候选模型的预测值,i∈{1,...m};m为候选模型个数,在不同环境暴露因素中可进行删减;εi为各候选模型预测误差;Wi为经激活函数softmax计算输出的权重,取值为0~1。首先,对各类基础模型Mi进行离线训练,即针对不同传染病在不同场景下训练多种不同模型,作为最终预测结果Yi的一组基础学习器。训练后,返回训练好的所有模型集合M,在训练过程中,各模型不只输出其预测值Yi,也持续输出各候选模型预测误差εi。误差度量针对不同场景的选择将有所不同,常用的选择是平均绝对百分比误差,因为此度量是相对度量,并且将误差归一化为百分比值。具体表达形式为:
(3)
当数据量较少时,常用均方根误差作为损失函数,即绝对误差,并且保留实际值的大小。具体计算方法为:
(4)
加权策略:加入softmax以获得各模型权重。softmax将这些误差估计值的负数(对应的权重将更小)作为输入并返回概率分布。softmax生成的各模型权重之和为1,其具体形式如下:
(5)
通过softmax函数可以将多分类的输出值转换为范围在[0,1]和为1的概率分布,即各模型i的权重Wi。最终,在仲裁组合策略生成各模型权重后,对各模型Mi输出结果进行加权,获得整合后的模型输出Y:
(6)
时空预警是以南通市各区县为时空对象,针对特定传染病,取该病种在南通市各区县过去5年同一时期的计数值组成集合St,用当前模型预测的病例数Yt对比St的均值K及标准差σ,判定当前区域内发生传染病风险:当Yt>K+2σ时判定为高风险,产生红色预警信号;当K+2σ≥Yt≥K+σ时判定为中风险,产生橙色预警信号;当K+σ>Yt≥K时判定为低风险,产生黄色预警信号。
固定阈值预警是指系统通过实时采集数据,当达到一定阈值时发出警报,再通过模型自适应功能对阈值进行动态优化调整,从而提高预警的准确性和及时性。
以南通市2017—2022年间传染病数据为测试集对模型进行测试评估,模型预测准确率超过70%,生成预警信号的有效时间窗口覆盖率超过80%,灵敏度超过98%,特异度超过70%。以2021年某小学一起手足口病事件为例,模型预测自7月22日起发展趋势,预计8月23日前后日新增确诊数小于1,病例预测准确率为79.5%。
为了进一步提升模型性能,通过对模型日常预测、预警工作的反馈(如漏报、误报等),采用自适应梯度算法、最陡下降算法等更新模型参数。定期对传染病进行时空聚集模型挖掘分析,利用最新数据定量更新传染病影响因素,优化、改良模型结构和参数,不断提高预测、预警的敏感性、准确性和及时性。
南通市卫生应急指挥中心通过大屏对南通市传染病情况进行实时监测,在收到系统发出的预警信号后,南通市卫生应急指挥中心值守工作人员立即核实,并通过区域化传染病联防联控机制上报,依据预警事件风险等级启动应急处置流程,由卫生防疫部门立即派出流调小组进行流行病学现场调查和溯源工作。系统通过连接现场的移动5G视频终端将高清视频信号实时传输至南通市卫生应急指挥中心大屏,领导和专家可通过观看大屏对现场情况进行实时掌控和指挥调度。
系统基于5G网络高速率、低时延的特性,将流调现场数据和南通市卫生应急指挥中心无缝对接,利用5G单兵设备内置音频软件,将现场录音识别为文字,经过简单人工确认和格式调整后可以即时传输至南通市卫生应急控制中心供指挥者参考,也可以纳入现场调查和处置报告中,有效减少手工记录工作量。5G单兵设备还具备卫星定位功能,可以通过GIS直观显示该起突发公共卫生事件所处的位置环境、应急处置队伍分布等情况,并通过5G单兵设备将现场情况实时传输至南通市卫生应急指挥中心,便于领导和专家掌握事态发展和制定方案。
系统通过命名实体识别,结合基于规则的正则表达式技术和基于大规模语料深度学习的模型,采用结构化规则和深度学习两种技术路线,通过对特征的提取和识别智能生成流调报告,解决传统流调报告效率低,需要多人、多次进行信息补充及完善的问题[17-19]。
系统自2021年6月起试运行,预计于2023年6月正式上线。截至2023年2月底,系统已采集有效数据3.12亿条,处置各类预警信号52 000多个,根据南通市委市政府相关文件精神,目前模型已将出入境人员、发热门诊患者等47类传染病重点监测人群共约180万人及医院、学校、机场、车站等400余处重点监测场所纳入重点监测范围。以重点场所监测预警为例,系统通过多算法解析传染病时空聚集特征分析风险时段和风险区域,使用贝叶斯时空模型分析风险传播因子,采用加权整合生成的预警模型进行实时监测预警。在2021年6月1日—9月30日期间南通市共产生学校热点预警信号221次,涉及病例698例,已核实流感病例512例、手足口病例118例、肺结核病例2例,其中4起预警较国家传染病自动预警提前4~7天,实际发生3起,基本达到预期目标。
截至2023年2月底已处置各类突发公共卫生事件30余起,智能生成流调报告2 700余条,确保各环节时间节点有据可查,不但有利于事后复盘,还能够进一步优化工作流程,极大地提升疫情应急处置效率。
本系统采用安全基础层、设备层、数据层、应用支撑层和应用系统层5层架构,通过整合医疗、疾病预防控制等多元异构数据资源,结合多算法和贝叶斯时空模型建立智能监测预警模型,实现风险预警关口前移,提升传染病早期监测预警能力,实现监测预警事件的全流程跟踪及处置。针对疫情处置方面存在的问题,建设数字化智能流调系统,提升疫情应急处置效率,达到早研判、早处置、早阻断目标。该研究方法也可供其他同类地区、单位参考,作为进一步优化区域传染病防控的管理方法和手段。
在系统建设过程中遇到部分机构提供的数据质量不高、数据接口对接难度大等问题,通过加大政府行政推动力度、优化数据采集技术、增加数据采集频率、调整数据采集流程等方法加以解决。在系统正式上线后将从实际需求出发,继续拓展传染病监测种类和监测数据来源,结合新技术对系统进行定期升级维护,进一步提升系统使用效能和实用性。