马晓江 周 然 邹显东 张振喜 高贵军
(1河北省疾病预防控制中心公共卫生信息所 石家庄 050021 2 河北省卫生健康委员会项目管理中心 石家庄 050000)
当前,全球经济文化交融逐渐深入,人员流动增加,突发公共卫生事件的暴发和传染病的新发、再发,对人类生命健康安全构成严重威胁[1]。疾病预防控制人员面临如何控制传染病和突发公共卫生事件经济成本,提高工作效率,增强公众卫生保健意识,保障公众身体健康等问题。随着信息技术的发展进步,基于大数据、云计算、人工智能等技术的相关解决方案逐渐显现出独特优势,蕴藏巨大发展潜力。本文以河北省疾病预防控制中心公共卫生数据平台建设为例,对大数据技术在公共卫生应急管理工作中的应用问题进行初步探讨。
公共卫生信息化建设需要总体规划、统一标准和统一平台,以便有效采集和利用医疗信息,应对传染病流行和公共卫生事件突发等问题,推动河北省公共卫生信息化纵深发展。河北省公共卫生数据平台(以下简称平台)依托中国疾病预防控制中心信息管理系统(以下简称直报系统)原始数据,结合河北省公共卫生应急管理工作特点,研制开发符合实际工作需要的数据平台。
平台与直报系统对接,同步上传、接收传染病与突发公共卫生事件数据。根据实时、定制化统计分析资料,追溯传播源头、明确传播路径、发现突变规律及其潜在风险,以最快时间做出研判。针对即将可能发生的突发公共卫生事件,为切断传染源,阻止致病细菌、病毒大规模蔓延[2]以及制定科学、精准、适合的应对防控措施提供信息支撑。
2.1.1 平台总体架构 平台纵向包括基础环境层、数据资源中心服务层、支撑应用服务层、平台应用层和接入层5层;横向包括标准规范体系、业务应用体系和安全保障体系3部分,形成面向服务应用系统集成、信息共享和交换的整体架构,见图1。
图1 河北省公共卫生数据平台总体架构
2.1.2 数据同步架构 为保持数据一致性,需要自动同步国家直报系统属地化传染病和突发公共卫生事件数据,建立数据交换与共享平台,即数据同步系统。建立星型结构数据交换体系,数据交换管理平台处于中心位置,成为实现数据交换的核心,通过数据交换管理平台为每个数据交换节点提供服务,见图2。
图2 河北省公共卫生数据平台数据自动同步架构
2.2.1 统计分析查询模块 根据不同疾病分类制订统计指标,实现实时、定时、比较等统计分析功能。按照时间、地区、人群等分类定制统计分析内容。其中包含地区排序、发病趋势和高发地区分布等专题分析。完成查询和报表输出。输出统计图,生成分析结果,给予直观评价。并对数据存在的差异性给予定量、计数等统计学方法分析,进一步推断利用。
2.2.2 智能简报功能模块 疾病报告动态分析是报告管理工作的重要内容,包括每月进行常规动态分析,每年度进行深入、全面和前瞻性的例行分析;设置不同病种和事件实时专题报告。手工制作费时费力且无法满足各方面需求,应用数据平台的简报功能模块,可以根据不同业务需求定义多个简报模板,并对简报模板进行管理。针对不同简报模板,结合流行病学现场和实验室监测资料设置不同任务。参考现时和历史报告资料作出比对、推断分析,在简报中给予描述,解决人工制作耗时费力问题。同时特别设置传染病和突发公共卫生事件聚集性监测、重点关注监测、高发流行监测3个模块。可自定义聚集性监测时间,如监测7日内事件聚集情况、重点关注高发流行病种。
2.2.3 预警预测功能模块 根据传染病及突发公共卫生事件发生、发展规律,对可能发生的流行趋势作出预测。主要依靠初始基础数据和预警模型,根据任务需要配置后台不同预警模型、计划预警周期。同时考虑模型信息设定(常量)、阈值设定(设置方式及常用指标的灵活配置维护)和预警的频率及格式(周期和定性、定量),实现与国家直报系统中河北省相关数据同步,随后将产生的实时数据经过分析处理后传送到数据平台。达到触发条件时,实时预警并以短信方式通知工作人员。还可将传染病预警模型计算结果显示在地图上,实现预警信息的地域分布及其量化数据的可视化,见图3。
图3 河北省公共卫生数据平台预警预测功能模块架构
2.2.4 地图展示功能模块 省、市、县不同级别用户可以从时间、疾病等维度定制地理信息系统(geographic information system,GIS)统计分析图形,并通过电子屏幕展示。对满足预警条件的传染病和突发公共卫生事件,通过不同等级的图例进行预警展示。展示内容还包括医疗救治、疾病防控、人口、经济等方面,可通过短信、视频会议方式进行决策分析、指挥调度,及时有效处置突发公共卫生事件。
应用大数据融合等技术手段,将医院、公安、通信、交通、物流系统等相关部门采集的“面上数据”与疾控部门信息平台上报的“线上数据”有机结合。预留与公安、通信、交通、物流等其他行业机构的接口,保证业务系统数据库结构和编码规范化。
首先是物理安全。指服务器的安全保障,电源和设备容错等。其次是网络安全态势觉察。监测漏洞和病毒,实时跟踪并给予预警,全面掌握河北省数据平台安全态势。最后是发现网络安全威胁、风险隐患和网络攻击情况。了解网络最新告警情况、攻击类型分布、攻击地址排行、病毒分布类型、漏洞排行以及整体安全态势。对已经发现的威胁治理情况给予展示,完成分析总结。
传染病及突发公共卫生事件的发生与地理环境、气象因素、社会因素、人类行为等多种要素高度相关,目前系统仅能实现对数据的宏观展示。下一步应依托大数据技术与流行病学、统计学等多学科交叉融合技术,对地理、气候因素与其发生传染病流行的内在关系进行深度挖掘,为传染病早期发现、风险研判、因地制宜制定传染病预防措施等方面提供支撑和科学依据。
预警模型主要采用机器学习技术,数据采集、病原体变异等原因可能导致预测偏差,中远期预测能力不足,不能实现定期和定义性的预测功能,同时主观因素也会影响预警预测准确性。
平台建设过程中发现,由于跨部门间缺乏常态化的数据共享和开放机制、数据交换和共享较为困难。各行业自行建立数据平台格式、预留接口不统一,不易对接,冗余程度较高。因此需要依据交换流程预留接口,并制定接口标准规范。
通过大数据技术迅速下沉,推动实现全链条传染病防控,促进防、控、治环节之间快速、有序衔接[3]。借助人工智能(artificial intelligence,AI)和大数据技术对疾控数据进行深度学习,结合地域特征、区域密度和人口流动率等数据,采集疾控内部纵向“县(区)-市-省-国家”自下而上的垂直领域数据、跨行业部门横向(如地理、气候、公安、交通等)相关数据,实现数据衔接贯通,消除“信息孤岛”。
在制定接口规范时,不仅要考虑可扩展性,同时还要考虑执行效率[4]。制定出台基础数据的管理和使用规范,保障至少全省范围内数据的一致性[5]。即建立唯一的标识和索引,对疫苗接种、就医就诊等信息一键查询。实现疾控机构与医院诊疗的接口统一,使接收者和发送者能够准确解读所需信息,保证数据兼容顺畅。
“平台”建设的核心是预警预测,即利用数据仓库统计、关联、挖掘等分析手段,结合数学模型和人工智能技术对传染病进行定性和定量分析[6]。在使用此功能时发现,由于人为主观因素、环境变化、病原体变异和数据采集偏差等原因,预警预测的精准度受到影响,中远期预测能力不足。因此提高数据采集的质量,优化机器学习方法,处理好残差异构数据序列等问题,提高精准度是未来的主要工作目标。
网络信息安全是平台数据畅通运转的前提和基础,要从整体上认识平台信息安全的重要作用,建立新型无中心化证书授权(certification authority,CA)认证体系,有效提高加密安全性和破解难度[7]。加强日志系统建设,做好日志综合分析利用,及时发现安全隐患[8]。应用个人信息保护与信息共享安全管理模式[9],保证系统数据内所涉个人信息安全。全方位采集网络设备、安全设备、安全管理系统的数据,进行深度挖掘与分析,对网络的攻击和威胁做好实时监测与预测。
由于原有公共卫生数据平台已经不能完成当前最新工作任务,升级建设全覆盖的区域化多触点信息化数据平台,利用新一代信息技术,打通多部门多渠道业务系统数据通道,实现多源数据的汇聚与融合,促进多部门业务协同联动。推进对传染病、突发公共卫生事件及其危险因素的监测精细化、管理智慧化[10]。保证能够快速开展应对策略研究,组建传染病流行病学、临床医学、实验室检测和应急管理等领域的专家团队,基于系统初步风险评估结果对当前传染病风险进行深入研判,进而高效快速响应和处置,在降低感染率的同时节约医疗支出[11]。提高应急处置能力、疾控工作能力和整体水平。