基于移动平均预测限预判新型冠状病毒肺炎疫情趋势与适时风险分级

2020-05-28 05:47何韵婷王筱金王炳顺
关键词:预判传染病分级

何 豪 ,何韵婷 ,翟 晶 ,王筱金,王炳顺

1.上海交通大学公共卫生学院,上海 200025;2.上海交通大学医学院临床研究中心生物统计教研室,上海 200025

2019年12月下旬,我国湖北省武汉市暴发不明原因肺炎,后经世界卫生组织命名为COVID-19(coronavirus disease 2019)。经病毒基因谱分析,确定为一种新型冠状病毒感染所致[1]。该病毒在人群中传播方式多样,包括呼吸道传播和密切接触传播的主要传播方式以及气溶胶传播的可能传播方式[2],因此,很快造成全球大流行。截至2020年3月29日,已造成全球近63万人患病。由于我国在COVID-19疫情早期采取诸多果断措施,进行抗疫阻击战[3],使得目前疫情在国内进入消退阶段。为了早日筹划疫情蔓延过后逐步恢复社会生产活动并且及时预测再发风险,对于疫情发展态势进行科学预判就显得格外重要。

目前,对于传染病的预测模型众多[4-6],但既往各类模型对于关键参数的初始选取较敏感、构建过程较复杂以及需要对模型本身不断进行修正等因素导致了各种模型应用的及时性往往受限,更难支持回答疫情防控期间各地如何适时调整与疫情风险程度相适应的防控举措以逐步恢复经济社会运行秩序。本文旨在通过对曾用于已知传染病疫情预警的移动平均法进行改进[7],针对全新病原所致暴发疫情,探讨一种相对简便的非条件依赖实效预测方法。本研究以COVID-19新增确诊患者数作为评价指标,及时跟踪每日公布的疫情数据,建立相应移动平均(moving average,MA)及其预测限(moving average prediction limit,MAPL),以此预判COVID-19疫情的发展态势,实时预判疫情风险分级,为分区分级防控策略提供适时量化依据,从而支持决策层统筹协调疫情防控和经济社会发展工作。

1 资料与方法

1.1 数据来源

1.1.1 既往SARS疫情数据 收集2003年3月18日至2003年6月12日香港每日严重急性呼吸综合征(severe acute respiratory syndrome,SARS)新增确诊人数数据,确定MAPL对于疾病发展趋势的评估准确性。数据来源于世界卫生组织(World Health Organization,WHO)官方网站(https://www.who.int/csr/sars/country/en/),根据相关报道[8]中附录部分的数据对于WHO官网中缺失部分数据进行补充。

1.1.2 当前COVID-19疫情数据 跟踪收集2020年1月16日至2020年3月28日国家卫生健康委员会(National Health Commission of the People′s Republic of China,NHC)官方网站(http://www.nhc.gov.cn)发布的中国每日新增COVID-19病例数据,选用每日新增确诊病例数以及3月份以来境外输入性病例数作为分析指标,进行疫情分析以及预判。

1.2 MAPL的建立过程

MA因其能够消除偶然波动的影响,较为清晰地显现某一事件随时间变动趋势而最早被应用于经济学研究中[9],也有学者[10]将MA用于传染病的预警。但该方法只能应用于已有传染病的疫情预警,需要基于既往较长时间的发病数据,对于本次COVID-19疫情这类缺乏历史发病资料的新发传染病则不适用。因此,本研究在传统移动平均法的基础上予以改进,根据已有新发传染病的特点,结合每日公布的疫情数据,计算出实时MA;以MA为中心,利用1倍标准差与2倍标准差同时建立相应的预测上限与预测下限,通过连续观察研究指标所处区间,据此进行风险评分和分级,以达到疫情趋势跟踪和疫情风险预判的目的。为避免数据差异过大而导致计算所得预测限过宽、下限值小于0等现象产生而使预测限的建立失去实际预测作用,故将实际新增确诊病例数据Nj加1后经对数转换,以对数移动平均(logarithmic moving average,LMA)的形式进行预测限的建立。以新增确诊病例数为例介绍如下。

1.2.1 LMA及标准差的计算

其中,Nj为第j日的新增确诊病例数。为解决对数取值适用性,在原始观察值基础上加1,取对数后获得新增确诊病例数对数转换值LNj。

本文第1日至第j日(即计算LMA的时距为j)的LMA则为:

相应的标准差LSTD为:

1.2.2 LMA的预测限

1.3 基于MAPL的疫情风险预判及风险分级

1.3.1 疫情风险预判 按上述计算所得预测限,根据表1设置风险分级分区。将疫区当日即第j+1日的实际新增病例数对数值LNj+1与前1日即第j日所建立的MAPL相比较,预判新增确诊病例数的变化趋势,并对于每个风险分区设置风险评分,以便后续进行风险量化分级。

表1 基于MAPL的风险分区及评分Tab 1 Risk division and scoring based on MAPL

1.3.2 疫情风险量化分级 以上MAPL建立过程及表1显示的是针对疫情发展中当日风险分区与评分。由于疫情波动性可能会导致相邻几日风险级别所处分区不同,因而基于单日风险级别难以成为何时复工复产这类重大决策的稳定可靠依据。因此,本研究拟根据既往j天内(j指计算MA的时距)的风险分区总体情况构建一个风险总评分,即以此前j日的单日评分之和作为当日风险总评分,总评分越大,表明风险级别越高。在评分前,根据具体疫情特点以及严重程度,将疫区划分为重点疫区(湖北)及非重点疫区(湖北以外地区),根据不同总风险评分,给出不同防控措施建议,从而指导新发传染病疫情暴发时实施差异化精准防控(表2)。

表2 风险分级及应对措施建议Tab 2 Risk classification and recommendations for countermeasures

1.4 MA及风险评分时距的选择

在MA的时距选择方面,传统的移动平均法基于既往传染病周期性规律进行选择,选择的时间一般较长[11]。而对于新发传染病,缺少既往资料,故综合考虑疾病潜伏期以及从发病到确诊这2个时间因素,将疾病潜伏期与发病到确诊时间之和作为MA时距的参考依据。根据Donnelly等[12]的研究,香港SARS平均潜伏期为6.4 d,从发病到入院时间平均为3~5 d。所以在对香港SARS疫情进行方法学验证时,选择10 d作为时距计算MA(MA10)及风险评分,并进行预测限建立和结果展示。

根据目前对于COVID-19的报道[13],新型冠状病毒的中位潜伏期为3 d,从出现症状到确诊的时间往往随着认识的深入和防疫措施的改进而不断缩短。根据2020年2月7日NHC数据显示,该时间为4.95 d。考虑到COVID-19这一特性,本文选择7 d作为时距计算MA(MA7)以及风险评分,相应进行预测限的建立和结果展示。因而,后文将前述公式(1)LMAj根据所选时距的不同表示为“LMA7”或“LMA10”,而图表中新增确诊病例数实际值以“Actual observation”表示。

1.5 数据范围的选择

因MAPL基于LMA建立,虽已将原始新增确诊病例数Nj+1后再进行对数转换,并以此为基础构建MAPL,但疫情后期,尤其新发病例数开始为0时,数据在低数量级上的波动,对于MAPL影响较大。因此,本文对于香港SARS疫情以及本次COVID-19疫情的分析数据,仅截取疫情后期新增确诊病例数第1次归零前数据予以分析。对于新增确诊病例数归零后的疫情预测应结合其他指标如新增疑似病例数或现有病例数等予以分析。

2 结果

2.1 既往香港SARS疫情的方法学验证

选取香港2003年3月18日至6月12日SARS疫情期间新发病例数据(其中2003年5月24日出现新发病例数为0),建立MAPL。基于MAPL的分析结果以及风险评分及分级如图1所示。

图1 基于2003年香港SARS疫情新增确诊病例数建立的MAPL(A)以及风险评分曲线(B)Fig 1 MAPL (A) and risk scoring curve (B) based on the number of newly confirmed cases in the SARS epidemic in Hong Kong in 2003

从LMA10看,2003年香港SARS每日新增确诊人数在4月16日前增长相对比较平稳,在4月16日至5月24日平稳下降。比较实际新增确诊病例数与LMA10,可以发现,两者随着时间变化趋势基本一致,只是LMA10的变动相较于实际值的变化有所滞后。在数据波动方面,相较于实际数据的强波动性,LMA10更加稳定,更能清晰地表现出新增患病人数的变动趋势。从新增确诊病例数与10-d MAPL看,3月28日至4月1日,新增确诊病例数多处于较快增长区,表明此时疾病处于快速蔓延状态,处于暴发期;而4月1日至4月16日,新增确诊病例数在以LMA10为中心的预测限下降区与上升区内波动,说明此时期内增长较为平稳;在4月16日至5月24日期间,新增确诊病例数大多处于较快下降区,说明此期间内新发病例数正处于不断消减状态,预示疫情即将结束。而4月16日后疫情趋势的下降可能是由于此前香港采取的一系列预防措施(3月26日要求密切接触者前往指定医院进行检查,3月29日要求所有学校停课2周以及4月10日对于密切接触者强制居家隔离等)的效果从4月11日开始显现所致[12]。这些措施的实行时间和此后报道的新增确诊病例数以及预测限提示的结果相符。而风险评分曲线则将4月20日前划分为中等风险级,4月20日至5月23日为中低风险级,5月23日后进入低风险级。整体划分较实际新增确诊病例数有所滞后,在指导防疫措施实施方面,该滞后也更显稳健。与既往的研究结果相比,基于MAPL的拟合结果与徐宝春等[8]基于SIR(susceptible-infectedrecovered)模型所得结论相似,而相较于夏结来等[14]基于室模型得出的结论,本研究预测达峰时间较早,但预计暴发期时间较为一致。

从以上既往香港SARS疫情数据的验证结果以及与其他模型对比结果来看,MA结合预测限的MAPL法来预测疫情发展的稳定性较好,可以用于突发传染病疫情趋势的预测及适时评价。

2.2 当前COVID-19疫情的趋势分析与风险预判

跟踪收集全国范围内2020年1月16日至3月28日确诊病例的每日新增数据,建立每日新增确诊病例的7-d MAPL并进行风险评分和分级,分为全国、湖北省、湖北以外地区三部分分析新增确诊病例数归零前的疫情走向(图2A~F),并将MAPL实际应用于2020年3月4日至3月28日的境外输入病例的趋势预测及量化风险分级(图2G、H)。

2.2.1 全国疫情分析 图2A中,在1月23日至2月4日时间段内,每日新增确诊病例数均处于较快增长区及以上,表明此时疫情处于快速蔓延状态。2月4日至2月11日时间段内,开始向下降区移动,更在2月11日跌落到快速下降区,说明以1月23日武汉市全面封锁为代表的一系列防疫措施开始显效,疫情逐渐得到控制。但在2月12日当日确诊人数猛增,是由于湖北地区将临床诊断病例也纳入确诊病例之中。当时全国通力协作提高收治能力,落实“应收尽收”的防疫新举措,导致确诊病例数短暂时间内激增。这种增长与当时感染疫情本身的加速蔓延无关,新发病例数呈减少的趋势应当不会改变。随后可见,从2月12日之后,新增确诊病例数一直向较快下降区移动,并在3月18日前多日稳定在较快下降区。说明经过全国人民众志成城抗击疫情,到3月18日全国疫情已呈消减状态。在全国风险评分(图2B)中,将2月7日前划分为高风险级,2月7日至9日为中高风险级,2月9日至2月19日划分为中风险级,2月19日至3月7日划分为中低风险级,而3月7日至18日为低风险级。总体而言,风险级的改变相较于新增确诊病例数变动有所滞后,分级结果也更显稳健。在此次疫情中,湖北作为国内的首发地与重灾区,在全国病例中占比达到74.7%[15],而非湖北地区仅占25.3%左右。因此,后续分析将湖北省作为重点疫区,而湖北以外地区作为非重点疫区予以分析。

2.2.2 湖北疫情分析 图2C和D中,湖北省新增确诊病例数在MAPL中所处位置以及风险评分曲线与全国趋势基本一致,这说明湖北疫情在全国总体疫情中影响较大。因此,需按重点疫区分级及建议措施对于湖北省进行管控。图2D显示,湖北于3月7日进入低风险级,并在此后直至3月18日始终处于低风险级。因此可以建议,如新发病例数此后无增长,则湖北省可于最长潜伏期14日后即3月21日左右逐步解除城市封锁,恢复正常社会生产生活,这与目前实际城市解除封锁时间较为相近。

2.2.3 湖北以外地区的疫情分析 图2E中,在1月26日至2月3日,全国除湖北以外地区的新增确诊病例数均位于较快增长区或增长区,表明该时间段内COVID-19疫情正处于暴发期,疫情蔓延迅速。而在2月3日至2月25日,新增病例数迅速回落,连续13 d达到较快下降区。虽然在此期间,由于2月20日山东与浙江两地监狱发生聚集性疫情,出现一过性升高,但之后又延续之前趋势迅速回落。此后,除在2月26日与3月2日有小幅增长外,一直呈下降趋势,而这种升高可能是由于此前2月10日部分单位开始复工复产所致。结合风险评分曲线(图2F)也可以发现,非湖北地区的疫情趋势与湖北地区有所差异。相较于湖北,非湖北地区疫情下降至低风险级速度更快,但是之后由于部分企业复工,使得风险评分小幅升高,此后又迅速回落至低风险级趋势。这也说明我国对于此次复工后的管控措施是有效的,风险级仅升至中低风险后,便快速被控制,疫情没有进一步蔓延。同时这也说明风险评分曲线对于真正的疫情增长趋势反应较为灵敏,在确诊病例数绝对值增长不高的情况下,风险评分曲线能以风险级升高的形式予以警示。

图2 基于2020年COVID-19疫情新增确诊病例数建立的MAPL以及风险评分Fig 2 MAPL and risk score based on the number of newly confirmed cases in the COVID-19 epidemic in 2020

2.2.4 境外输入性疫情分析 收集全国范围3月4日至3月28日的境外输入病例数据,据此建立MAPL及进行风险评分和分级。在图2G中,可以发现,在3月11日至3月25日期间,每日境外输入病例数多日处于增长区以及较快增长区,说明境外输入病例在此期间处于持续增长状态,但在截至3月28日的最近3日逐渐回落,并在3月28日处于下降区,这可能是由于我国近期加大出入境管控及排查力度所致。而风险评分曲线(图2H)则显示每日境外输入病例数在此期间始终处于中高风险级,虽然有回落到中等风险级的趋势,但速度较为缓慢。据此建议出入境管理部门继续加强对于我国出入境口岸如机场、港口等地的限制,定时定点进行消毒防疫,必要时对于这些出入境通道进行封锁,以避免境外输入病例引起疫情在我国的再次蔓延。

3 讨论

本研究使用的MAPL方法以新增确诊病例数为基础,计算MA及其标准差建立实时预测限来预测COVID-19疫情发展趋势,并计算风险评分及时预判疫区疫情风险分级。相比于每日实际观察数,MA的优点是能够降低实际观察数据波动的影响,较为清晰地展现新增感染人数的变动趋势。以此为基础改进的MAPL方法可以根据疾病的潜伏期以及发病到确诊的天数等因素来确定或调整MA的时距,如在新发传染病暴发初期由于认知不足,MA时距可适当延长。MAPL方法不再依赖于既往发病资料,应用范围扩大到了缺乏既往资料的新发传染病。同时,利用预测限来分析疫情发展趋势,不再是简单地将当日数据与上一日数据比较,而是观察该数值位于预测限不同分区,以此为依据来进行风险评分,判断疫情发展趋势的风险量化分级。另一些预测模型也常常用来预测传染病趋势,如SEIR (susceptible-exposed-infected-removed)模型需要综合考虑易感者、暴露者、感染者以及康复者在疾病传播过程所起作用,通过模拟病毒传播途径预测传染病趋势[16];而自回归移动平均模型(autoregressive integrated moving average model,ARIMA)则考虑时间序列变化趋势、周期性以及随机干扰项等因素来拟合模型进行预测,这就需要详细且高质量数据的支持以及复杂的计算过程[17]。相较这些传统复杂模型而言,MAPL的建立则限制较少,仅需每日新增病例数等指标即可,并且计算过程简单,便于理解与应用,根据风险评分进行的量化分级也更具实用价值。

当然,本文提出的预测方法也存在诸多不足。首先,疫情最初阶段较难确定计算MA所需要采用的时距。随着对病毒认识的加深、诊断治疗与卫生防疫措施的加强,潜伏期以及发病到确诊时间处于变动状态,势必需要相应调整计算MA的时距,这方面值得进一步探究。我们也为此尝试了不同时距的敏感度分析(文中未展示)。其次,滞后偏差不可避免,即MA预测值以及风险评分的变化会滞后于实际趋势值的变化。滞后性显得保守但会更趋稳健,从疫情控制角度来说是完全可以接受的。再者,本方法适用于跟踪疫情发展到一定程度后的趋势评估及适时风险预判,到疫情尾声每日新增确诊病例数量少甚至有零新增确诊病例的阶段,则需要综合其他指标进行疫情分析。另外,MA结合预测限的MAPL方法作为一种新的疫情预测和风险预判方式还缺少外部验证,尽管我们使用2003年香港SARS疫情数据进行了初步验证,结果也较为符合实际,但仅一次小规模的验证较难确认本文方法的稳健性,尚需包括本次疫情在内的进一步前瞻性验证研究。

综上所述,香港SARS疫情的验证案例说明MAPL方法可以用于新发传染病的疫情趋势预测以及实时量化风险分级。基于MAPL对于本次国内COVID-19疫情趋势跟踪分析和疫情风险预判也取得了较好效果,因此各疫区可以风险评分及分级结果为依据,实施不同地区的差异化精准防疫策略及措施。对于当前境外输入性病例进行的预测和风险分级表明我国目前存在境外输入的中高等风险,应加强对于出入境口岸的管控,必要时封锁出入境口岸,严控境外输入性风险。

猜你喜欢
预判传染病分级
《传染病信息》简介
传染病的预防
全新AI方法 使自动驾驶汽车学会预判
3种传染病出没 春天要格外提防
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
2021年下半年集装箱海运市场走势预判
对书业的30个预判
分级阅读对初中英语教学的启示
完形填空分级演练
完形填空分级演练