尹天露,刘朝杰,张新国,赵李伟,高晓欢
本文价值:
(1)本文对多个国家在新型冠状病毒肺炎(COVID-19)疫情中采用的不同流行病学模型的分析模式进行梳理、评价、比较,总结各国经验,对预测COVID-19疫情下一步的发展趋势及构建其预测模型、COVID-19疫情防控具有重要的现实意义。(2)本文汇总了各国的防控建议,可为当前世界COVID-19疫情防控提供决策依据。(3)本文以COVID-19疫情为例,研究流行病学模型在突发公共卫生事件中的应用现状及存在的问题,为我国未来重大传染病防控提供预测模型方法学参考。
新型冠状病毒肺炎(COVID-19)的暴发及其在全国及世界范围内的扩散、传播造成了巨大的社会影响,自COVID-19疫情暴发以来,各地各层卫生机构采取了积极的防控救援建设行动。我国刘廷杰等[1]、胡艳等[2]、吴艳玲等[3]、李映霞等[4]分别通过调查中国不同城市的COVID-19发病率、暴露史等疫情数据,分析当地COVID-19确诊病例流行病学特征,为当地疫情防控建设的提升提供了科学依据。研究流行病传播动力学特征有助于更好地对疫情进行掌控和防治,是目前全世界共同面对的极其重要的科学课题,通过对多个国家在COVID-19疫情中采用的不同流行病学模型的分析模式进行梳理、评价、比较,总结各国经验,并预测下一步的发展趋势,同时构建COVID-19疫情变化趋势的合理预测模型,对COVID-19疫情防控无疑具有重要的现实意义,这不仅可对我国未来重大传染病的防控提供预测模型方法学参考,而且也可对当前世界COVID-19疫情防控提供决策依据。本研究通过范围综述(scoping review)的方法,系统地梳理了流行病学模型在COVID-19传播预测中的应用现状及存在的问题,以期为健康中国背景下我国突发公共卫生事件的预测及预防提供经验借鉴。
1.1 研究设计 本研究利用范围综述方法研究流行病学模型在COVID-19传播、预测中的应用进展及存在的问题。范围综述在解决探索性研究问题时优于系统综述。系统综述旨在对一个已知研究领域的信息进行整合,从而回答某一特定问题的特定干预的有效性。相反,范围综述锁定了特定研究领域中的关键概念、证据类型和研究间的差距。相对于系统综述而言,范围综述包括系统地检索、选择和整合研究证据。
1.2 研究问题 流行病学模型在COVID-19传播、预测中的应用现状如何?
1.3 文献检索策略 (1)初步确定检索词为“新型冠状病毒肺炎(COVID-19)”和“预测(prediction)”或“模型(model)”。(2)执行最终文献检索策略。计算机检索中国期刊全文数据库、维普中文科技期刊全文数据库、万方数据知识服务平台、中国生物医学文献数据库、PubMed、The Cochrane Library并手工检索相关文献,检索时间为数据库建库至2020年6月。
1.4 文献筛选 通过阅读标题和摘要筛选合格的文献。文献纳入标准:研究主题为COVID-19疫情的预测模型,明确数据来源,明确预测模型建立所用的方法。文献排除标准:重复文献。
1.5 数据提取 数据提取内容主要包括第一作者、发表年份、数据来源、模型类型、疫情防控建议。
2.1 一般情况 初步检索文献519篇,删除重复文献218篇,通过阅读标题和摘要筛选合格的文献45篇[5-49](见图1)。纳入文献共涉及24个国家,分别为中国、美国、西班牙、意大利、法国、德国、英国、土耳其、伊朗、俄罗斯、巴西、加拿大、比利时、荷兰、瑞士、瑞典、丹麦、印度、韩国、智利、新加坡、日本、奥地利、挪威。模型类型有9大类,分别为仓室模型(SIR模型)、传播动力学模型(SEIR模型)、新时滞动力学模型(TDD-NCP模型)、逻辑增长模型(Logistic增长模型)、增长模型、自回归积分滑动平均模型(ARIMA模型)、指数平滑预测模型(Holt模型)、SEAQIR模型、其他模型〔AI(a hybrid artificial-intelligence)模型、离散变量随机概率方法、平滑指数模型、新发传染病传播动力学模型、手机定位大数据的捕获再捕获模型、Bernstein基函数建模二阶导数模型、常微分方程框架组成的模型、the Verhulst equation模型、集合种群模型〕(见表1)。
2.2 预测模型分析
2.2.1 SIR模型 传播动力学模型被广泛应用于预测疫情发展趋势,其中,群体性模型的典型代表是SIR模型。该模型将人群分成易感者(记作“S”)、传染者(记作“I”)及康复者(记作“R”)3个群体,并用确定性微分方程组来描述这3类人群在数量上的变化关系,其被广泛应用于各种传染病的建模分析中。文献[5-11]采用SIR模型进行COVID-19疫情预测,所得疫情防控建议见表2。
2.2.2 SEIR模型 在实际使用中,SIR模型有很多派生形式,如增设了已经暴露但是并没有传染能力的暴露者(记作“E”),这样的模型称为SEIR模型;SEIR模型考虑了处于潜伏期的病毒携带者,区分了潜伏者和已发病的感染者接触易感人群概率的差异[13]。文献[12-24]采用SEIR模型进行COVID-19疫情预测,所得的疫情防控建议见表3。
图1 研究设计流程图Figure 1 Research and design flow chart
2.2.3 TDD-NCP模型 CHEN等[25]及严阅等[26]均提出采用TDD-NCP模型来描述COVID-19疫情的传播过程。刘可伋等[27]将TDD-NCP模型用于研究部分省市的COVID-19疫情传播问题,其通过增加模型的源项来模拟外来潜伏感染者对当地疫情的影响,基于国家卫生健康委员会官方网站每日公布的累计确诊例数与治愈例数,有效地模拟并预测了各地疫情的发展,提出了基于TDD-NCP模型的再生数的两种计算方法,并做了估计与分析,发现疫情暴发初期再生数较大,但随着各级政府防控力度的加大而逐渐减小;最后,分析了返程潮对上海疫情发展的影响,并建议上海市政府继续加大防控力度,以防疫情二次暴发。邵年等[28]在TDD-NCP模型的基础上,提出了基于随机动力学的时滞卷积模型和离散卷积模型,并基于中国疾病预防控制中心的相关研究结果和公开数据,反演出了COVID-19疫情的重要参数,拟合了武汉市及上海市COVID-19疫情的发展趋势。
表3 应用SEIR模型进行COVID-19疫情预测所得疫情防控建议Table 3 Recommendations for prevention and control of COVID-19 epidemic prediction by SEIR model
表1 COVID-19疫情预测模型汇总Table 1 Summary of COVID-19 epidemic prediction models
2.2.4 Logistic增长模型 SHEN[29]利用中国11个省/市(安徽省、北京市、重庆市、广东省、河南省、湖北省、湖南省、江苏省、江西省、上海市和浙江省)以及其他9个国家(伊朗、韩国、法国、德国、美国、意大利、西班牙、新加坡和日本)的时间序列数据,采用非线性最小二乘法(NLS)估计参数的Logistic增长模型分析发现,Logistic增长模型非常适合中国的数据,并且该研究能够提供COVID-19患者例数的估计并比较各地区之间的扩散速度。CHEN等[30]利用美国疾病控制与预防中心数据,采用参数Logistic增长模型对COVID-19疫情进行预测,结果显示,数据与模型拟合较好,证明了参数Logistic增长模型的效用;除了为公共卫生决策提供信息外,该研究的模型还增加了一个检测工具,以便更准确地捕捉COVID-19疫情的传播情况。
2.2.5 增长模型 CÁSSARO等[31]利用中国、奥地利、西班牙、比利时、意大利、德国、挪威的疫情数据,采用简单增长模型进行COVID-19疫情预测,结果显示,根据第1例COVID-19患者的相关数据,几乎不可能预测疫情将如何演变,因为其涉及许多必须考虑的因素,如传播的动态、人口统计数据、社会流动性的限制、个人保护措施(使用防护口罩和卫生程序)、病毒潜伏时间、传播率、气象因素等。胡云鹤等[32]采用简单灵活、广泛适用的动态增长率模型对海外重点国家的COVID-19疫情发展特点和趋势进行了分析,结果显示,防控措施的及时性和有效性将决定疫情走向,多数海外国家并没有利用好中国为世界争取的宝贵时间,如果维持现有防控水平,情况不容乐观。张琳[33]采用一般增长模型拟合了2020-01-15至2020-02-15中国COVID-19的累计确诊人数及2020-01-23至2020-02-15中国累计疑似人数和中国累计密切接触人数,结果显示,模型与国家卫生健康委员会公布的数据吻合。
2.2.6 ARIMA模型 SINGH等[34]采用ARIMA模型分析美国、西班牙、意大利、法国、德国、英国、土耳其、伊朗、中国、俄罗斯、巴西、加拿大、比利时、荷兰和瑞士的COVID-19疫情数据发现,除中国、瑞士和德国外,其他国家中的COVID-19确诊例数、死亡例数和康复率将增长一倍。CHINTALAPUDI等[35]利用意大利卫生部的官方数据,采用ARIMA模型对COVID-19疫情进行预测,结果显示,预测模型的准确率为93.75%;到5月底,预测受感染患者可能达到182 757例,康复患者可能达到81 635例。
2.2.7 Holt模型 MARTINEZ等[36]利用巴西COVID-19疫情数据,采用Holt模型进行COVID-19疫情预测。林挺葵等[37]依据广东省卫生健康委员会截至2020-02-18 24:00的官方数据构建传染病动力学SIR模型,计算现阶段粤西地区及各地级市COVID-19的基本再生数(R0),并采用Holt双参数指数平滑模型预测其发展趋势,结果显示,该模型预测较准确;预测在现有高效防控措施下,粤西地区及各地级市COVID-19疫情正在好转,有望在2月底出现“拐点”。
2.2.8 SEAQIR模型 ZHANG等[38]、张原等[39]采用随机SEAQIR模型分析COVID-19的独特传播动态及中国大陆干预措施的实施效果,随后又对世界各国的COVID-19疫情情况、控制再生数、无症状感染者占比以及在无额外管控、部分管控和有效管控情况下COVID-19疫情的未来发展趋势进行分析,并预测各国COVID-19疫情对中国输入型病例的影响。
2.2.9 其他模型 ZHENG等[40]利用中国COVID-19疫情数据,采用AI模型进行COVID-19疫情预测。石耀霖等[41]发展了一种离散变量随机概率方法,并对湖北省COVID-19疫情发展进行模拟和预测,指出春节后回程的农民工和学生诱发大的疫情回弹可能性不大;但是世界上一些国家正处在疫情可能暴发的阶段,国家应该对入境人员做好检查和隔离管控工作。王旭艳等[42]采用平滑指数模型对COVID-19累计确诊病例数、累计治愈出院病例数、累计死亡病例数、重症病例数及危重症病例数进行拟合和预测,结果显示,湖北省COVID-19疫情的防控措施是有效的,指数平滑法拟合效果较好,可用于COVID-19疫情预测。崔景安等[43]针对COVID-19等新发传染病传播动力学模型的实际应用问题,提出了与确诊病例实时数据相关联的接触数,优化了新发传染病传播动力学模型,提升了模型的实用价值,把实时数据信息应用于模型参数估计;并利用公开数据,采用动力学模型,预估广州、武汉COVID-19传播的峰值、最终规模、达峰时间,结果显示,这类接触数可推广应用于其他新发传染病,同时可揭示其暴发过程中不同时期的传播风险。孟杰等[44]聚焦于构造基于手机定位大数据的捕获再捕获模型,估计特定区域COVID-19传染高危人群总量,并利用互联网企业提供的经脱敏处理的天津市手机APP定位大数据验证了该方法的实践有效性。朱淼等[45]通过对累计确诊病例人数与疑似病例人数的综合量化,提出了抗击COVID-19疫情信心指数,其可客观地反映人们对战胜COVID-19疫情的信心;在此基础上,以误差目标为要求,通过模拟构建的Bernstein基函数模型,结合物理意义上的速率概念,深入地对COVID-19疫情的发展趋势进行了分析,并取得了良好的效果。CHEN等[46]利用国家卫生健康委员会官方网站数据,采用二阶导数模型进行COVID-19疫情预测,在这项研究中,作者使用了第2个导数模型来表征中国COVID-19疫情的流行情况,并在头2个月内累计诊断出病例。AMBIKAPATHY等[47]利用由常微分方程框架组成的模型对印度COVID-19疫情相关数据进行分析,结果显示,实施至少21 d的严格禁闭有望减少COVID-19的传播,然而需要进一步延长至少42 d的严格禁闭才能明显减少COVID-19的传播;放松封锁措施可能导致指数级传播,这给该国的卫生保健系统造成了沉重负担。SANCHEZCABALLERO等[48]利用WHO官方网站中中国、意大利和西班牙的 COVID-19 疫情数据,采用 the Verhulst equation 模型进行COVID-19疫情预测,并用该模型预测德国、法国和英国的COVID-19疫情,结果证明该模型是可靠的。WU等[49]依据武汉市输出到中国内地以外城市的COVID-19患者数据,提供了一个武汉传染模型(集合种群模型),并且预测了国内和全球流行病的公共卫生风险,旨在为社会和非药物干预提供预防措施。
3.1 研发预测模型的意义与作用 第一,模型可以揭示未来不同时段COVID-19疫情的总体发展状况(恶化还是缓解)、到达“拐点”的时刻以及未来的感染人数、潜伏期人数、发病期人数、地区COVID-19疫情走势等关键信息。第二,从模型计算出的参数可以表征不易直接观察到的COVID-19疫情动态参数,帮助理解并预测不同时期的COVID-19疫情特点,如有效再生数、R0、感染者被医院收治比例等。第三,模型能够预测不同措施对COVID-19疫情发展的影响:不同时期的措施对模型参数的影响不同,这会直接在指标的发展曲线上反映出来。以上均可以辅助公共卫生、应急、疾控等部门和其他相关决策者制定COVID-19疫情防控策略,如落实在具体时间地点上的医疗投入、是否限制流动、对个人采取的防护建议、复工复学的可能性等。
笔者通过深入分析发现,已发表的文献从不同侧面为预测COVID-19疫情传播规律提供了借鉴,但是从计算结果来看,这些预测数据与实际数据存在较大出入[5-49]。此外,在模型构建上均存在共同缺陷,主要包括以下几点:首先,均是基于均匀混合的假设,即认为各类人群的接触概率完全相同,均采用确定性微分方程模型来描述病毒传播过程,没有考虑病毒传播过程的随机性。其次,没有考虑COVID-19在潜伏期具有明显的传染性这一特点。此外,在模型构建过程中,均没有分析模型中重要参数的可识别性问题。如果部分参数是不可识别的,那么对这些参数的估计结果将严重依赖于所选择的初始值,进而降低了模型预测结果的可信度。同时,模型依据数据的权威性、检测数据是否涵盖预测地区的真实数据以及各个国家/地区防控措施的不同均会影响模型的预测效果。
3.2 展望 基于分析结果,后期应从以下几个方面深入研究以优化和改进COVID-19的传播机制模型:(1)考虑传播过程的随机性,提高模型的精确性。因此,随机性依然在病毒的传播过程中起着难以忽视的作用,在模型中加入随机性是有意义的。(2)考虑潜伏期的传染性,提高模型的真实性。模型中应该考虑潜伏期携带者与无症状感染者的存在及其传染性、重症与轻症患者的转化以及医学追踪与隔离过程中存在的时滞。综合考虑这些现实因素,可使模型能够更加真实地描述实际情况。(3)考虑时空结构,提高模型的可扩展性。可以基于现有模型,引入多个城市及其在空间/交通上的联系,刻画人口在城市间的流动规律及其带来的疾病传播,包括交通工具上疾病的传播,使得模型能够符合实际情况。
在具体的建模过程中,需要依据病毒的传播方式来构建合适的模型。但是新型冠状病毒的传染性很强,且潜伏期就具有传染性,而且其具体的传播方式还没有完全被掌握[9],这些均对准确建模提出了挑战。建议从病毒基因数据入手,基于病毒发育树来分析感染发生的时间,从而更加准确地描述传播过程。此外,基于临床数据的研究(如文献[49]等)也能够提供关于病毒传播过程如R0和代际间隔等要素的重要信息,这些均能够帮助建立更加准确的模型。
COVID-19疫情正在蔓延,确诊人数仍然在不断增长。相信通过建立准确、可靠的数学和统计模型,能够正确把握疾病的流行规律,从而制定科学、高效的防控措施,早日取得疫情防控战斗的胜利。
作者贡献:尹天露、刘朝杰、高晓欢进行文章的构思与设计;尹天露、高晓欢撰写论文,进行论文的修订,对文章整体负责、监督管理;张新国、赵李伟、高晓欢进行数据收集与整理;尹天露进行英文的修订。
本文无利益冲突。