张怡盾 童逸琦 黄仕杰 黄思颖 庄福振
1 厦门市疾病预防控制中心,361000 福建 厦门; 2 中科(厦门)数据智能研究院,361000 福建 厦门
2020年初以来,新型冠状病毒肺炎(coronavirus disease 2019, COVID-19)在全球大规模暴发。据世界卫生组织报告,截至2021年1月,全球已有220多个国家和地区累计报告逾9 000万名确诊病例,全球累计死亡病例超过200万例;且疫情仍在进一步加速扩散中,多个国家陆续报告了新发现的变异病毒感染病例,部分国家的单日新增确诊病例数量屡创新高。
我国得益于早期有效的防控政策,在2020年3月份便基本掐断了本土疫情传播,因此防范境外输入病例风险成为当前疫情防控工作的重点。厦门市卫健委公布的数据显示,2020年3月17日厦门确诊第1例输入型病例,后续境外输入型病例呈持续增多趋势。随着厦门经济活动的全面复苏,人员活动愈发密集,机场、海关等单位的防疫压力剧增。为预测厦门未来疫情发展并分析防控手段的有效性,本研究基于境外入厦航班数据构建了一个厦门COVID-19境外输入确诊人数预测系统,用于评估厦门市未来的医疗资源是否会出现短缺情况,为防控部门提供数据基础支撑。这对于当前甚至未来一段时间内厦门市的疫情防控具有重要意义。
目前,国际上常采用基于SIR传染病及其变种模型[1-3]来预测未来患病人数及评估防控措施效果。虽然在本土确诊病例的预测上,该方法取得了一定的效果[4-6];但因我国采取严格的入境隔离14 d并接受多次核酸检测等管控措施,从源头上掐断了感染者将传染病传播给易感者的可能性,故上述方法不适用于本研究的情况。而统计学模型可在信息不全的情况下,通过小样本对总体进行预测[7],故本研究采用基于统计的方法来预测厦门市未来入境确诊人数。
本研究累计收集了由厦门疾控中心提供的2020年3月23日至2020年12月31日境外国家/地区(含我国港澳台)入厦航班数据,包括每日境外入厦的航班、航线、人数等,不包含任何乘客的具体信息。为防范本土疫情的二次暴发,根据厦门卫健委指示,本研究在预测的中后阶段将国内疫情中高风险等级地区也纳入预测范围,因此还收集了2020年3月31日至2020年6月30日湖北入厦航班信息,2020年6月1日至2020年6月30日沈阳入厦航班信息,2020年6月22日至2020年7月21日北京入厦航班信息,2020年7月22日至2020年8月30日大连、乌鲁木齐入厦航班信息等。
2.1.1 输入型病例的时间分布
为分析厦门疫情管控措施的有效性,本研究统计了厦门2020年的入境确诊情况。见图1。因厦门市对无症状感染者的管理方法与确诊者无异,根据厦门疾控中心的指示,本研究将无症状感染者也纳入预测的范围。总体上,截至2020年12月底,厦门累计报告277例境外输入新冠肺炎感染者。其中,确诊130例,占比46.9%;无症状感染147例,占比53.1%;无症状感染人数略多于确诊人数。2020年3月17日,厦门出现第1例输入型确诊病例,此后至3月29日,仅有3 d未出现输入确诊病例;而4月份至5月初,增长趋势得到抑制,4月3日至5月6日,仅4月16日出现1例确诊病例。上述结果表明厦门在境外输入疫情初期采取的境外航班限流、旅客入境需提供核酸阴性报告等防控措施取得了较明显效果。2020年6月份以后,厦门市输入确诊病例数量开始攀升,其中9月份单月输入病例82例,与前6个月的输入病例总数相仿,而9月25日单日输入35例,为单日最高纪录。这与我国整体疫情控制良好,经济生产活动全面恢复导致入境客流量大幅增加密不可分。
图1 厦门市2020年输入型病例的时间分布
2.1.2 旅客入境情况
2020年3月15日至12月31日,厦门市共入境约183 557人,平均每日入境约626人,每万人平均确诊率为0.15%。境外输入疫情初期,厦门市前3月累计入境53 849人,4月份入境10 011人,5月份入境12 600人,6月份入境21 873人,增长趋势明显。但自2020年7月份起,部分国家的疫情形势进一步恶化,我国进一步加强了边境疫情防控措施,国内多个航线触发民航局熔断机制,导致乘坐飞机入厦的乘客数量略有下降。总体上,厦门境外输入疫情控制呈积极向好态势,2020年6月起每月入境人数均多于2万人,旅客信心恢复明显。见图2。
图2 厦门市2020年旅客入境情况
2.1.3 确诊病例来源
厦门境外输入病例的来源呈两极分化态势。截至2020年12月31日,绝大多数确诊病例和无症状感染者来自俄罗斯、韩国、荷兰、菲律宾、美国和新加坡6个国家,共计235人,占总确诊人数的84.2%;而爱尔兰、日本等国家仅有个别病例输入。见图3。该结果与2020年3月份以来各国疫情的发展趋势吻合,反映出不同国家/地区的入境风险差别较大;因此,在构建预测模型时需要考虑不同国家/地区的入境风险。此外,在统计过程中发现,新加坡大多数入境患者为无症状感染者,占比85.2%;与之相反,马来西亚入境患者大多数为确诊病例,其无症状感染者占比仅为18.2%。
2.1.4 疫情暴发初期入境旅客来源
疫情暴发初期厦门市的入境旅客来源情况。整体上,在输入型疫情暴发初期,厦门取消了与东南亚国家的大部分航班。随着防控形势的好转,与厦门恢复航线的国家/地区数量呈现明显增长趋势,在4月份仅有9个国家/地区有入厦航班,而到6月底,增长到了14个。其中,东南亚国家入境人数增长明显,其占比从4月份的11.1%,上升到6月份的35.7%。见图4。
图3 厦门市2020年3月份至12月份确诊病例来源情况
图4 厦门市2020年境外输入疫情暴发初期入境旅客来源情况
疫情期间,我国口岸的入境政策、各大航空公司的航线、各个国家/地区的内部疫情发展等都在快速地变化和调整。考虑到上述因素对模型预测结果的影响,本文采用指数平滑法[8-9]对数据的权重进行调整,使新数据的权重大于旧数据。如式(1)、式(2)所示,模型首先根据该方法计算厦门的平均入境感染率,再根据厦门市疾控中心提供的第t-1日入厦航班数据,进行第t日境外入厦确诊人数的预测。
Pt=αxt+(1-α)Pt-1
(1)
St=PtW+c
(2)
式中,Pt代表基于指数平滑法计算的第t日厦门平均入境感染率;xt为第t日入厦确诊率;α为指数平滑法参数,实验结果表明,α取值为0.4时模型的预测效果较为理想;St代表最终预测结果;W为厦门第t日入境总人数;c为偏置项。
本研究实际从2020年3月23日开始对厦门入境确诊人数进行预测,此时厦门仅有7例确诊病例,样本数过少,模型无法初始化。而同一时间广州已通报43例入境确诊病例,考虑到厦门与广州地缘相近,疫情的初始发展轨迹也较为相似:广州在3月13日出现第1例输入型确诊病例,而厦门在3月17日出现第1例输入型确诊病例,两者仅相隔4 d;因此我们采用机器学习中迁移学习[10]的思想,在预测初期使用广州的数据对模型进行初始化,后续再利用指数平滑法对模型进行参数更新,使其拟合于厦门的实际情况。
如“2.1”所述,不同国家/地区的入境确诊风险大相径庭,在预测时要加以区分。因此,本研究采用规则将入境厦门的国家/地区划分为高风险国家/地区和低风险国家/地区,并以字典的形式单独对每一个高风险国家/地区的入厦确诊情况构建知识库。只要符合下述规则之一,本文就将其划分为高风险国家/地区。
1)入境厦门人数较多的国家/地区。为避免入厦人数较多的国家/地区突然暴发疫情对厦门口岸造成冲击,本文根据统计结果,将境外入厦人数最多的前5个国家/地区列为高风险。
2)有输入厦门确诊病例或者无症状感染者的国家/地区。
3)本土疫情发展较为严重的国家/地区,如美国、俄罗斯等。
最终,在实际预测过程中,本研究根据上述规则累计构建了美国、英国、菲律宾等14个高风险国家/地区的知识库。知识库里包含了每日入境人数及确诊情况等信息,作为外部知识用于提升模型的预测能力。当次日厦门疾控中心提供的航班预报表中包含上述国家/地区的航班时,模型根据下述公式预测确诊人数:
Pn=αxn+(1-α)Pn-1
(3)
(4)
Sfinal=∂St+δScountry+β
(5)
式中,Sfinal为模型最终预测结果;St为“2.2”所述的基于指数平滑法计算的确诊结果;Scountry为结合国家/地区入境风险计算的确诊结果;∂、δ和β为模型参数。当指挥中心通报当日的数据后,我们首先会更新高风险国家/地区的字典,再根据式(3)和式(4)拟合更新模型的参数,最后根据指挥中心提供的厦门市每日航班入境数据,利用式(5)对未来一天的入境确诊人数进行预测。
在实际预测过程中,本研究在每一天预测未来一天的入境确诊人数。为了更好地对比模型预测性能,我们构建了一个基线模型,该模型会将每一日的确诊人数都预测为0。最终,采用机器学习中常用的准确率、精确率、召回率和F1-Score作为模型性能的衡量指标,并以厦门市2020年3月27日至6月30日,即境外疫情暴发初期100 d的实际入境确诊数据为评估集合。
3个模型的预测准确率差别不大,说明使用准确率指标并不能很好地判断模型的预测效果,因此本研究采用F1-Score作为模型性能的实际衡量指标。对比3个模型的F1-Score发现,结合国家/地区参数的模型在F1-Score上相比于基线模型提高了28.9百分点,对于仅基于指数平滑法计算的模型提高了17.4百分点,预测效果提升明显。见表1。
表1 模型预测性能的对比 单位:%
本文目的之一在于为卫生部门提供提前预警功能,以此来对医护人员、医疗硬件设施等进行超前部署。因此对模型的预警性能进行了评估,即“模型是否准确预测出第2 d会有确诊病例输入”,该问题为一个二分类问题。2020年3月27日至12月31日,厦门共计103 d出现境外输入疫情,其中模型准确预警90 d,准确率达到87.4%,预警效果明显。
2020年11月及12月的预测结果可视化见图5、图6。总体上,模型预测的趋势与实际结果趋同(均P>0.10),但总体预测数量略低于实际确诊数量。
为评估厦门未来医疗资源是否会紧张,本研究构建了一个基于字典和指数平滑法的统计模型对厦门入境确诊人数进行预测。结果表明,模型的预测结果与实际结果较为吻合。受模型原理与数据限制,本研究存在一定的局限性。首先,模型维护需要花费一定人力,需要每日更新和维护国家/地区知识库对模型参数进行实时拟合;其次,模型简化了病毒潜伏期等复杂因素,与实际情况有偏离;此外,统计模型在预测精确率上仍有不足,会出现滞后现象,并且对新国家/地区入厦航班的预测能力较弱,导致最终预测结果与实际结果存在一定偏差。另一方面,由于入境人员基数和入境感染人数会随时间变化对新感染人数产生影响,使每天实际感染人数的分布范围都不相同,模型只给出了点估计的结果。后续,我们会尝试采用机器学习模型在预测算法上开展更深入的研究工作。
图5 2020年11月份预测结果
图6 2020年12月份预测结果