蒋 艳 孙学婷 赵 瑞 龚建行 彭志行 杜牧龙△
【提 要】 目的 基于2013-2017年某空港入境传染病确诊病例时间序列,建立传染病预测预警系统,为空港入境传染病监控提供理论依据。方法 采用MA(q)、ARIMAX、简单指数平滑和Holt-Winters指数平滑这四种模型进行拟合和预测。应用logistic回归探究影响传染病阳性确诊的因素。结果 四种模型中MA(q)、简单指数平滑和Holt-Winters指数平滑模型较适用,其中Holt-Winters指数平滑模型拟合及预测效果最优。以年龄和月份构建回归模型的拟合效果较好,且0~9岁年龄组的风险最高,同一年龄组9月份入境者患病风险最小。结论 Holt-Winters指数平滑模型能较好地应用于空港入境传染病确诊病例时间序列的拟合及预测。
随着旅游业的兴起和交通的发展,跨国境和跨省人口流动越来越频繁。据世界旅游组织统计,2019年全球国际旅行者达14.60亿人次,其中中国出入境总人数超过1.02亿人次[1],频繁的人口流动导致传染病跨境传播成为全球重要的公共卫生问题[2]。空港入境传染病的流行受诸多因素的影响[3-5],且不同类型传染病的时间分布呈现出不同的波动形式,难以运用结构式的因果模型进行预测。本研究拟通过建立时间序列模型及logistic回归模型分析近年某空港入境人员传染病确诊病例的人员特征,以建立该空港入境的传染病预警模型,为实现空港入境发热输入性病例监控的合理规划提供参考。
1.资料来源
本研究采集2013-2017年某空港每月入境人员总数和每月传染病确诊数,以及2013-2016年疑似发热病例人员的流行病学调查信息,包括姓名、年龄、性别、出入境日期、旅游史等基本信息。
2.质量控制
由于数据收集的困难性,本研究数据存在缺失。2013和2014年只具备全年入境人员总数的信息,而缺少每月入境人员数,因此本研究拟用比例推算法[6],即根据2015-2017年各月入境人员数的平均比例乘以2013、2014年全年入境人员总数得到各月入境人员数的估计值。对于2014年下半年阳性确诊人员数据的缺失亦采取上述方式填补。
3.统计方法
选取2013-2016年阳性确诊病例数作为响应变量,以月为基本单位,构建实际序列数据集。采用R 3.6.1软件构建q阶移动平均(moving average,MA)模型、多元自回归求和移动平均(auto-regressive integrated moving average with external regressors,ARIMAX)模型、简单指数平滑模型及Holt-Winters相加指数平滑模型,使用参数赤池信息量准则(akaike information criterion,AIC)、均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)以及平均绝对百分比误差(mean absolute percentage error,MAPE)比较模型的拟合性能。比较2017年阳性确诊数真实值与预测值之间的RMSE、MAE、MAPE,验证模型预测效果。利用logistic回归分析影响因素与传染病阳性确诊之间的关系,并计算比值比(OR)及其95%可信区间(95%CI)以观察关联强度。
1.时间序列分析
2013-2016年入境传染病阳性确诊数时序图如图1时序图所示,未发现明显的季节波动。图1中的自相关函数(autocorrelation function,ACF)和偏自相关函数(partial ACF,PACF)图分别显示截尾和拖尾特征。白噪声检验得Ljung-BoxQ=14.982,P=0.020,说明该序列不是白噪声序列。扩展迪基-福勒检验(augmented dickey-fuller test,ADF)用于单位根平稳性检验,结果得Dickey-Fuller=-4.213,P=0.010,序列不需要进行差分。
(1)MA(q)模型
结合该序列为1阶自相关,考虑使用MA(1)模型。表1显示MA(1)模型拟合结果,均具有统计学意义,确定模型形式为yt=7.632+(1-0.678B)εt。对模型残差进行检验,图2为MA(1)模型残差序列的ACF和PACF图,可以看出自相关系数和偏自相关系数自1阶开始都在两倍标准差范围内,说明信息提取充分。且按α=0.05的水准,该残差序列为白噪声(Ljung-BoxQ=3.745,P=0.711)。
图1 2013-2016年入境传染病阳性确诊数时序图及ACF、PACF图
表1 MA(1)模型拟合结果
图2 MA(1)模型残差序列的ACF图、PACF图
(2)ARIMAX模型
由于各月传染病阳性确诊病例数受到该月入境人员数的影响,我们将2013年至2016年各月入境人员数引入模型作为输入变量,图3左图为入境人员数与阳性确诊数的时间序列图,可见两者波动有相关性。对入境人员序列进行平稳性ADF检验,得Dickey-Fuller=-3.592,P=0.043,说明该序列平稳。入境人员数与阳性确诊数的互相关图如图3右图所示,显示在0阶延迟互相关系数显著不为0,结合阳性确诊数序列自相关图1阶截尾,考虑将入境人员数序列和阳性确诊数序列同期建模。模型的拟合结果如表2所示,可见常数项和相关系数项不显著(P=0.284、0.077),ARIMAX模型不适用于本研究的建模。
图3 2013年-2016年入境人员数与阳性确诊数时序图及这两组数据的互相关图
表2 ARIMAX模型拟合结果
(3)简单指数平滑模型和Holt-Winters指数平滑模型
2013-2016年某空港入境阳性确诊数序列满足平稳且有一定增长趋势的要求,能构建简单指数平滑模型和Holt-Winters指数平滑模型。简单指数平滑法所得水平项参数α为0.225;Holt-Winters指数平滑模型所得α为0.623,季节项参数δ为1×10-4。且两个模型的残差序列均为白噪声序列(Ljung-BoxQ=18.878,P=0.092;Ljung-BoxQ=14.345,P=0.279),提示可以用这两个模型对2017年阳性确诊数进行预测。
(4)三种模型比较
使用以上三种模型拟合2013-2016年某空港入境传染病阳性确诊数,同时预测2017年的确诊数。表3显示了拟合及预测的参数结果,RMSE2、MAE2、MAPE2为预测评价指标,其余为拟合评价指标。这些指标值越小,模型拟合度越好。综合考虑发现Holt-Winters指数平滑模型的RMSE1、MAE1以及预测评价指标都是最小的,且图4也直观地反映出Holt-Winters指数平滑模型是最优的。
2.影响因素分析
单因素logistic回归分析显示年幼者较年长者更易被确诊为携带传染病(OR=0.866,95%CI=0.784~0.956),小季度入境者比大季度入境者更易被确诊(OR=0.858,95%CI=0.715~1.028),小月份入境者比大月份入境者风险更大(OR=0.935,95%CI=0.881~0.992),而性别、来源地与传染病阳性确诊发生率无显著相关性(OR性别=0.916,95%CI性别=0.638~1.314;OR来源地=1.079,95%CI来源地=0.673~1.803)。
表3 三种模型的拟合及预测效果的比较
图4 三种模型的预测及拟合图
基于P< 0.10的标准将有统计学意义的单因素纳入多因素分析中,而季度和月份同时纳入模型时易出现共线性,所以分别构建了年龄与季度及年龄与月份这两个多因素logistic回归模型,并比较两个模型的优劣。年龄与季度的多因素logistic回归模型拟合结果显示,随着年龄和季度的增大,入境者被确诊为携带传染病病毒的风险减小(OR年龄=0.865,95%CI年龄=0.782~0.955;OR季度=0.849,95%CI季度=0.706~1.018)。年龄和月份的多因素logistic回归模型拟合结果亦相似(OR年龄=0.865,95%CI年龄=0.782~0.955;OR月份=0.933,95%CI月份=0.878~0.990)。两个多因素logistic回归模型均有统计学意义,且后者的AIC=655.24小于前者(657.37),表明用年龄、月份这两个影响因素构建的模型拟合效果更好。随后,将年龄和月份分别转换为哑变量,发现以0~9岁年龄组作为参照,其他年龄组在同一个月份入境时,都有较低的风险被确诊为携带传染病病毒,其中30~39岁年龄组入境者的风险最低(OR=0.264,95%CI=0.142~0.481)。同样的,以一月份作为参照,同一年龄组9月份入境具有显著的保护性(OR=0.216,95%CI=0.080~0.549),而其他月份均无显著性。
既往对于境外输入性病例的趋势预测是基于监测数据,结合季节气象因素、社会因素等,采用专家会商法,得出结论[7];或是考虑时间分布特征,只分析某种特定的输入性传染病[8],尚缺乏利用建模对多种输入性传染病进行综合预测的研究。本研究利用时间序列模型搭建空港入境传染病预测预警系统,为有效监控空港入境传染病疫情提供理论依据。研究结果显示,除ARIMAX模型外,其余三种模型均可应用于空港入境传染病的预测,其中Holt-Winters指数平滑模型拟合及预测效果最优。这可能是由于ARIMAX模型对数据要求高,当实际问题较复杂时模型建立较困难,而指数平滑模型计算方法简便,适用于序列较短或不具备构建ARIMA模型条件的情况[9-10]。
风险因素分析结果中,同月入境者0~9岁年龄组有较高的风险被确诊为传染病病毒阳性,而同一年龄组9月份入境者患传染病的风险较低。此结果符合儿童是传染病病毒攻击主要对象的现象,且儿童人群易通过直系亲属快速传播,使传染病更易扩散[11]。9月份是肠道传染病和虫媒传染病的高发时间段,而能导致发热的常见呼吸道传染病更易在晚秋出现,此规律也与研究结论相符。
本研究也存在不足之处:第一,数据收集难度较大,存在数据缺失,对时间序列模型构建的稳定性产生一定影响。第二,采用比例推算法填补2013和2014年各月入境人数及2014年下半年的确诊数,但入境人数及确诊数未见明显的周期性变化,用这种填补方式可能导致结果出现偏差。第三,影响因素分析中,对照组为采样检测后明确传染病阴性的入境者,样本量较少,无法代表总体传染病阴性入境人群。后期我们将继续完善数据,增加多中心样本,以更好地构建空港口入境传染病预测预警系统。