王明斋,李佳,芮佳,王瑶,杨蒙,王琦琦,陈田木,郑蓉蓉∗
结核病是由结核杆菌引起的经由呼吸道传播的慢性传染病。尽管多年来我国结核病防控已经取得了很大进展,但仍面临诸多困难和挑战,实现结核病消除目标仍任重道远。疫情统计预测对于结核病控制乃至制定规划目标具有重要参考价值。当前,结核病疫情数学建模研究较多,如常微分方程模型和链二项分布模型等[1,2],但数学模型太过于复杂,不利于在基层公共卫生部门推广和运用。为此,本文对11种常见的统计预测模型及其原理、模型拟合优度检验原理与最优模型筛选等进行介绍,并通过具体实例介绍操作方法,探讨模型在结核病等传染病疫情预测中的应用价值。
模型方程为:Y=b0+(b1×t)。
该模型是线性回归模型中最简单的一种,利用普通最小二乘法(Ordinary Least Squares,OLS)对回归系数进行参数估计,其OLS估计量具有很好的统计学性质[3],适用于进行简单的疫情预测。但是由于直线回归的局限性,在建立直线回归模型的基础上,随着t逐渐远离,回归模型的预测能力将显著下降。
对解释变量t进行一定变化后化为线性模型,对该模型直接进行OLS估计,得到模型的参数估计值,以建立预测模型[3,4]。
(1)对数曲线模型(Logarithmic)模型方程为:Y=b0+(b1×ln(t))。
对数曲线图形为一条单调递增并且增长速度逐渐减慢的曲线,理论上自然地区新发传染病,其增长趋势较接近于对数曲线,因而在很多情况下对数曲线模型的拟合度更优。
(2)反函数模型(Inverse)
模型方程为:Y=b0+(b1/t)。
也称倒数模型,此类模型最显著的特征是,当t无限增大时,函数模型将无限靠近其渐近线或极值[3]。而就传染病而言,很难确定发病率或发病人数的阈值,因而反函数模型的应用常被限制。
(3)二次函数(Quadratic)
模型方程为:Y=b0+(b1×t)+(b2×t2)
二次函数的典型特征为存在一个最值,当发病人数呈现出典型的“单峰”变化趋势,可考虑使用二次函数。
(4)三次函数(Cubic)
模型方程为:Y=b0+(b1×t)+(b2×t2)+(b3×t3)。
与上述模型相比,非线性模型中的参数求解更为复杂,常利用曲线直线化方法来寻找曲线回归模型中参数的最小二乘估计[5]。常见的非线性模型有以下四种。
(1)复合函数(Compound):Y=b0×(b1t)。
(2)幂函数(Power):Y=b0×(tb1)。
(3)指数曲线(Exponential):Y=b0×(eb1×t)。在应用指数曲线时通常会两边同时取对数进行数据处理,再进行最小二乘估计。很多研究表明,大量事物的发展,其定量特征表现为随时间按指数或接近指数规律增长[6],因此,指数曲线具有较高的应用价值。
(4)广义S形曲线。曲线图象呈现出初期较慢,中期发展迅速,后期趋缓并最终达到饱和的这种S形变化过程。常见的广义S形曲线有以下三种函数形式:①S形曲线(S):Y=eb0+(b1/t);②生长曲线
(Growth):Y=eb0+(b1×t);③Logistic曲线(Logistic):Y=1/(1/u+(b0×b1t))。在生物领域内都存在大量S形技术指标,对这类指标的统计分析常借助最小二乘估计进行拟合、控制和预测[7]。
在上述的11种时间序列模型中,t为时间,是自变量,可以是日、周、月、年;Y为因变量,常为发病人数或患病人数,t、Y均可根据研究者收集的数据类型来确定。本研究时间t以月为单位,因变量Y为每月报告新病例数。b0、b1、b2、b3、u是以数据进行曲线拟合得到的模型系数[8]。时间序列分析是对变量随时间发展变化的一种研究,并利用以往的统计数据建立外推预测方法的数学模型,上述的11种时间序列模型属于趋势外推法,常用于中短期的预测分析,但对于波动性较大的序列不适合做精确预测[9]。利用趋势外推模型可对传染病的发病趋势进行简单的预测,揭示传染病流行、暴发的发展过程,揭示流行和发展规律,分析流行和暴发的原因,为制定预防控制策略和措施、合理配置医疗卫生服务资源提供科学依据[10]。
采用决定系数R2来度量回归线的拟合优度,R2取值介于0 ~1之间,越接近1,模型的回归效果越好,越接近0,模型的回归效果越差,并对其进行方差分析以求得显著性水平[11]。
采用相对误差ê和绝对误差e进行评价(对预测误差取绝对值以消除正负号的影响),计算公式如下[11]:
其中,Ya和Yt分别表示实际数据和模型模拟数据。
通常而言,根据拟合优度检验结果选择有统计学意义的模型,再通过准确性评价进行模型验证后筛选可靠的模型。即根据各模型决定系数大小依次排序结合P值进行模型选择,在P<0.05的模型中优先选择决定系数比较大的模型。 若通过以上两个步骤未选择合适的模型,则建模失败,此时可以同过模型校正的方式重新建模和筛选直至筛选出合适的模型为止;若合适的模型存在多个时,可以通过实际生物学意义进行综合判断选择最优或者多个模型同时应用。
该11个模型的优缺点类似。主要优点是模型原理简单、易于理解,操作简便(在SPSS软件里简单操作即可),要求数据简单(仅需要发病率或发病数随时间变化的数据即可),有利于基础公共卫生人员开展快速的发病趋势预测。主要缺点是自变量为时间,即把疾病的发生归因于时间,未考虑疾病的传播机制,也未考虑环境与社会经济、干预措施等其他影响因素。
本研究以厦门市结核病报告疫情数据为例开展模型建立、拟合优度检验、模型筛选和预测研究。
收集《全国传染病疫情报告管理信息系统》中2005年1月至2019年6月报告的厦门市结核病疫情数据。以2005年1月至2018年12月疫情数据为建模数据集,2019年1月至6月疫情数据为验证数据集。数据显示,厦门市报告结核病疫情2005年相对其他年份较高,之后有逐年缓慢下降趋势,但在2018年起略有上升趋势。
采用IBM SPSS 21.0软件“分析”工具中的“曲线估计”功能开展11种模型的建模研究,因变量选择已收集整理的厦门市2005年1月至2018年12月报告的结核病疫情数据(新发病例数),自变量选择时间(time),以月为单位。
模型与数据拟合结果显示,11种模型均有统计学意义(P<0.05)(表1)。其中R2最大为Cubic模型,其次为Quadratic模型和Logarithmic模型。
将拟合效果最优的3个模型进行模型验证。结果显示,2019年实际报告数据有2个月份数据不在Cubic 模型95%CI之内,提示其验证效果欠佳(图1)。Logarithmic模型和Quadratic 模型95%CI均能包含验证数据集,提示该两个模型通过了模型验证,可以用于预测。Logarithmic模型平均绝对误差为28、平均相对误差为16.99%,Quadratic 模型平均绝对误差为24、平均相对误差为12.82%,提示Quadratic模型验证效果优于Logarithmic模型。Quadratic模型预测2019年7 ~12月报告发病数分别为191(95%CI:124-259)、192(95%CI:124-260)、193(95%CI:125-261)、194(95%CI:126-262)、195(95%CI:127-263)和196(95%CI:128-264)。预测病例数略有上升趋势。
表1 11种模型拟合优度检验结果
图1拟合优度较高的3个模型验证及预测情况
Logarithmic模型、Quadratic 模型和Cubic模型的方程如下:
本研究通过理论介绍和实例操作介绍了常见统计预测模型及其在结核病预测中的应用。建模的关键点包括数据选择、拟合优度检验和模型验证等。拟合优度检验在整个建模中具有最为关键的意义。曲线拟合是先根据专业知识、经验或点分布趋势,选择一个适合变量间关系的曲线类型,再用曲线直线化或其它数学方法,根据实测数据求出曲线回归方程[5]。在许多研究中,对于同一组数据,研究者通常会尝试多种曲线类型进行拟合,再通过比较其决定系数、显著性水平及模型适用范围来选择较优的曲线模型。在实际应用时往往要用不同的方法互相补充,对计算的结果,结合有关影响因素进行必要的修正,使预测结果更精确[12]。
总的来说,本文介绍的11种预测模型的优点是模型简洁,可操作性强,利用目前普及的具有曲线拟合能力的软件(如SPSS)即可得出模型方程,适用于基层人员进行简单预测。但是曲线拟合方程不能处理时间滞后变量,然而时间序列资料常常存在变量间时间滞后关系,因此采用普通线性模型和曲线拟合分析方法研究时间序列资料可能会产生一定的误差[13]。模型拟合优度结果显示,虽然决定系数均有统计学意义,但其最大为0.487,说明仅用时间作为自变量的模型不能很好地解释结核病的发病规律,这也是该类模型的最主要局限性。更多的影响因素如传播特征、环境和社会经济因素、干预措施等在今后研究中应给予进一步考虑。
我国结核病感染率高,起病隐匿、发病缓慢,该特征使得观测到的大量数据明显滞后,因此相较于急性发病的传染病,使用曲线拟合的方法对结核病进行预测误差更大。然而,影响结核病发病率的因素诸如地理、社会、耐药等十分复杂,时间序列分析克服了影响预测对象的因素错综复杂、不易分析和数据资料不易得到的难题,以时间t综合替代各种影响因素,根据原始数列的特点选择适宜的模型建立时序模型。其过程简便、经济、适用、短期预测精度较高[13]。因此,基层人员运用基于时间序列分析的曲线拟合方法对结核病疫情进行简单预测可行性高,具有较高的应用价值。