西安市围产儿NTDs率数学模型预测及比较分析

2020-12-23 05:19刘楚阳王晓婷

中国妇幼健康研究 2020年12期

于敏,刘楚阳,宋晖,李琛,王晓婷,文华

(1.西安交通大学医院，陕西西安 710049；2.西安交通大学数学与统计学院，陕西西安 710049；3.西安市妇幼保健院，陕西西安 710002；4.西安市第四医院，陕西西安 710004)

出生缺陷是指胚胎由于遗传原因或者物理、化学、生物等环境原因或二者的交互作用所引起的先天性异常[1-2]。目前，关于出生缺陷的研究主要集中在出生缺陷危险因素及流行病学特征方面，而出生缺陷预测类研究较少。为了解西安市围产儿神经管缺陷(neural tube defects，NTDs)率的动态变化趋势，本研究对NTDs率进行了预测，以评估NTDs未来的流行趋势与风险。数学模型预测是运用科学的统计方法对连续的历史数据进行未来值定量预测。准确地预测可以为出生缺陷防治策略提供依据，使资源和效率得到优化，对出生缺陷人群的预防有指导意义。

1研究对象与方法

1.1研究对象

本研究依托国家出生缺陷监测系统，自2003年开始，收集2003年至2015年期间在西安市各级开设产科的医疗保健机构出生的孕28周至生后7天的所有围产儿的出生缺陷监测资料，从中得到每年西安市确诊围产儿NTDs的发生情况；对出生7天内发现但不能确诊者，跟踪至确诊时填报。

1.2脊柱裂的诊断方法

一般而言，脊柱裂合并脑积水或脊柱裂合并脑膨出不需要分别计入，仅计为脊柱裂。排除隐性脊柱裂、脊柱裂合并无脑畸形者、骶尾部畸胎瘤的情况后，可通过体格检查、超声诊断及X线检查进行诊断。

1.3监测方法

西安市各级开设产科的医疗保健机构均全面开展监测工作，监测人员全部为妇产科或儿(新生儿)科医师，每发现1例NTDs围产期患儿需要填报1张《出生缺陷儿登记卡》。在监测前及监测过程中，每年对监测人员需进行统一培训。

1.4监测内容

缺陷儿出生情况、诊断结果、产妇情况、产妇孕早期情况、异常生育史、缺陷儿史、家族史、近亲婚配史等。出生缺陷诊断结果分为23类常见出生缺陷和其他类型。

1.5数据资料的复核

本研究对所有出生缺陷卡均进行复核，主要核对：①当卡上登记有多种出生缺陷时是否为综合征；②是否重复计算出生缺陷儿；③诊断为“其他”类型的出生缺陷及其详细描述是否可以确认归属于常见23类常见出生缺陷中；④是否为不需报《出生缺陷儿登记卡》的异常体征或单纯正常变异；⑤母亲居住地、诊断时间、诊断依据、患儿出生孕周/出生时间/年龄、妊娠结局等关键变量是否在监测方案界定的范围内等。

1.6模型介绍

自回归移动平均模型(autoregressive integrated moving average model，ARIMA)的基本思想是：将预测对象随时间推移而形成的数据序列视为一个随机序列，用一定的数学模型近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值预测未来值。该模型目前广泛应用于数据分析领域，尤其是针对时间序列上具有依存性和扰动性的数据分析。ARIMA模型分为简单季节性和乘积季节性两种模型。ARIMA模型将非平稳的时间序列进行平稳化后，通过成熟的统计测算建立优化的模型和准确的参数，拟合模型无限接近平稳的时间序列，同时使误差最小。结合对应的数学模型和数据，对连续变化数据的时间序列走向及趋势进行分析和预判。简化的建模策略主要由模型识别、模型拟合和模型诊断构成。ARIMA模型包含：AR(自回归过程)、MA(移动平均过程)、ARMA(自回归移动平均过程)环节。

灰色数据是数据序列中的部分信息已知，部分信息未知，同时数据序列内各因素间的关系不确定。灰色模型是针对灰色系统，通过鉴别系统因素之间的发展趋势预测相异程度，并进行关联度分析，同时对原始数据进行生成处理以寻找灰色系统变动的规律，形成有较强规律性的数据序列组合，然后通过建立相应的微分方程数学模型，对事物未来发展趋势的状况进行预测。灰色模型进行数据预测的步骤主要有原始数据预处理、建立预测模型和模型检验。

1.7统计学方法

采用Excel软件进行数据录入，并对出生缺陷数据按年统计汇总。使用R 3.5.1软件进行ARIMA模型预测；使用Matlab 7.0软件进行灰色模型预测。

2结果

2.1建模数据及研究对象的情况

整理2003年至2015年西安市出生缺陷发生情况的资料，根据其NTDs发生率建立数学模型，通过建立的数学模型对2016年至2018年西安市围生儿NTDs发生情况进行预测。

2003年至2015年共监测围产儿1 236 937例，确诊出生缺陷儿10 619例，确诊NTDs共1 241例，见表1。

表1 2003年至2015年西安市围产儿出生缺陷及NTDs率

2.2使用ARIMA模型预测

2.2.1读入数据并绘制时间序列图

结合原始数据的时间序列，在此基础上绘制时间序列图，观察其随时间变化或季节变化的趋势。2003年至2015年西安市围生儿NTDs率的时间序列显示呈逐年降低趋势，见图1。

图1 2003年至2015年西安市围生儿NTDs率

2.2.2绘制自相关函数图与偏自相关函数图

如果时间序列是非平稳的，则其存在向上或向下的趋势，就需要对非平稳的时间序列进行平稳化处理，直到该时间序列的均值和方差趋向于常数，则可以保证序列内部性质稳定[3]。差分是保证时间序列平稳的数学变换方法。平稳的时间序列的差分仍然是平稳的，但是过度差分会对序列带来不必要的相关性并使建模过程复杂化。为了避免过度差分，计算时应依次仔细查看各个差分并遵循简洁性的原则。利用时间序列图和自相关图均可以对时间序列的平稳性进行判断[4]。绘制自相关函数(autocorrelation function，ACF)图，可知时间序列非平稳，需要进行差分，见图2。绘制偏自相关函数(partial autocorrelation function，PACF)图，发现偏自相关函数一阶截尾，因此进行一阶差分，见图3。原始时间序列经过一阶差分后形成时间序列S1，使用时间序列S1绘制时间序列图，可见时间序列S1无明显随时间波动趋势，见图4。

图2 2003年至2015年西安市围生儿NTDs率自相关函数图

图3 2003年至2015年西安市围生儿NTDs率偏自相关函数图

图4 一阶差分后S1序列时间序列图

2.2.3差分后时间序列绘制自相关函数图和偏自相关函数图

对差分后的时间序列S1绘制自相关函数图，见图5。对差分后的时间序列S1绘制偏自相关函数图，见图6。

图5 一阶差分后S1序列自相关函数图

图6 一阶差分后S1序列偏自相关函数图

2.2.4时间序列模型的识别规则

总体策略遵照“Box-Jenkins方法”识别时间序列模型。首先确定合理的但为尝试性的p、d、q值，然后估计模型中的Φ、θ、σt，严格审查得到的拟合模型，检验该模型的拟合充分性。通过模型参数，获得参数的检验结果。获得模型残差检验、模型拟合优度等指标后，按照如下模型选取原则，选择最佳模型。首先判断自相关函数ACF和偏自相关函数PACF是否都在95%的可信区间内，如果ACF和PACF都是拖尾的，则选择ARMA(p，q)模型；如果ACF拖尾，但是PACF截尾，则选择AR(p)模型；若ACF截尾，但是PACF拖尾则选择MA(q)模型。通过观察图5和图6发现，自相关函数图中自相关系数拖尾，偏自相关函数图中偏自相关系数拖尾，其均落在2倍标准差范围内，且不是一致趋向于零，所以对原时间序列拟合ARMA(p，q)模型。

2.2.5进行Box-Ljung检验并绘制Q-Q图

通过进行Box-Ljung检验，发现X-squared=0.071 189，df=1，P=0.789 6。如果P>0.05说明残差为白噪声，差异无统计学意义，可选择通过拟合优度检验的适宜模型，进行下一步的模型预测。本研究所用ARIMA(0，1，0)模型通过拟合优度检验且残差为白噪声。

Q-Q图和Box-Ljung检验的结果显示，残差符合正态性假设且不相关，则认为模型拟合数据比较充分，可以用来进行下一步预测，见图7。

图7 ARIMA模型的Q-Q图结果

2.2.6 对2016年至2018年西安市围生儿NTDs率的预测

依据模型进行计算，预测2016年至2018年西安市围产儿NTDs率分别为0.17‰、0.16‰和0.16‰，见图8。

注：蓝色线条表示预测值。

2.3使用灰色模型预测

依据2003年至2015年西安市围产儿NTDs发生率建立灰色模型，预测2016年至2018年西安市围产儿NTDs率。

X(0)(k)={26.26，22.89，21.34，17.73，12.79，12.22，13.14，10.11，10，9.02，3.33，2.7，1.8}

弱化算子之后的灰色数据：

X(1)(k)={12.563 846，11.422 5，10.38，9.284，8.345 556，7.79，7.157 143，6.16，5.37，4.212 5，2.61，2.25，1.8}

通过Matlab 7.0软件计算GM(1，1)参数估计值：发展系数a=0.132 802，灰色作用量u=14.574 517。

平均相对误差=16.202 976%，详见表2。

相对精度=83.797 024%

X(k+1)=-97.181 993exp(-0.132 802×k)+109.745 839

表2 灰色预测模型模拟值、残差及相对误差

灰色模型后验差比值检验：

C值=0.721 47/7.756 711=0.093

后验差比值C值属于[<0.35]，GM(1，1)模型预测精度等级为：好。

灰色模型预测2016年至2018年西安市围产儿NTDs率为0.25‰、0.22‰、0.19‰。

2.4两种模型预测值与实际值比较情况

通过与实际值比较发现，ARIMA模型与灰色模型准确度都很高，ARIMA模型的残差平方和为0.015 2，灰色模型的残差平方和为0.009 8，见表3。

表3 ARIMA模型与灰色模型预测值与实际值的比较结果

3讨论

3.1西安市围产儿NTDs率逐年降低

NTDs是目前能够采取措施有效预防的少数出生缺陷之一[5-9]。为了控制NTDs的发生，我国采取了多种措施，如计划怀孕宣传、增补叶酸预防NTDs项目、健康教育、遗传咨询、产前超声、血清学筛查等，综合措施成效显著，NTDs率连年下降。西安市从2009年第四季度开始在全市范围内针对孕前和早孕期妇女免费增补叶酸[10]。NTDs平均发生率由2003年的2.23‰下降到2012年的0.90‰，然后下降到2015年的0.18‰。全国围产儿NTDs率从1987年的2.74‰下降到2011年的0.45‰，2000年至2011年期间，下降幅度超过60%。西安市的下降趋势和全国趋势一致，也与文献报道[5]相关研究结果一致。本研究应用ARIMA模型和灰色模型对2016年至2018年西安市围产儿NTDs率进行了预测，以明确NTDs未来的流行趋势，其均发现NTDs率稳定在低发生率水平。

3.2数学模型间比较分析

本研究将ARIMA模型预测值、灰色模型预测值与实际值进行比较发现，这两种模型预测值与实际值间的残差平方和均较低，可靠性均较高。有研究发现ARIMA模型和灰色模型应用于短期及中期预测效果较好[3]。今经过对ARIMA模型研究及与其他数学模型比较发现，其在拟合动态数据方面具有明显优势[11-12]。近年来，由于NTDs率呈现明显的逐年下降趋势，因此用ARIMA模型对NTDs率进行预测具有很强的必要性和现实意义，对进一步降低NTDs率提供了信息支持。本研究历经2003年至2015年，统计年限长，且样本量巨大，共监测围产儿1 236 937例，出生缺陷儿10 619例，大样本和监测时长使数学模型预测更加可靠，结果更可信。

出生缺陷的危险因素包括环境因素和遗传因素等，一般预测模型往往很难纳入所有的危险因素，但是作为时间序列研究之一的ARIMA模型综合了长期趋势、季节因素和随机误差因素等，通过差分实现数据序列的平稳，具有不受数据类型限制的优点，是一种短期预测效果很好的预测模型[13]。灰色模型具有强化算子、弱化算子、均值生成、级比生成、累加生成、累减生成等多种运算模式对数据进行预处理，使数据本身的规律能够得到显化，具有运算简便、可靠性较高的优点。

3.3综合预防措施对降低出生缺陷率具有重要意义

出生缺陷主要是由遗传因素和环境因素共同作用所致[14]。一级预防是控制出生缺陷的根本策略，防控出生缺陷重点应放在一级干预措施[15]。因此，应加强孕早期保健指导，如加强营养、小剂量叶酸补充、吸烟干预、用药指导、疾病预防、遗传咨询干预、避免接触致畸物质等，督促其接受系统的孕产期保健服务，对预防和减少出生缺陷的发生具有重要意义。叶酸、铁等营养素的补充可以降低多种出生缺陷的风险，因此，积极探索各种主要出生缺陷的一级预防措施是目前面临的重要任务。