杨丽娟 段 禹 张燕杰 操龙挺 潘贵霞 叶冬青,2 王 静△
【提 要】 目的 用动态因子模型提取并比较我国各地区肺结核发病率共同趋势,分析其与人均国内生产总值(GDP)的关系。方法 用Stata 14.0基于动态因子模型分别对我国2004-2015年各地区肺结核发病率标准化值提取共同因子。用SPSS 23.0做滞后相关分析。以共同因子为因变量,人均月度GDP(千元)相应滞后期为自变量做线性回归分析。结果 我国肺结核年均发病率(1/10万)最高的三个省是新疆(178.65)、贵州(146.60)和海南(116.58)。各地区肺结核发病率共同因子均在下降,中部、东北和西部北方地区下降较快。滞后相关分析显示中部和东部南方地区的人均GDP对发病率共同因子的影响滞后二期,东部北方滞后三期,西部南方、西部北方和东北地区滞后一期。发病率共同因子与人均GDP负相关,人均月度GDP每增加1千元,东部南方地区肺结核发病率(1/10万)减少34.4%,北方地区减少32.5%;西部南方地区减少14.9%,北方地区减少75.2%;中部地区减少68.8%,东北地区减少45.3%。结论 我国肺结核发病趋势在降低,且有一定地区差异。人均GDP对肺结核发病率的影响滞后1-3个月。应加大西部南方地区对肺结核防治的经济投入。动态因子模型可应用于肺结核发病数据的分析。
肺结核(tuberculosis)由结核分支杆菌侵犯肺脏所致[1-2]。2015年全世界新发肺结核1040万例,病死140万例。中国是肺结核高发国家之一且发病水平存在地区差异[3-4]。研究发现经济水平对肺结核的发病有一定影响[5-6]。
作为一种传染病,相邻各省的肺结核发病可能有较高相关性。动态因子模型(dynamic factor model,DFM)是处理高维数据的一种统计方法,可从多组相关变量中获取潜在不可观测的共同趋势[7],正逐步应用于医学领域的研究中[8]。考虑到肺结核流行和经济发展的区域差异及影响因素作用的滞后性,本次研究目的是运用DFM分别提取并观察各经济区域肺结核发病率的共同趋势,并确定人均GDP对肺结核发病率影响的滞后期数,进一步分析各区域发病率共同趋势与区域经济因素的关系,为结核病的研究拓宽思路,同时为结核病的防治工作提供一定参考。
1.数据来源 从公共卫生科学数据中心网站查询到全国各省、直辖市及自治区从2004年1月到2015年12月肺结核的月发病人数。从国家统计局网站获取各省同期各年的年末常住人口数和季度GDP数据。以年初和年末人口数的平均值作为当年的平均人口数,用各省每月肺结核的发病人数除以当年平均人口数可得到各省月发病率(1/10万)时间序列。肺结核的年平均发病率是用该期间内的年平均发病人数除以年平均人口数计算。
肺结核发病数据和人口数据无缺失值及异常值,经对比与各年卫生统计年鉴公布的数据基本相符。2004年GDP季度数据有缺失,经查阅相关统计年鉴补充了部分数据,对无法查阅到的缺失值采用线性插值的方法填补。
2.变量选取和数据处理 本研究对区域的划分参照国家统计局经济区域的划分方法[9]。实际操作中东部和西部地区包括省份较多,不能有效提取出共同因子。根据地理位置,东部和西部地区均被进一步分成南方和北方两部分。DFM要求纳入的观测变量有平稳性,经单位根检验,在α=0.05水准下各省肺结核月发病率时间序列均有平稳性(限于篇幅,单位根检验结果未展示)。所有发病率时间序列经标准化处理以便估计因子值。
3.统计分析方法
(1)DFM分析 本研究采用Stata 14.0建立DFM。模型可表述如下:
yt=Pft+Qxt+ut
(1)
ft=Rwt+A1ft-1+…+A2ft-2+A1-pft-p+vt
(2)
ut=C1ut-1+C2ut-2+Ct-qu1-q+εt
(3)
式中,yt是观测到的n个发病率时间序列;ft是不可观测的共同因子,即这n个序列的共同趋势,P是共同因子载荷矩阵;ut是特殊因子;ft和ut分别有p和q阶自回归结构,自回归参数矩阵分别是Ai和Ci,νt和εt是自回归方程的扰动向量;xt和wt是可能纳入方程的外生变量,Qi和Ri是外生变量参数矩阵。
本研究用Stata 14.0建立DFM,对每组观测变量提取一个共同因子,检验水准α=0.05。共同因子和特殊因子的自回归阶数根据贝叶斯信息准则(BIC)估计。
(2)共同因子与人均GDP的滞后相关分析 根据各省市2004-2015年GDP季度值,经计算得到各地区近似人均月度GDP时间序列数据(以季度值除以3作为该季度各月的近似值)。用SPSS 23.0对各地区的共同因子和人均月度GDP作滞后相关分析以确定人均GDP对肺结核发病率趋势影响的滞后期数(每一个月为一期),滞后相关分析的统计量选择Spearman秩相关系数。
(3)共同因子与人均GDP的回归分析 分别以各地区相应滞后期的人均月度GDP为自变量,以发病率共同因子估计值为因变量做线性回归分析。回归分析用SPSS 23.0完成。excel和网络绘图平台被用于本文图形的绘制。
1.肺结核发病率 2004-2015年全国共报告肺结核12345871例,年均发病率为77.11/10万,发病率随时间呈下降的趋势。肺结核在春夏季节发病较多,发病率存在一定地区差异。
2004-2015年间肺结核年均发病率(1/10万)最高的三个省份是新疆(178.65)、贵州(146.60)和海南(116.58)。发病率较高的省份多分布在西部以及中部经济区域,东部区域省份的发病率一般相对较低,低于全国的平均发病水平。
2.动态因子提取结果 把全国分成六个区域,以各地区所有省份的月发病率序列为观测变量,分别对每个地区各提取一个发病率共同因子。以中部地区六省为例,根据BIC信息准则和模型估计效果,发病率共同因子自回归阶数取2,特殊因子自回归阶数取1。对DFM的检验以及模型参数估计的检验,P<0.05(表1),可认为该模型建立效果较好。模型参数估计完成后进一步得到各区域共同因子估计值,各地区发病率共同因子变化趋势见图1。
表1 2004-2015年中部地区肺结核发病率动态因子模型参数估计及检验结果
*:A1,共同因子一阶自回归系数;A2,共同因子二阶自回归系数;P,共同因子载荷;C1,特殊因子一阶自回归系数;*参数检验P<0.05
本研究中所提取的共同因子可反映出各地区肺结核发病率变化的共同趋势。由图1看,各地区共同因子都随时间呈下降趋势,中部、西部北方和东北地区发病率波动最为明显,发病趋势降低最快;东部的南方和北方地区发病趋势变化相似,且相对平稳,南方地区发病率在2009年降低明显,而北方地区则是持续缓慢下降;西部南方地区的发病趋势最平稳,下降不明显。
图1 2004-2015年各地区肺结核发病率共同因子估计值变化趋势
共同因子的波动提示肺结核发病有明显季节特征,且波动幅度在逐年减小。各地区发病率共同因子波动过程中出现峰值的时刻略有差异,西部南方地区发病率的峰值一般略早于其他地区出现。
3.各地区人均月度GDP与动态因子的关系 各地区人均GDP逐年升高,东部的南方和北方地区人均GDP水平最高,东北地区紧随其后,西部南方地区最低,其次是中部地区。
(1)相关性分析 对2004-2015年各地区共同因子估计值和相应的人均月度GDP作滞后相关分析。结果显示,人均月度GDP相对于发病率共同因子有一定滞后性,中部和东部南方地区的人均GDP对发病率共同因子的影响滞后二期,东部北方滞后三期,西部南方、西部北方和东北地区滞后一期。各地区发病率共同因子与人均月度GDP均呈较强负相关(表2)。
表2 人均月度GDP与肺结核发病率共同因子的滞后相关分析结果
*:该滞后期自变量与因变量相关系数首次出现最大值,即自变量相对因变量的滞后期
(2)线性回归分析 观察散点图发现各共同因子估计值与人均月度GDP相应滞后期呈较明显的线性关系。以人均月度GDP(千元)的相应滞后期时间序列为自变量,所提取动态因子为因变量做线性回归分析,进一步观察肺结核发病率共同趋势与经济因素的关系。回归分析结果显示,地区人均月度GDP每增加1千元,中部地区肺结核发病率(1/10万)减少68.8%,东部南方地区减少34.4%,东部北方地区减少32.5%,西部南方地区减少14.9%,西部北方地区减少75.2%,东北地区减少45.3%(表3)。
表3 各地区人均月度GDP(千元)及其与肺结核发病率共同因子的回归分析结果
*:参数检验P<0.05
从共同因子看,各地区肺结核总体发病率随时间呈下降趋势,但不同地区下降速度有差异。这可能和不同地区的发病率水平以及经济发展速度等因素有关。西部南方地区各省份的肺结核发病率处于很高水平,但发病趋势却下降不明显,加强该地区肺结核的防控对降低全国发病水平具有较大意义。
人均GDP水平对肺结核发病率有一定影响[10-11]。本次研究发现地区人均GDP和发病率共同因子呈负相关,这得到先前研究的支持[10-11]。人均GDP对我国中部、东部、东北和西部北方地区肺结核的发病率影响较大。加速这些地区的经济发展,可充分发挥经济因素在肺结核防控工作中的作用。西部南方地区人均GDP对肺结核发病率的影响较小,这可能由于防控措施不当,收益较低也可能是该地区对肺结核防控的经济投入相对较少。研究发现,用于肺结核社会保障的资金占GDP的比例每增加1%,肺结核发病率可减少8.16/10万[12]。对于该地区,在加快经济发展的同时需加大对肺结核防控工作的资源投入,并多关注非经济因素对肺结核发病水平的影响[10,13-14]。
关于肺结核发病情况的研究内容多侧重于发病水平的差异[6]。本研究考虑到临近地区肺结核发病的相关性,用DFM提取了有代表性的综合指标。前期研究用该方法对我国乙类传染病发病率提取了共同因子[8]。所提取的共同因子可作为反向预测模型中的各观测变量的基础,也可作为独立的变量纳入到其他分析方法中。本次研究以前期研究为参考,把提取的共同因子作为新变量进一步分析经济因素对其影响情况,在DFM的应用方面做了更深的拓展。此外,本研究还考虑到了影响因素作用的滞后性,采用滞后相关分析方法确定滞后时长,以影响因素的滞后期为自变量进行回归分析,结果更有科学性。希望本次研究能够对肺结核的分析方法以及防控措施提供一定参考价值。