张辉国,梁韵婷,胡锡健
布鲁氏菌病(简称布病)是一种常见的人兽共患传染病,既影响身体健康,又影响畜牧业发展与社会稳定。目前,人间布鲁氏菌病在我国甲乙类法定报告传染病中发病率及发病人数已升至第8位,是一个不可忽视的公共卫生问题。
在我国,布病多高发于东北、西北及部分华北地区,并呈现出明显的空间聚集性。布病的空间分布格局离不开气候、自然环境及畜牧业等因素。一方面,这些高发地区由于适宜的气候、自然环境等条件形成了发达的畜牧业并进一步影响了布病发病率;另一方面,气候、自然环境等条件又能直接影响布氏菌的存活。目前,学术界围绕布病空间流行病学分析已经开展了广泛的研究,从研究方法看主要涉及全局与局部空间自相关分析[1-3]、时空加权泊松回归模型[4]、地理加权回归模型[5]、贝叶斯时空模型[6],而考虑空间相关性并建立空间回归模型的定量研究较为缺乏。因此,本文提出了贝叶斯LASSO矩阵指数空间模型(BL-MESS),用于探索2020年中国大陆31个省、直辖市、自治区布病发病率与气候因素、自然环境及畜牧业因素的关系,目的在于从关系复杂的众多变量中筛选出关键影响因素,为精准疫情防控策略的制定和实施提供依据。
1.1 资料来源与预处理 2020年全国各地区布病发病率(1/10万)来自2021年《中国卫生健康统计年鉴》,各地区猪、牛、山羊与绵羊年末存栏量(万头)来自2021年《中国农村统计年鉴》,牧草地面积(万公顷)来自各地区第三次国土调查主要数据公报,省面积(万公顷)来自中华人民共和国行政区划统计表,平均气温(℃)、平均风速(m/s)、年降水量(mm)、平均相对湿度(%)、年日照时数(h)、平均气压(hpa)来自于2020年中国气象要素年度空间插值数据集(https://www.resdc.cn/DOI/DOI.aspx?DOIID=96),平均海拔高度来自NASA SRTM3 V4.1 90 m精度和ASTER-GDEM V2 30 m精度DEM数据。以省、自治区、直辖市为地理单元,在Arcgis软件中分别对平均气温等气候因素及平均海拔高度进行汇总并计算出各地理单元的平均值。对平均海拔高度做平方处理后对除布病发病率以外的其他变量进行标准化处理以消除各量纲影响,对布病发病率除以100再进行反正弦平方根变换以满足误差分布的正态性与方差齐性。
1.2 空间自相关分析 全局Moran’sI指数是衡量事物空间要素属性值在全区域内的聚合或离散程度的指标,值域位于[-1,1]之间,当取值大于0时,意味着较大的观测值通常被较大的值所包围,反之亦然,表明存在空间正自相关性;当取值小于0时,意味着较小的观测值通常被较大的值所包围,反之亦然,表明存在空间负自相关性;当取值接近于0时,意味着没有明显的空间分布规律,表明不存在空间自相关性。绝对值越大,意味着空间自相关程度越高。利用Geoda软件计算全局Moran’sI指数并设显著性水平为0.05,通过蒙特卡罗试验对Moran’sI指数进行显著性检验,置换次数为999,当Z>1.96时具有统计学意义。
1.3 相关性分析 Pearson相关系数是衡量两变量间线性相关程度的指标,值域位于[-1,1],当取值为正时表明两变量呈正相关,取值为负时表明两变量呈负相关,而取值为0时表明两变量间无线性关系,同时绝对值越大,相关程度越高。此外,条件数是衡量多重共线性严重程度的一个重要指标,当取值小于100时表明共线性程度较小,取值大于1 000时表明存在严重的共线性,取值为100-1 000时则存在中等程度的共线性。在R软件中应用Pearson相关性分析了解风险因素间的相关性并可视化,同时计算自变量相关矩阵的条件数。
1.4 研究方法 考虑到2020年全国布病数据的空间相关性及模型预测因子的稀疏性假设,本研究构建贝叶斯LASSO矩阵指数空间模型(BL-MESS),同时实现系数估计与变量选择,从一系列潜在发病风险因子中筛选出关键影响因素。
空间自回归模型[7]为:
Y=αWY+Xβ+ε
其中α为空间自回归参数,取值范围为(-1,1),正值表明存在空间正相关性,负值表明存在空间负相关性,取零表明无空间相关性,将该式移项并用exp(ρW)代替In-αW即为MESS模型,进一步可得两空间参数存在对应关系α=1-eρ。
根据LeSage和Pace的设定[8],MESS全模型的贝叶斯分层表示如下
exp(ρW)Y=Xβ+ε,ε~Nn(0n,σ2In)
π(β)~Np(c,T)
π(ρ)~N(0,ζ)
为了实现变量收缩,在MESS模型的基础上结合了贝叶斯LASSO[9],用拉普拉斯密度的正态尺度混合表示代替贝叶斯MESS中系数的多元正态分布。此外,将随机搜索变量选择先验作为空间系数ρ的先验,该处理的目的是在空间相关性不显著时实现空间系数的变量选择,使其退化为经典线性回归模型,同时该处理能使空间系数限制在一个更合理的范围内。综上,BL-MESS全模型的分层表示如下:
exp(ρW)Y=Xβ+ε,ε~Nn(0n,σ2In)
π(ρ)~N(0,ζ)
γ~Ber(0.5)
根据以上模型设定,分别推导两类模型各参数的全条件后验分布,由于ρ的全条件后验分布是非标准的分布函数形式,因此对参数ρ采用Metropois-Hastings抽样,而对其余参数采用Gibbs抽样。根据以上方法在R软件中生成足够多的样本点,将前面一定范围内的样本点作为预热,取后面若干值的平均值作为参数的估计并通过80%置信区间指导变量选择。
2.1 空间自相关分析 使用Queen邻接计算空间权重矩阵,由于海南省在地理上不与任何省份邻接,空间权重矩阵对应行全为0元素,为了避免由此造成的计算问题,令海南与广东、广西相邻。空间自相关分析结果表明2020年布病发病率全局Moran’sI指数为0.529,呈正空间自相关性,具有明显空间聚集性,Z值为5.549,P值为0.001,具有统计学意义。因此,模型的建立需要考虑空间相关性。
2.2 风险因素的相关性分析 由图1可得,气候因素内、自然环境因素内、畜牧业因素内及各因素间均存在多组相关性较高的变量,此外由于空间滞后项为对应变量的线性组合,因此各变量及其空间滞后项不可避免地成为了相关变量。通过计算可得多组变量的Pearson相关系数大于0.9且解释变量相关矩阵的条件数远大于1 000,表明存在严重的多重共线性。而多重共线性的存在会导致参数估计值标准差较大、回归方程不稳定、参数估计值的正负号与实际不符等问题。
2.3 空间回归模型分析 表1为两模型的拟合结果,从系数估计结果初步可得BL-MESS模型筛选了6个变量,除截距项外分别为平均气温、平均海拔高度、牧草地面积占比、山羊与绵羊年末存栏量,而其余变量由于置信区间含零,表明对布病发病影响不显著从而被排除。由显著变量组成的相关矩阵所计算的条件数仅为61.8,小于100说明多重共线性程度小。将该6个变量作为自变量重新拟合MESS模型可得,各系数均显著且拟合优度为0.909,表示布病发病率有91%左右的变异程度可由该6个变量的变异程度解释。拟合结果显示,MESS模型的拟合优度略高于BL-MESS模型,然而由SAR模型与MESS模型空间系数的对应关系可得,MESS模型呈现出空间负自相关性,与实际数据相悖。此外,由图2可得该模型中不少变量系数具有较长的置信区间,表明系数估计精度低、可靠性差。因此,综合各项指标可得,BL-MESS模型具有更高的可信度。
表1 MESS和BL-MESS模型估计结果
图2 MESS与BL-MESS模型下系数的后验平均值和相应的80%置信区间
由于模型包含空间滞后项,模型的回归系数并不能直接表征各变量对布病发病率的影响程度。借鉴LeSage和Pace提出的方法[11],将模型的总体效应分解为直接效应与间接效应。表2结果显示,气候因素中只有平均气温的平均直接效应和平均总体效应显著为正。自然环境因素来看,平均海拔高度各项效应均显著为负,而牧草地面积占比的直接效应、总体效应显著为正。从畜牧业因素来看,仅有山羊年末存栏量的各项效应及绵羊年末存栏量的直接效应显著为正,其余因素均不显著。
表2 BL-MESS模型解释变量的效应分解
过去国内外针对布病的空间分析更多集中于空间聚集性分析,并以此了解疾病在空间上的分布特点与规律,而近年来结合空间信息建立空间回归模型受到越来越多学者的青睐。本研究利用MESS模型在理论与计算上的良好优势并融合贝叶斯LASSO,以中国大陆31个省份为例建立BL-MESS模型,从空间关系角度探索布病发病风险的关键影响因素。
本文通过空间回归模型分析筛选出5个宏观因素,分别为平均气温、平均海拔高度、牧草地面积占比、山羊年末存栏量、绵羊年末存栏量。结果表明平均气温对布病发病有明显促进作用,这种现象主要受多种因素影响:首先,温度是牧草生长发育的重要因素,适宜的温度能提高牧草结实率和产量从而有利于养殖牲畜,为布氏菌提供天然宿主。其次,气温对绵羊等牲畜的繁殖有明显影响,夏季高温使得母羊妊娠受到影响,易引起胚胎死亡,研究表明流产史是影响布病的重要因素,此外病畜流产物会污染草场与水源,促进布鲁氏菌病的传播,而处理流产母羊也是人感染布病的风险因素。另外,平均海拔高度升高能抑制布病发病,这也解释了为何青海和西藏牧草地面积占比较高,而布病发病率却相对较低,这在其他研究中也能得到类似的结论[12]。牧草地面积占比也是布病发病风险的危险因素,在其他条件不变的情况下,牧草地面积占比越高,越能保证牲畜有足够的采食量,从而越有利于布病的繁殖与传播。而山羊、绵羊年末存栏量各项系数的显著性则提示了动物防护的重要性,许多国家经验表明控制畜间布病能有效降低人间布病的发病率。
根据文献对比,BL-MESS模型筛选所得的显著影响因素与已有研究结果一致,而牛、猪年末存栏量的不相关性也得到了印证[13],这进一步验证了该方法能有效识别重要风险因素及无关变量,且该法相对于MESS模型具有显著降低参数标准差、提高估计精度的优势。此外,空间溢出效应反映了邻近地区影响本地区发病率的途径,由结果分析可得低海拔的地区及山羊养殖规模较大的省份有布病外溢的风险,从而为控制布病疫情扩散提供了新方向和理论依据。综上所述,由于布病深受气候因素与畜牧业因素影响,密切关注气候变化与动物防护应是今后布病防护的重要内容。
已有研究表明气象因素对布病发生驱动作用明显[14-15],然而除了平均气温本研究暂未发现其它气候因素与布病发病率的关联。由于现有数据来源限制,目前较难获得地级行政区及以下的布病发病率数据,这可能使得在全国尺度分析气候因素对布病发病率造成一定局限性。
利益冲突:无