刘云霞 刘言训 张冰冰 张洪梅 薛付忠
结核病至今仍是严重威胁人类健康的一个全球性重大公共卫生问题[1]。传染病的发生流行受多种因素的影响,如气候、地理等自然因素,经济、人口密度等社会因素[2]。探明结核病发生流行的影响因素,可为其防控措施的制定提供科学依据。现有研究表明,结核病分布呈现明显的空间分布特征[3-6],这提示不同时间、不同区域的相关影响因素的作用可能具有空间异质性。然而,疾病影响因素研究中多用的传统回归模型,如线性回归模型或logistic回归模型等,均是假定回归系数在所研究区域内具有一致性(即为常数),而未考虑空间非平稳性,因此所得结果只是所研究区域内的某种“平均”,其分析结果并不能全面地反映空间数据的真实特征和影响因素作用的空间异质性。因此,本研究拟应用能够处理空间异质性的地理加权回归(geographical weighted regression,GWR)模型分析结核病登记率与其影响因素间的空间局域关系。研究结果可为结核病的病因学研究及其有效防控提供思路和依据,也可为其他传染性疾病研究提供新思路和新方法。
山东省140个县(区)2005—2008年的结核病登记资料由山东省结核病防治中心提供。本研究选取人口密度、人均GDP、年平均气温、年降水量、年日照小时数、每千人拥有病床数、每千人拥有医生数作为结核病影响因素,数据来源于山东省统计年鉴、山东省卫生统计年鉴和山东省省情资料库等。
1.结核病及其影响因素的地理信息系统(GIS):以电子化的山东省地形图为空间结构数据库,以结核病疫情资料及相关影响因素资料建立属性数据库,以ArcGIS 9.0为数据管理和分析平台,建立结核病及其影响因素的GIS。
2.全局空间自相关分析:采用空间自相关系数Moran’I检验区域结核病发病是否存在空间自相关[7]。Moran’s I 统计量取值范围为(-1,1),I 小于0表示存在空间负相关关系,大于0则为空间正相关关系,I=0代表无空间相关关系。|I|的大小反映空间自相关关系的强弱。
3.GWR模型[8-9]:鉴于空间自相关和空间异质性的存在,不同区域的影响因素对结核病疫情的影响可能不同,其作用方式和强度均可能存在差异,本研究应用SAM v4.0软件构建GWR模型进行局域估计,以获得更好的拟合优度和更高的准确率,阐明影响因素作用的空间分异性。
GWR模型是一种非参数局部线性回归方法,其模型表达式为:
其中(ui,vi)为第i个样本点的地理位置坐标;βj是随空间地理位置变化的回归系数;εi为独立同分布的误差项,通常假定其服从N(0,σ2)。该模型是对一般线性回归模型的扩展,假定其参数(回归系数)是区域地理位置的函数,并随地理位置的变化而变化,通过局域参数估计反映样本对回归方程贡献在空间上的变异,因此其回归结果更加可信。
本研究以结核病登记率为因变量,相关影响因素为自变量,基于加权最小二乘法(weighted least squares,WLS法),通过变化的空间数据窗口估计局部回归参数,构建GWR模型。估计模型参数时,基于“AIC最小”的原则选择适宜的空间权重函数[10]。并将GWR模型结果与基于普通最小二乘(ordinary least squares,OLS)估计的全局回归模型结果相比较,以评价模型的拟合优度。根据Fotheringham等[9]提出的GWR模型评价标准“若GWR模型与OLS模型的赤池信息准则(akaike information criterion,AIC)之差大于3,则表明即使把GWR模型的复杂性考虑在内,其模型拟合效果也比OLS模型好”。同时,本研究借助于ArcGIS9.0将GWR模型分析结果予以图示,具体分析各影响因素对结核病的影响程度及其空间差异。
山东省2005—2008年登记活动性结核病例数分别为37 706、38 880、41 448和43 208例,各年度各县(区)活动性结核病登记率分别为12.79/10万~107.35/10万、16.01/10 万 ~86.52/10 万、17.36/10万~92.10/10万和17.86/10万~114.86/10万。各县(区)结核病全局空间自相关分析结果见表1,可见各年度Moran’I统计量均通过0.05水平的统计学检验。
表1 山东省县域结核病空间自相关分析结果(2005—2008)
根据“AIC最小”原则,本研究选用高斯权重函数进行GWR模型的参数估计。GWR模型与OLS模型拟合优度评价见表2,可见本研究GWR模型与OLS模型相比,其AIC值下降均大于3,R2亦有显著提高。
表2 GWR模型与OLS模型拟合优度比较
本研究2005—2008年GWR模型估计结果差异不大,因篇幅所限在此仅对2008年GWR模型的相关估计结果予以报告。表3列出了GWR模型参数估计值的描述性统计分析结果。
本研究GWR模型估计的R2值介于0.1162~0.3922之间,即该模型最低可解释结核病登记率总变异的11.62%,最高可解释39.22%,其平均值为35.37%,较 OLS模型(R2为0.1350)有了显著提高。不同区域GWR模型的R2差异明显,如中北部东营市和滨州市以及南部临沂市的部分县区的R2均在0.3352以上,即所研究的社会经济、气候、卫生资源配置等影响因素至少解释结核病登记率总变异的33.52%;而中东部的潍坊市、青岛市以及西部的临沂市的部分县区的R2均在0.1798以下,即研究的影响因素最多解释结核病登记率总变异的17.98%,表明相比R2较大的区域而言存在更多的相关影响因素未予以考虑(图1)。
图1 GWR模型决定系数R2的空间分布
图2为GWR模型各参数估计值的空间变异情况。①常数项的空间分布图反映了各影响因素变量取值皆为0时结核病登记率的“基准水平”存在明显的空间变异,说明除本研究考虑的影响因素之外,还存在其他因素的影响。②年平均气温系数估计值的空间分布图显示,中北部和南部的大部分县区的系数估计值为负,表明温度越低,结核病登记率越高;而中部县区的系数估计值为正,表明温度越低,结核病登记率越低。③年降水量系数估计值的空间分布图显示,中部大部分区域和北部2个县区的系数估计值为正,表明降水量越大,结核病登记率越高;而其他县区的系数估计值为负,即这些区域的降水量越小,结核病登记率越高。④绝大多数区域的年日照时数系数估计值为负,即其日照时间越长,结核病登记率越低。⑤人均GDP的系数估计值均为负,表明县区经济水平与结核病登记率呈负相关关系,表明经济水平越高,结核病防控效果越好。⑥人口密度的系数估计值亦均为负,表明其与结核病登记率呈负向关系,这与既往研究结果不一致,但其系数估计值均很小。⑦每千人拥有病床数的系数估计值均为负,即其与结核病登记率呈负向关系,相对来说中东部区域该因素的影响较大。⑧绝大多数每千人拥有医生数系数估计值为负,其中中部区域该因素影响较大,这与每千人拥有床位数系数估计值空间分布相似,在一定程度上说明卫生资源配置好有利于结核病防控。
本研究全局空间自相关分析发现山东省2005—2008年各县区的结核病登记率在空间分布上均具有明显的空间正相关关系,即结核病患者分布存在空间聚集现象,提示空间非平稳性的存在。这在一定程度上归因于不同区域影响因素作用的空间异质性。因此,本研究进一步构建了结核病登记率与相关影响因素的GWR模型,定量分析影响因素变量对结核病发病水平影响的空间变异性。各区域GWR模型的参数估计值的大小及符号反映了各影响因素变量对不同区域的结核病登记率的影响程度和方向。基于2008年数据构建的GWR模型参数估计值空间分布图显示,各区域影响因素系数估计值存在明显的空间差异,表明不同区域各影响因素对结核病登记率的影响存在程度和方向上差异,该结果提示应根据各影响因素的空间特征及其与结核病登记率间的局域关系制定区域化的结核病防控规划和策略,而不能仅根据结核病登记报告结果粗略地制定整体规划、策略和政策。同时,本研究结果显示,GWR模型系数估计值的符号有正有负,说明GWR方法比OLS法更能反映空间非平稳性;GWR模型的R2最小值为11.62%,最大值为39.22%,平均值为35.37%,与OLS模型(R2为13.50%)相比,其更好地反映了结核病登记率的空间变异;GWR模型的AIC(1168.838)比 OLS 模 型 的 AIC(1173.541)小 4.7,根 据 Fotheringham等[9]提出的 GWR模型评价标准也进一步说明GWR模型的拟合优度较全局OLS模型有了明显改善。
表3 GWR模型参数估计值简单描述
GWR模型是空间变系数模型的一种,其是对一般线性模型的扩展,扩展后模型的参数是区域地理位置的函数,可随地理位置的变化而变化,即通过空间数据样本位置的改变来调节空间异质性,进而进行局域参数估计,反映样本对回归方程贡献在空间上的变异,其结果是局域的而不是全局的参数估计,能够探测空间数据的空间非平稳性,其回归结果较全局回归更加可信[10-11]。该方法可深入分析疾病分布空间聚集性的根本原因,为进一步制定适宜的结核病防控策略提供指导依据。
[1]World Health Organization.Global tuberculosis control:epidemiology,strategy,financing.WHO report 2009.Geneva:WHO,2009.
[2]李立明.流行病学.6版.北京:人民卫生出版社,2007:238-258.
[3]Nunes C.Tuberculosis incidence in Portugal:spatiotemporal clustering.Int J Health Geogr,2007,6:30.
[4]Jia ZW,Jia XW,Liu YX,et al.Spatial analysis of tuberculosis cases in migrants and permanent residents,Beijing,2000-2006.Emerg Infect Dis,2008,14(9):1413-1419.
[5]Randremanana RV,Sabatier P,Rakotomanana F,et al.Spatial clustering of pulmonary tuberculosis and impact of the care factors in Antananarivo City.Trop Med Int Health,2009,14(4):429-437.
[6]唐益,龚德华,白丽琼,等.湖南省2003—2011年活动性肺结核患者登记的空间分析.中国防痨杂志,2012,34(12):764-767.
[7]姜庆五,赵飞.空间自相关分析方法在流行病学中的应用.中华流行病学杂志,2011,32(6):539-546.
[8]Leung Y,Mei CL,Zhang WX.Statistical tests for spatial nonstationarity based on the geographically weighted regression model.Environment and Planning,2000,32(1):9-32.
[9]Fotheringham AS,Brunsdon C,Charlton M.Geographically Weighted Regression:the analysis of spatially varying relationships.West Sussex:John Wiley &Sons Ltd,2002.
[10]苏方林.中国R&D与经济增长的空间统计分析.上海:华东师范大学,2005.
[11]王远飞,何洪林.空间数据分析方法.北京:科学出版社,2007.