孙海泉肖革新郭 莹于石成△马家奇△
流行病生态学研究的统计分析方法*
孙海泉1肖革新2郭 莹3于石成1△马家奇1△
1.一般情况
流行病学生态学研究(ecological study of epidemiology)[1]是一种描述性研究,它是在群体水平上研究某种暴露因素与疾病之间的关系,以群体为观察和分析单位,通过描述不同人群中某因素的暴露情况与疾病发生或死亡频率,分析该暴露因素与疾病之间的关系。
流行病学生态学研究可应用常规资料或现成资料(如数据库)来进行研究,因而节省时间、人力和物力,可以很快得到结果。生态学研究对病因未明的疾病可提供病因线索,以进行深入研究,这是生态学研究最显著的优点。当研究的暴露因素在一个人群中变异程度很小,很难测量其与疾病的关系,这种情况下,更适合采用多个人群比较的生态学研究。在疾病监测工作中,可应用生态学研究来估计监测疾病的发展趋势,为制定疾病预防与控制的策略和措施提供依据。
流行病学生态学研究最主要的缺点是生态学谬误,它是由于生态学研究以各个不同情况的个体“集合”而成的群体为观察和分析单位,以及存在的混杂因素等原因而造成研究结果与真实情况不符。生态学研究在进行两变量之间的相关或回归分析时采用的观察单位为群体,暴露水平或疾病测量准确性相对较低,且暴露或疾病因素是非时间趋势设计的,其时序关系不易确定,故其研究结果不可作为因果关系的有力证据[2]。
2.生态学研究发展概况
生态学(ecology)是研究有机体与其周围环境相互关系的科学[3]。环境包括非生物和生物环境,前者如温度、可利用水、风等,而后者包括同种或异种其他有机体。当代生态学研究把人类社会与自然环境的关系包括在其研究范畴之内,用社会-经济-自然复合生态系统的观点,研究社会面临的问题,愈来愈注意与群体相结合,与社会发展和生产实际的需要相结合,并成为政府的决策和行动的基础。生态学研究在如下几方面的进展值得我们注意。
(1)研究设施和手段的现代化
生态学研究的手段正在发生新的变化,除了用一些能准确地获取信息的手段,如遥感、地理信息系统、全球定位系统(3S系统),连续、精密观测仪器的使用外,还强调应用模拟和模型方法来研究大尺度、多因素的大系统。
(2)研究平台从分散走向网络
由于研究对象和任务的变化,生态学的研究是在相对孤立的局部地区研究的基础上逐步向着区域化和全球化发展并形成网络进行综合与对比的。我国在经过SARS之后,已经在全国范围建立了良好的疾病控制信息系统。这对疾病生态学研究有很大的实质性意义。近几年,我国学者通过研究发现了SARS的爆发与野生动物的贩卖以及当地文化与人类流动之间的相互关系。由证据分析得到SARS可能是从广东以野生动物为卖点的餐厅中的果子狸上传播来的[4]。
(3)学科发展与融合
生态学的研究是在相对孤立的局部地区研究的基础上逐步向着区域化和全球化发展并形成网络进行综合与对比的。在此过程中,与数学、化学、物理、流行病学等基础学科交叉促进了数学生态、化学生态、物理生态及疾病生态学的发展,近几年,疾病生态学研究在艾滋病的研究中广泛利用,而且还取得大量的成果。国外学者也出版了疾病生态学研究的专著。另据科学时报2006年11月6日报道“据美国国务院国际信息局消息,美国国家卫生院(NIH)10月27日宣布,美国国家科学基金会(NSF)和NIH将联合资助8个属于感染性疾病生态学研究计划的项目”[5]。从而可以看出,尽管生态学研究有其局限性,但就其应用已有的监测数据和与现代统计方法、空间统计方法的结合,生态学研究在研究疾病危险因素或病因上将起到更重要的作用。
生态学研究分析的数据总量通常比较大,数据分析处理的方式也比较多。统计分析方法主要包括传统的统计分析方法和空间统计分析方法。
1.传统的统计分析方法
(1)单因素分析
生态学研究其分析单位为群体,如区县、市或省(直辖市),在群体水平上收集或监测发病、患病和死亡,以及危险因素等资料,如空气污染指标、气象指标和社会经济发展指标,构建疾病与危险因素的关联关系。常用的单因素分析有t检验、F检验[6]、Mann-Whitney检验[7]和相关分析等。黎新宇等[8]在北京市气象因素与霍乱发病关系的生态学研究中,对北京市1996-2004年各月平均气温、气压、风速、日照时数、降水量5项气象因素与霍乱平均月发病率分别做单因素相关分析,结果表明:霍乱发病与气温、降水量均呈显著正相关(P<0.01);与气压呈显著负相关(P<0.05);与风速呈负相关。
(2)多因素分析
①.对应分析(correspondence analysis) 对应分析又称相应分析,主要用于分析二维数据矩阵中行因素和列因素间的关系。对应分析的基本原理是:对二维数据矩阵进行适当的变换(即对应变换),使变换后的数据的行与列是相对应的,从而可以同时对行和列进行分析,以便发现行列因素间的关系。实际上它是将R-型因子分析与Q-型因子分析相结合,对指标与样品同时进行分类的一种多元统计分析方法。李宝红等[9]通过对1982年部分城市男性居民胃癌组死亡率与对应这些城市男性居民的部分食品摄入量之间进行对应分析,发现人们的饮食,特别是南方饮食习惯的男性居民,应适当减少米类特别是精制米类的摄入,而增加面类、植物油的摄入,多吃清淡的食物,减少食盐的摄人量,从膳食角度预防胃癌的发生,降低胃癌的死亡率。
②.回归分析(regression analysis) 回归分析是处理2个及2个以上变量间线性依存关系的统计方法。其中,2个及2个以上自变量对1个因变量的数量变化关系,称为多重线性回归分析,表现这一数量关系的数学公式,称为多重线性回归模型。多重线性回归的解释变量x1,x2,…,xp是确定性变量时,较为普遍,一般用于预测研究;当解释变量为随机变量时,一般用于变量之间关系的探索性研究。尤爱国等[10]在气象因素与发热伴血小板减少综合征(FTLS)发病关系的生态学研究中,通过对发热伴血小板减少综合征有影响的因素(气压、温度、湿度、风速等)采用逐步回归法筛选,结果表明,气温对FTLS发病有重要影响。扬进等[11]采用Poisson回归分析对伤寒Vi多糖菌苗接种率与甲型副伤寒爆发的关系进行生态学研究,结果表明,甲型副伤寒爆发只与Vi疫苗接种率有显著的正相关关系,而与Vi疫苗使用时间无相互关联。
③.主成分分析(principal components analysis, PCA)主成分分析是将多个变量通过线性变换,选出较少个数的重要变量,以达到压缩变量的一种方法。又称主分量分析。它首先是由Karl Pearson从非随机变量引入的,尔后H霍林特将此方法推广到随机向量的情形。在生态学研究中,为了全面分析问题,往往提出很多相关的变量(或因素)。但是,在用统计分析方法研究多变量的问题时,变量个数太多就会增加所研究问题的复杂性。另外,变量之间是有一定的相关性,当两个变量之间有一定相关关系时,可以解释为这两个变量反映某个问题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些变量在反映问题的信息方面尽可能保持原有的信息。刘桂然等[12]应用主成分分析对高血压病患者左心房收缩功能影响因素进行分析,结果表明,影响高血压患者的左心房射血力的各因素之间存在严重的多重共线关系,用建立的7个主成分代替原来的19项指标,大大简化了评价指标。
④.聚类分析(cluster analysis)聚类分析也称群分析、点群分析,它是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同类的一种多元统计分析方法。进行聚类分析时,所研究的样品或指标(变量)之间存在程度不同的相异性(亲疏关系),聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。可以运用一定的方法将相似程度较大的数据或单位划为一类,划类时关系密切的聚合为一小类,关系相对疏远的聚合为一大类,直到把所有的样品(或指标)聚合完毕,这就是聚类的基本思想。聚类分析根据样品相似度的不同和聚类原则的差异,聚类方法是多种多样的,常见的有系统聚类、动态聚类、最优分割法和模糊聚类等。王春晓等[13]根据颈椎病患者的临床表现设计调查表,收集575例颈椎病患者的症状、体征、舌脉等信息,采用聚类分析和主成分分析法对调查表中98个常见症状进行聚类分析。提示聚类分析和主成分分析用于中医证型的分类研究具有一定科学性。
⑤.时间序列分析(time series)
ARIMA模型(autoregressive integrated moving average)又称Box-Jenkins模型,其思想是将自回归与时间序列中的移动平均相结合[14]。潘浩等[15]应用SPSS18.0软件对上海市2005-01/2010-06手足口病月发病率进行ARIMA模型建模拟合,并与实际发病率进行比较。结果表明,ARIMA(1,0,0)(0,1,0)模型能很好地拟合既往时间段的发病序列,对2010-01/06的预测值符合上海市该病的发病率变动趋势,2011和2012年上海市预测手足口病的发病率分别为235.32/10万和294.59/10万。
近年来,广义相加模型(generalized additive mod-el,GAM)[16]被广泛应用于气象因素与健康关系的研究中,其采用非参数拟合模型,并利用可加性原理,对影响温度等其他因素的混杂因子进行控制,调整长期趋势、季节趋势和短期波动等,具有线性模型所不具备的灵活性。李芙蓉[17]等对重庆市疾病预防控制中心提供的2003年1月1日至2007年12月31日的某县居民每日死亡资料和中国气象局提供的相应期间气象监测资料,采用时间序列的Poisson广义相加模型,在控制长期趋势、季节趋势、短期波动及双休日效应等混杂因素的基础上,分析气温、相对湿度、气压、降雨量、风速等气象因素及空气污染指数与居民每日死亡的关系。结果表明,气温每上升1℃,超额死亡率为12%;其他混杂因子中,相对湿度每下降1%,超额死亡率为4%;空气污染指数每上升1个单位,超额死亡率为0.6%。
2.空间统计分析方法
传统统计分析方法是建立在样本独立与大样本两个基本假设之上的,对于空间数据,这两个基本假设前提通常都得不到满足。空间上分布的对象与事件在空间上的相互依赖性普遍存在,这使得大部分空间数据样本并不独立,即不满足传统统计分析的样本独立性前提,因而不适用于传统统计分析。在传染病研究中,各种空间统计分析方法的运用为疾病的空间聚集性、影响因素的探索及疾病的预防控制提供了更有力的研究方法和工具。
空间统计分析,即地统计学(geostatistics),亦称地理统计学,是以区域化变量理论为基础,以变异函数(variogram)为基本工具,研究分布于空间并呈现出一定的随机性和结构性的自然现象的科学,是现代计量地理学中一个快速发展的方向和领域。该方法可研究某些变量(或特征)的空间分布特性,并对其进行最优估计。在模拟研究对象的离散性、波动性或其他性质时,也可应用空间统计分析的理论与方法[18]。
(1)空间统计分析方法的统计描述:
由于资料的特殊性,传统的统计描述指标与图表不再适用。空间统计分析方法的统计描述主要包括中心化指标、密度指标、凸壳(convex hull)与标准差椭圆(standard deviation ellipse)等。与传统的统计描述方法相似,中心化指标分集中和离散趋势两部分。集中趋势的测量指标包括点集分布的平均中心、中位数中心和欧几里得中心等;离散性的空间测度常用标准距离和相对距离度量;而凸壳与标准差椭圆则类似于传统统计学中统计图,能够直观显示病例(或卫生事件)的空间分布状况。类似于传统统计学中的统计描述指标,均数中心与标准差距离适用于病例(或卫生事件)横坐标(x)与纵坐标(y)均呈正态分布的情形;而中位数中心与四分位数间距距离适用于病例(或卫生事件)横坐标(x)或纵坐标(y)呈偏态分布的情形。调和均数则要求病例(或卫生事件)横坐标(x)与纵坐标(y)均服从正态分布[19]。
(2)空间统计分析方法的统计推断:
空间统计分析的方法包括空间自相关分析、空间分类分析(空间聚类分析、空间聚合分析和判别分析)、多变量统计分析(含主成分分析、主因子分析、变量聚类分析和采样点聚类分析)、空间插值分析、空间结构分析以及空间模拟等,其核心是认识与地理位置相关的统计关系[20]。以下主要介绍在流行病研究中常用的方法。
①空间自相关分析(spatial auto-correlation analysis)
空间自相关是指空间位置上越靠近的事物或现象越相似,即事物或现象具有对空间位置的依赖关系。在度量空间自相关时,需要解决地理空间结构的数学表达,定义空间对象的相互邻接关系[21]。与经典统计学中的相关相比,空间自相关的差别在于处理的数据资料不同。空间自相关指同一属性值在不同空间位置上的相互关系;而经典的相关是指两个或多个属性变量之间的相互关系及密切程度。计算空间自相关的方法通常分为全局性和局部性两种类型,最为常用的方法是Moran’s I、Geary’s C、Getis[22]以及半变异图与空间自相关系数图等。
a.全局空间自相关分析全局空间自相关(global spatial autocorrelation)主要用于描述整个研究区域的空间对象某一属性取值的空间分布状态,以判断该对象在空间上是否存在聚集性。常用的分析指标包括Moran’sI与Geary’s C统计量[23],用于描述疾病整体分布状况,并以此来判断是否存在空间聚集性。Moran’sI统计量的取值在-1~1之间,I>0表示研究对象之间存在空间正相关,I<0表示存在空间负相关。Geary’s C统计量的取值介于0~2之间,其越接近于0表示观察变量的空间正相关关系越强,越接近于2则表示负空间相关关系越强,越接近于1表示数据越有可能随机分布,即不具有空间相关性。范新生等[24]运用Moran’sI和Getis统计量对我国2003年爆发的SARS疫情的省级空间分布格局进行了分析,结果表明:SARS疫情的空间分布在疫情发源阶段以及新暴发中心形成阶段具有很强的空间自相关性。
b.局部空间自相关分析全局空间自相关是对整个研究空间的总体描述,仅对同质的空间过程有效。然而,由于环境和社会因素等外界条件的不同,空间自相关的大小在整个研究空间,特别是在范围较大的研究空间上并不一定是均匀同质的,其可能随空间位置的不同有所变化,甚至可能在一些空间位置发现正空间自相关,而在另一些空间位置发现负空间自相关。这种现象称为空间异质性(spatial heterogeneity),在全局空间自相关分析中是无法发现的,而局部空间自相关统计量则可对其进行识别。局部空间自相关分析的指标主要包括局部Moran’sI统计量、局部空间自相关统计量(local indicators of spatial association,LISA)和局部Getis统计量(local getis)等。斐小琴等[25]采用R、GeoDa等软件对内蒙古自治区2004-2005年布鲁氏菌病资料进行的空间分布模式等分析,其局域系数统计显示,布鲁氏菌病发病率和空间自相关系数大小存在一定的空间统一性和差异性。
②空间插值分析
空间插值分析是指根据一组已知的离散数据或分区数据,按照某种数学关系推求其他未知点或未知区域的数据分析过程,可分为整体插值和局部插值方法两类。整体插值方法用于研究区所有采样点的数据,以进行全区特征拟合,主要包括边界内插值法、趋势面分析、变换函数插值等。局部插值方法则是用邻近的数据点来估计未知点的值,能弥补整体插值方法的缺陷,可用于局部异常值,且不受插值表面上其他点的内插值影响。主要包括泰森多边形、距离倒数插值、样条函数插值方法及克里格(kriging)插值法[26]等。
Kriging插值法[27]假设任意一个测量值是一个自由函数(或自由过程,或随机场)的一次实现,并将任何变量的空间变化表示成3个部分:结构分量,空间关联分量和白噪声。克里格主要是使用样点周围值来进行预报[28]。协和克里格及在此基础上演化而来的指示克里格、Cokriging等,则提供点在空间区域上的优化插值,用户可以选择最恰当的变差模型来进行插值。张治英等[29]运用普通克里格的变异函数对江宁县江滩钉螺分布的空间自相关性进行了分析,结果显示2000年江宁县江滩钉螺分布呈空间自相关性,其变异函数为球型模型,且距离<0.0301时,钉螺空间分布变异与距离有关,并以此为基础用普通克里格法建立了江宁县江滩钉螺分布预测图。
③空间回归分析
空间回归分析技术是地理相关性研究及生态学分析的主要方法,其可用于探讨估计值的空间关系,而地理学对象中的空间依赖性和空间异质性使得一般回归方法不宜用于空间分析。其有联立自回归模型(simultaneous autoregressive model)、空间移动平均模型(spatial moving average model)和条件自回归模型(conditional autoregressive model)等三种特殊形式[30]。此分析方法主要从地理(或生态学)的角度研究疾病发病(或患病、死亡等)的空间分布与环境因素(如空气、水、土壤等)、社会经济因素间的关系。
④流行病学标点地图法[19]
a.以密度为基础的流行病学标点地图的空间推断方法。此类方法又称一阶效应,它描述的是某个参数均值的总体变化性,即全局的趋势。此类方法主要包括病例(或卫生事件)空间分布状态的统计推断、空间分布的概率函数和核密度估计法。病例(或卫生事件)空间分布状态的统计推断、空间分布的概率函数能够反应疾病的空间分布状态,而核密度估计法则通过核密度插值揭示病例(或卫生事件)在整个研究区域内的分布状况。
b.以距离为基础的流行病学标点地图的空间推断方法。此类方法能够揭示病例(或卫生事件)的分布是随机的、聚集的、还是规则的,而且能够揭示空间点数据在不同空间尺度上的分布特征,描述两类病例(或卫生事件)分布模式的关系及随时间的演化规律。此类方法主要包括最邻近距离指数法、Ripley’s K函数方法及Ripley’s K函数方法的扩展方法(二元模式与空间时间模式)。最邻近距离指数法能够从总体上反应疾病(或卫生事件)的分布是否具有空间异质性;而Ripley’s K函数方法能够分析各种尺度上病例(或卫生事件)的聚集规模,能在更精细的水平上反映病例(或卫生事件)的空间分布特性。
c.以“热点”分析为基础的流行病学标点地图的空间推断方法,又称空间聚类分析,是一类发现病例(或卫生事件)高发区域的方法。结合GIS软件,可以直观地揭示疾病的空间分布热点。在流行病学领域,这对于疾病的预防及控制措施的制定具有重要的指导意义。研究空间“热点”的主要方法有:最邻近空间系统聚类、调整危险因素的最邻近空间系统聚类等。最邻近空间系统聚类分析发现研究区域内病例(或卫生事件)的“热点”区域;而调整危险因素的最邻近空间系统聚类分析则能探索去除人口密度等协变量后“真正”的空间分布“热点”。
目前,传统统计分析方法在流行病学中的应用已非常成熟,但空间统计分析在流行病研究中的应用主要集中于血吸虫病、疟疾等疾病,其他方面尚不深入。究其原因,是由于长期以来在我国的流行病学研究中缺乏相应的空间理论、方法和技术手段,长期以来积累的数据缺乏空间属性,因而限制了空间统计分析在相关流行病研究中的深入运用。随着空间信息基础设施的建设和发展,快速获取和掌握大量的自然、生态、环境及社会经济等数据信息已经成为可能;加之一些流行病空间数据库的构建,这些都从客观上促进了空间统计分析在流行病学研究的应用,同时也为流行病学理论研究及预防控制提供了有力的工具及技术支持。
1.李立明.流行病学.第6版.北京:人民卫生出版社,2010,51-54.
2.Rothman KJ.Modern Epidem iology Third Edition.Lippincott W illiams&Wilkins,2008.
3.孙儒泳,李庆芬,牛翠娟,等.基础生态学.高等教育出版社,2003.
4.灵辉,刘于飞,陈秋霞,等.一例与果子狸相关的SARS病例调查研究.中国人兽共患病杂志,2005,21(9):827-828.
5.李文华.我国生态学研究及其对社会发展的贡献.生态学报,2011,3l(19):5421,5428.
6.郭志荣,蒋国雄,陆启新.基本消灭血吸虫病后不同时期的结肠、直肠癌死亡情况的生态学研究.江苏医药,2006,32(8):785-787.
7.徐飚,俞顺章,李旭亮,等.乳腺癌与围产期激素水平的生态学研究.中国公共卫生,2001,17(11):983-985.
8.黎新宇,王全意,贾蕾,等.北京市气象因素与霍乱发病关系的生态学研究.中国自然医学杂,2006,8(3):201-202.
9.李宝红,董时富,孙振球,等.对应分析在生态学研究中的应用.中华流行病杂志,2007,28(9):914-917.
10.尤爱国,康锴,王海峰,等.气象因素与发热伴血小板减少综合征发病关系的生态学研究.中国人兽共患病学报,2012,28(9):898-901.
11.扬进,董柏省,龚健,等.伤寒Vi多糖菌苗接种率与甲型副伤寒爆发的生态学研究.中国热带医学,2001,8(11):1919-1920.
12.刘桂然,吴长刚,王岳恒,等.高血压病患者左心房收缩功能影响因素的主成分回归分析.中国卫生统计,2011,28(5):580-584.
13.王春晓,谢兴文,李宁,等.聚类分析与主成分分析在颈椎病中医证型规范化研究中的应用.中国组织工程研究与临床康复,2011,15(43):8083-8088.
14.王振龙.时间序列分析.北京:中国统计出版社,2002,181-192.
15.潘浩,郑杨,吴寰宇,等.ARIMA模型预测上海市手足口病发病趋势.预防医学情报杂志,2011,27(6):408-411.
16.Hastie T,Tibshirani RJ.Generalized additivemodels.London:Chapman and Hall,1990.
17.李芙蓉,毛德强,李丽萍.广义相加模型在气温对人群死亡率影响研究中的应用.环境与健康杂志,2009,26(8):704-707.
18.侯景儒.中国地质统计学(空间信息统计学)发展的回顾与前景.地质与勘探,1997,33(1):53-58.
19.高杰.流行病学标点地图统计分析方法体系的研究.山东大学硕士学位论文,2009.
20.冯益明,唐守正,李增元.空间统计分析在林业中的应用.林业科学,2004,40(3):149-154.
21.张学良.探索性空间数据分析模型研究.当代经济管理,2007,29(2):26-29.
22.Getis A,Ord JK.The analysis of spatial association by use of distance statistics.Geog Anal,1992,24(3):189-206.
23.Getis A.Reflections on spatial autocorrelation.Reg Sci Urban Econ,2007,37(4):491-496.
24.范新生,应龙根.中国SARS疫情的探索性空间数据分析.地理科学进展,2005,20(3):6-9.
25.蒋敏,李晓松,冯子健,等.四川省HIV/AIDS空间自相关分析.现代预防医学,2008,35(22):4329-4331.
26.邬伦,刘瑜,张晶,等.地理信息系统——原理、方法和应用.北京:科学出版社,2000,178-191.
27.Cressie,Noel.The origins of Kriging.Mathematical Geology,1990,22,239-252.
28.Cressie,Noel.Spatial prediction and ordinary kriging.Mathematical Geology,1988,20:405-421.
29.张治英,徐德忠,彭华,等.普通克里格法预测江宁县江滩钉螺分布.中国寄生虫学与寄生虫病杂志,2004,22(3):170-172.
30.Lance AW,Carol AG.Applied spatial statistics for public health data. New Jersey:W iley,2004,274-313.
(责任编辑:刘 壮)
淮河流域癌症综合防治项目(基金号:1310800003)
1.中国疾病预防控制中心公共卫生监测与信息服务中心(102206)
2.国家食品安全风险评估中心
3.中国医学科学院,北京协和医学院公共卫生学院
△通信作者:于石成,E-mail:shicheng_yu@hotmail.com;马家奇,E-mail:majq@chinacdc.cn