广西医科大学公共卫生学院流行病与生物统计学系(530021)
覃青连 李峤 颜星星 林越东 成 曼 周红霞 唐咸艳△
空间流行病学是流行病学的一门新兴交叉应用分支学科。空间流行病学遵循地理学第一定律和地理学第二定律,兼顾流行病学资料的空间自相关性和空间异质性等空间属性特征,常用于疾病制图、时空分布格局识别、聚集性探测、格局成因分析、流行风险溯源、传播路径追踪、时空预测预警模型、时空风险评估和卫生服务空间可及性评价等领域[1-4]。近年来,随着数据时空理念的渐进增强,时空数据获取可及性的稳步提升和时空统计分析方法的快速普及,以数据驱动和模型驱动为核心的空间流行病学实践应用方兴未艾。然而,以问题驱动为导向的空间流行病学学科理论与方法体系发展相对滞后。空间病例对照研究是空间流行病学学科理论与方法体系的重要组成部分,迄今虽未系统科学阐明但已初具雏形。本文将对空间病例对照研究的理论设计要点、统计分析方法、实践应用进展和发展趋势展望等进行简要综述。
空间病例对照研究与传统病例对照研究相比,其最大特点是考虑了研究对象的空间自相关性和空间异质性等空间属性特征,并充分利用了地理位置提供的空间信息。空间病例对照研究既是对传统病例对照研究的补充,也为空间流行病学提供理论方法及技术支撑。
空间病例对照研究的原理示意图如图1所示:基于研究区域内某目标疾病或卫生事件的主要结局测量指标(如患病率),通过聚集性探测将研究区域分为热点的病例区域和冷点的对照区域,或通过空间风险评估将研究区域分为高风险的病例区域和低风险的对照区域,或通过空间分层将研究区域分为不同等级水平的层次,在识别其空间分布格局后,空间抽样抽取一定数量的病例区域作为病例组和一定数量的对照区域作为对照组,收集并比较病例组与对照组中各区域研究因素的暴露比例差异,进而利用空间统计推断区域研究因素与空间格局间的关联,为深入探讨空间格局的形成机制提供参考。空间病例对照研究的分析单元既可是聚合的地理区域单元,也可是具有详细地理位置信息的个体对象单元,本文基于地理单元阐述空间病例对照研究的基本原理。
图1 空间病例对照研究的设计原理示意图
理论上,空间病例对照研究可应用于疾病空间格局的识别及成因(病因)研究、空间风险评估、空间趋势预测等领域范围。其适用于具有空间(地理)位置信息,且具有空间相关性和空间分异性特征的病例对照研究资料。
1.病例选择
基于文献报道,目前空间病例对照研究的病例来源和选择方式主要有三种。第一种方式与传统病例对照研究一样,从医院、社区或疾病登记注册系统中选择患有某种特定研究疾病的对象作为病例,并用GIS工具直观可视化病例的空间分布特征,但未考虑病例的详细地理位置信息和空间属性,也未考虑病例之间的空间自相关性和空间分异性。
Murakami R[5]以医院确诊的结核病患者为病例组,以非结核病患者为对照组,对数据进行探索性空间分析并可视化结核病的空间分布特征。Parra MCP[6]从传染病信息报告系统中选择登革热病例为病例组,阴性者为对照组,使用GIS专题地图绘制不同时段病例组与对照组的空间分布格局。此类空间病例对照研究中的病例选择理论上足以代表总体,且容易实施。但与传统病例对照研究一样,在设计上未考虑研究对象的空间属性特征,仅在分析阶段时可视化研究对象的空间分布特征,空间病例对照研究的设计理念体现不足。
第二种与第一种方式相似,但采集了病例的居住地址和经纬度等位置信息进行疾病地理编码(geo-coding),实现病例数据的空间化,但仍未考虑病例间的空间依赖性。Shao Y[7]以肺癌患者为病例组,以结直肠癌患者为对照组,采集研究对象的居住地址并转化为经纬度,探索肺癌发病风险的空间格局及其局域影响因素。Musti M[8]以肿瘤注册登记系统的恶性间皮瘤患者为病例组,从出生和死亡登记系统中随机选择非恶性间皮瘤患者为对照组,采集研究对象整个生命周期中的居住地址信息和居住时间,然后估计病例组和对照组的风险值。这类空间病例对照研究病例的选择方式尽管采集了病例的地理位置信息,但在设计阶段并没有充分基于研究对象的地理位置信息来选择病例,也没有考虑研究对象的空间自相关性和空间依赖性等空间属性特征,仅在统计分析时利用了地理位置信息,这不是真正意义上的空间病例对照研究。
第三种病例选择方式建立在传统病例对照研究设计的基础上,首先采用局部空间自相关分析、空间扫描统计或空间聚类分析方法探测疾病的空间聚集性,确定空间发病热点区域(病例)和空间发病冷点区域(对照),或根据疾病空间风险大小将研究区域分为高风险地区(病例)和低风险地区(对照),或根据发病强度将研究区域划分为不同等级水平的空间层次,并测量研究对象间的空间权重和空间依赖性,然后通过空间抽样或经典抽样从病例组地区中选择病例进行空间病例对照研究的研究设计[9]。
Osei FB[10]采用空间扫描统计量探测腹泻发病的空间聚集区,选择高风险区域(RR>1)的腹泻患者为病例组,低风险区域(RR<1)的腹泻患者为对照组,运用空间logistic回归模型探讨影响腹泻病空间分布格局的区域因素。Chang BA[11]采用Getis G统计量探测性传播疾病患者的区域发病风险,以高风险区域的病例为病例组,低风险区域的病例为对照组,采用空间logistic回归模型查找影响性传播疾病空间分布格局的危险因素。这种病例的选择方式在设计和资料分析时都考虑了研究对象的空间自相关性和空间异质性等空间属性特征,同组别内的研究对象来源于相同发病风险区域且具有某些相同的地理危险因子,体现了空间病例对照研究的设计理念。
2.对照选择
空间病例对照研究设计中的对照选择方式主要有两种。第一种是确定病例后,基于空间相似性原理在病例周围选择相同区域或相邻区域内的不患有目标疾病者为对照。一般而言,学者通过绘制一定带宽的缓冲区来界定具有空间相似性的相邻区域范围大小。
Kim WH[12]为探索H5N8亚型高致病性禽流感空间分布格局的潜在危险因素,选择受感染农场作为病例组,在病例农场周围3 km以内选择不受感染的农场为对照组。Bi Q[13]在探讨霍乱发病风险空间分异的研究中,选取医院腹泻患者为病例组,采用GPS采集研究对象的居住地址,然后从随机数字表中选择一个数字,根据该数字选择距离病例居住地址入门右侧的家庭户为对照,以此方法为每个病例选择4个对照。此类对照的选择方式相似于传统病例对照研究的地区匹配,将对照与病例限定在一定空间范围内,可均衡某些区域因素对病例和对照的影响。然而,地区匹配多见定性考察研究对象间的空间自相关特征,量化需加强。
第二种对照选择方式是基于空间风险评估,将研究区域分为高风险区域、低风险区域或不同风险层次后,然后通过空间抽样或经典抽样选择高风险区域为病例组,低风险区域为对照组。Huang L[14]在肺结核时空聚集性及地理相关因素研究中,采用时空扫描统计量确定肺结核的时空聚集区后,选择高风险聚集区的肺结核患者为病例组、选择低风险非聚集区的肺结核患者为对照组。该对照选择方式考虑了研究对象的空间属性特征,对照组内个体来源于相同风险区域。对照组与病例组分别来源于不同的风险区域,体现了空间病例对照研究的设计理念。
3.样本量估算
空间病例对照研究常见以数据驱动的分析研究为主,少见以问题驱动、有样本量估算的设计研究,罕见融入空间数据特征、体现空间设计理念、有空间样本估算的问题驱动研究。Ramis R[15]在儿童癌症的空间分布格局及影响因素研究中,以肿瘤注册登记系统中2114例儿童癌症患者为病例组,以出生登记系统中的12684例不患有癌症的儿童为对照组。这类空间病例对照研究在设计时没有进行样本量估算,将研究地区特定时期内所能收集到的全部病例纳入分析,至于所用的样本量是否符合检验效能的要求则没有进行分析。Saldiva SRDM[16]在早产与空气污染水平关系的空间病例对照研究中,基于传统病例对照研究的样本量估算公式计算出病例组和对照组的样本量大小,按1∶3配对选取病例组和对照组进行分析。这类基于传统样本量估算的空间病例对照研究忽略了研究对象的空间自相关性和空间异质性,最终估算的样本量可能比实际所需的最小样本量大。
空间流行病学研究领域尚无公认的样本量估算方法。考虑到疾病数据的空间自相关性和空间分异性特征,王劲峰[17-18]提出:空间流行病学研究应建立在经典样本量估算方法的基础上,在调整空间自相关系数和空间异质性强度后,兼顾抽样方法进而估算研究所需的样本量。鉴于此,空间病例对照研究所需样本量可在传统病例对照研究样本量的基础上,通过以下公式来估计:
n=n传统×(1-r)
n传统是传统病例对照研究估算出的样本量,r是空间自相关强度系数。指标r反映研究对象间的空间依赖性强度,r取值位于0~1之间,取值越大则说明研究对象间的空间依赖性越强。因此,空间病例对照研究所需的样本量较传统病例对照研究所需的样本量小,研究效率高。
4.抽样方法
从文献报道来看,空间病例对照研究中常用的抽样方法有两类。第一类是采用简单随机抽样、系统抽样和分层抽样等经典抽样方法选择病例和对照。Wheeler DC[19]以确诊的非霍奇金淋巴瘤患者为病例组,采用简单随机抽样法从居民健康档案中选择不患有非霍奇金淋巴瘤的人群作为对照组,探索非霍奇金淋巴瘤发病风险的空间分布格局及其影响因素。Vopham T[20]在探索肝癌发病风险空间分布格局与农药暴露关系的研究中,从肿瘤注册登记系统选择确诊的肝癌患者为病例组,采用简单随机抽样法从该地区中选择不患有肝癌患者的人群作为对照组。这类采用经典抽样理论开展的空间病例对照研究,既忽视了疾病数据的空间信息,又忽略了研究对象间存在的空间自相关性和空间异质性特征,高估了抽样均值方差和样本量,低估了抽样精度。严格来说,这类研究并没有体现空间流行病学研究的设计理念,不是真正意义上的空间病例对照研究。
第二类是采用空间简单随机抽样、空间系统抽样和空间分层抽样等空间抽样方法选择病例和对照。Nackers F[21]以黑热病患者为病例组,然后在各村庄采用空间简单随机抽样方法选择一定数量代表该村庄中家庭空间分布的随机点,并在各样本家庭中随机选择一位符合纳入标准的成员为对照组。这类抽样建立在经典抽样理论的基础上,充分利用研究对象的空间信息,考虑了研究对象间的空间自相关性和空间异质性,进而提高了抽样效率。客观而言,这类研究体现了空间流行病学研究的设计理念,是真正意义上的空间病例对照研究。
5.暴露测量
空间病例对照研究除收集研究对象的暴露资料和协变量资料等属性数据外,还收集研究对象的经纬度、居住地址等地理位置信息,并对研究对象进行疾病地理编码(geo-coding)。而且,空间病例对照研究还采集研究区域的多尺度行政区划矢量地图(Shp格式),籍此将研究对象的地理信息与暴露属性数据相关联,建立GIS空间数据库。
Cook AG[22]采集病例和对照的居住地址信息和人口学特征,在研究对象周围建立不同半径的GIS缓冲区来测量交通暴露量,进而评估哮喘严重程度与主要道路交通污染物排放量之间关系。Donalisio MR[23]采集艾滋病和非艾滋病患者的居住地址信息和社会经济因素,然后探索影响艾滋病发病风险空间格局的社会经济因素。
6.研究类型
空间病例对照研究的设计类型根据病例和对照的选择方式,以及区域混杂因素的控制方法等分为空间非匹配病例对照设计(spatially non-matched case-control design)、空间匹配病例对照设计(spatially matched case-control design)和空间分层病例对照设计(spatially stratified case-control design)。
空间非匹配病例对照研究首先采用空间聚类确定发病热点区域和冷点区域,然后采用经典抽样或空间抽样从热点区域中选择病例组、冷点区域中选择对照组[24-25]。空间匹配病例对照研究基于空间相似性原理,首先在病例周围生成一定半径的缓冲区,然后在缓冲区内选择一定数量的对照进行空间区域匹配,以均衡某些地理相关因子在病例和对照中的分布[26-27]。空间分层病例对照研究首先依据疾病的发病/患病水平高低将研究区域划分为不同的层次,或依据疾病的空间风险大小将研究区域划分为不同的层次,然后从层次区域中选择病例组和对照组,或选择结局程度不同的亚组[28]。
空间流行病学资料具有空间自相关性、空间分异性和尺度依赖性等空间属性特征,建立在独立、同分布等假设前提上的经典统计学方法对空间信息利用效率低下,难以拟合数据的空间结构特征,且易导致模型拟合精度不高和参数估计有偏。因此,选择适宜空间流行病学研究的统计分析方法,既要考虑研究目的,又要兼顾数据的空间结构特征,还要权衡科研设计和抽样方法。就空间病例对照研究资料而言,常用且适宜的统计分析策略如下:
1.揭示空间分布格局,明确病例和对照区域
疾病分布与区域环境因素密切相关,受其影响形成特定的空间分布格局。GIS专题地图、空间经验贝叶斯平滑图和核密度平滑图等疾病制图法,以及反距离加权、趋势面分析、样条函数、最近邻、克立格、经验贝叶斯克立格等空间插值法,从全局水平上直观描述疾病的空间分布,可视化空间特征。局域Moran′s I指数、局域Getis指数、Moran散点图、扫描统计量、风险区探测器和空间滤波等空间聚集性探测法从局域水平上统计推断疾病的热点和冷点区域,明确高发的空间病例区域和低发的空间对照区域。土地利用回归、地理加权回归、空间广义相加混合模型、空间滞后模型、空间误差模型和空间杜宾模型等空间回归模型,以及贝叶斯层次时空模型定量估计疾病的空间变化趋势,揭示分布格局。
Chiaravalloti-Neto F[29]在评估埃及伊蚊昆虫学指标与登革热流行趋势之间关系的空间病例对照研究中,采用GIS专题地图揭示不同时段登革热发病率的空间分布格局变化趋势。Kauhl1 B[30]采用高斯条件回归从小尺度地理区域上可视化高血压患病率的空间变化,并采用空间扫描统计量探测空间聚集性,明确高血压患病率高的病例区域和低的对照区域。
2.识别空间格局的形成因子
在明确病例区域和对照区域后,我们可用空间回归方法识别空间格局的形成因子,探讨地理相关因素与空间格局的关系。这类空间回归方法包括基于频率估计的全局水平空间回归模型,基于频率估计的局域水平空间回归模型,以及基于贝叶斯估计的空间回归模型。具体而言,全局空间回归模型常见有空间logistic模型、空间多水平logistic模型、空间广义线性模型、空间广义线性混合模型、时空广义相加混合模型;局域空间回归模型常见有地理加权logistic模型、地理加权广义线性模型;贝叶斯统计空间回归模型常见有贝叶斯时空logistic模型、层次贝叶斯时空logisitc模型。
Vandenbulcke G[31]采用贝叶斯空间logistic回归模型预测自行车事故发生风险的空间分布趋势,并探讨道路基础设施对事故风险的影响。Choe YJ[32]采用地理加权回归模型探讨流行性腮腺炎发病率空间格局的影响因素,发现疫苗延迟接种率和易感儿童人口比例是流行性腮腺炎发病率空间格局的主要预测因子。
3.量化形成因子对空间格局的解释度
在识别出疾病空间格局的形成因子后,可进一步量化形成因子对空间格局的解释度(即重要性)。我们可采用风险因子探测器的q统计量和PD指标、时空变异系数、时空经验正交函数、地理加权logistic模型和地理加权广义线性模型的标化系数等方法来度量形成因子对空间格局的解释度。
Hu Y[33]使用地理探测器来研究血吸虫病发病空间格局与环境因素之间关系。结果显示研究区域是否邻近长江对血吸虫病空间格局的影响最大,然而地面温度的影响则最小。Song C[34]采用时空变异系数模型探索手足口病与气象因素之间的局域时空异质性成因关系,结果发现温度、相对湿度和风速不仅是手足口病的全局水平风险因子,也是局域尺度的时空变化风险因子。
4.空间因果推断
在识别出空间格局的形成因子,以及掌握形成因子对空间格局的解释度后,我们可以进一步开展空间因果推断,探讨变量间的依赖关系或潜在的因果路径。空间因果推断方法常见有空间有向无环图模型、空间主体建模、空间贝叶斯网络因果图模型等[35-36]。Pizzitutti F[37]使用空间主体建模考虑人类行为、蚊子行为、环境因素以及它们之间的相互作用,模拟疟疾发病率的月变化,研究疟疾发病率的时空异质性。Mayfield HJ[38]采用空间贝叶斯网络模型预测不同社会人口学因素和环境因素下钩端螺旋体病的空间传播风险,并研究这些因素间的相互作用,以及影响钩端螺旋体病空间传播风险的作用路径。
5.空间风险评估
最后,我们基于已识别出的空间格局形成因子及其重要性,以及因子间的作用关系,构建疾病的空间风险评估与预测预警模型,助力于疾病的监测与防控。目前常用的空间风险评估方法有生态位模型、层次贝叶斯时空回归模型、扫描统计量、空间滤波、Power-law时空多成分模型、空间相对危险度估计等[39-40]。Song C[41]运用层次贝叶斯时空零膨胀负二项回归模型探索中国手足口病的区域风险,发现高风险集中在华南的广东和广西、华东的江苏和上海、西南的四川和重庆等地区。Barro AS[42]基于炭疽病的既往发病数据和环境因素建立了生态位模型,发现了维多利亚州北部到昆士兰州中东部等地区是炭疽病潜在的高风险流行区域。
空间流行病学基于“格局-过程-机制”的研究思路,致力于阐明空间尺度上的格局特征,厘清时间尺度上的发展过程,揭示时空格局背后的形成机制。至今,空间流行病学虽已初步发展了空间病例组、空间对照组、空间匹配、空间样本量估计、空间抽样等空间病例对照研究理论方法的设计要点,但这些设计要点的形成与发展是碎片化过程和分散式呈现,目前未见系统阐述空间病例对照研究理论方法的文献报道,也未见集成应用空间病例对照研究设计理念的研究实践。研究设计类型方面,目前仅见报道匹配的空间病例对照研究和非匹配的空间病例对照研究,传统病例对照研究的衍生类型未见在空间流行病学领域发展。统计方法选择方面,理论上,空间logistic回归、贝叶斯时空层次logistic回归、地理加权logistic回归和时空地理加权logistic回归等统计模型均适用于空间病例对照研究。资料分析实践方面,空间流行病学研究常见的资料处理方式是以数据驱动或统计方法驱动,以研究问题驱动和基于空间病例对照研究理论方法的数据分析方式少见,实际运用的统计分析方法未能充分体现空间病例对照研究的设计理念,统计分析与科研设计相分离的现象常见。
回顾总结空间病例对照研究的发展现状,窥视当前空间病例对照研究理论与方法体系的不足之处,籍以展望空间流行病学学科的发展方向,未来在理论方法、技术手段和实践应用等学科领域的新突破将推动空间流行病学学科体系跨越式发展。理论方法层面,空间流行病学将基于疾病空间数据的空间相关性和空间分异性特征,从以数据驱动、统计方法驱动转变为以研究问题驱动,发展与完善适宜学科自身的科研设计理论与研究方法体系。经典流行病学研究方法融合时空理念和多尺度思维后,将创新与丰富描述性空间流行病学研究(descriptive spatial epidemiological study)、空间生态学研究(spatial ecology study)、空间病例对照研究(spatial case-control study)、空间队列研究(spatial cohort study)、空间实验研究(spatial experimental study)、空间因果推断(causal inference in spatial settings)、空间流行病学偏倚(bias in spatial epidemiology)、空间抽样理论(spatial sampling approaches)和空间样本量估计(sample size in spatial study)等空间流行病学学科理论与方法体系[43-46]。技术手段层面,疾病空间数据将更加多源化,多源时空大数据的获取手段将更加先进,多源异构数据的集成方法将更加智能。此外,时空统计模型将更具现实世界仿真、多维信息融合、限定性假设检验条件少等特点,且能体现空间流行病学理论方法的设计理念。实践应用层面,空间流行病学将更加注重交叉融合多学科理论,整合经典流行病学、分子流行病学和基因组学等宏观与微观研究证据,多尺度视角拓展应用领域(如空间生命历程流行病学)[47]。