李建涛 黄飞 陈伟 成诗明
我国于2010年组织实施了全国第五次结核病流行病学抽样调查(简称“流调”),获得了全国的肺结核患病率数据,同时,全国有部分省进行了省级结核病流调,得到了省的肺结核患病率。但是,全国其他大部分省的肺结核患病率并未得到。因此,如何获得省级肺结核患病率,特别是肺结核疫情比较严重的省份,是需要解决的一个现实问题。空间插值技术可以通过样本数据推算未抽样数据,近年来在流行病学领域中的应用越来越广泛。因此,笔者对几种常用的空间插值方法的原理、特点及其应用作出介绍,以期能够探索某种合适的空间插值方法,推算得到省级肺结核患病率,将会对更加全面的了解我国结核病现况和改进防控工作有重要的意义。
空间插值技术是空间分析地学统计中的一门重要技术,空间插值可以被定义为根据已知的空间数据估计未知的空间数据值[1]。空间分析技术是地理信息系统(geographic information system,GIS)的重要组成部分。目前,GIS已广泛应用于农业、林业、牧业、国土资源、地矿、测绘、水力、电力、教育等100多个领域[2]。其基本原理是空间位置上越靠近的点,越可能具有相似的特征值,而距离越远的点,其特征值相似的可能性越小[3]。这就是地理学上的第一定律,也是空间插值技术的基本理论前提。
1.主要优点[4]:(1)不受人口分布影响,但需以某病的发病率、患病率、死亡率等指标做空间插值估计。(2)模型连续,符合大多数缓慢起伏变化的疾病空间分布模式。(3)可对发病强度或发病危险度的空间抽样数据进行空间预测。
2.主要缺点:(1)除克里格插值方法外,大部分插值方法无法对插值结果的误差进行评价。(2)插值方法要基于许多假设,不易满足。(3)插值模型与影响疾病的因素结合较弱。
空间插值一般包括以下几个过程:(1)插值方法的选择;(2)空间数据的探索分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;(3)插值方法评价;(4)插值方法的重新选择;(5)数据插值;(6)结果评价[5]。
1.原理:反距离加权空间插值法是最早使用、也是最经常使用的插值方法之一。1972年由美国国家气象局提出,以待测点与实际抽样点之间的距离为权重进行插值估算,以与未采样点距离最近的若干个点为基础进行计算,每个点的贡献与距离成反比,离待计算点越近的样本点赋予的权重越大。
2.特点:反距离加权插值法具有普适性,不需要对数据特点进行分析,不需要对数据结构进行调整,在样本点密度比较大,分布比较均匀时,插值结果精度比较高。其不足之处为:无法对误差进行理论的测算;实际中的样本点很难分布均匀;没有考虑样本点的整体空间分布;没有考虑已知样本点与待测点的空间关系;计算时容易受到极值的影响而产生较大误差。
1.原理:1951年南非矿山工程师克里格(Krige)提出了克里格插值方法,法国著名统计学家马特隆(Matheron)在大量研究的基础上加以改进,引入了区域化变量和变异函数的概念。当一个变量呈现一定的空间分布时,称为区域化变量,它反映了区域内的某种特征或现象。区域化变量具有自相关性,即变量在点x与偏离空间距离为h的点x+h处的值具有某种程度的相似性。区域化变量在点x处的值与在点x+h处的值的差值的方差的1/2称为该区域化变量的半变异函数。
2.公式:半变异函数曲线中有4个重要的参数:块金值(nugget)、变程(range)、基台值(sill)和偏基台值(partial sill)。
故常用的变异函数模型[6-7]有:球状模型、高斯模型、指数模型等,选择一个较好的模型来拟合样本的变异性,对克里格插值的准确度影响非常大。
3.特点:克里格插值方法在数学上被证明是最优、线性、无偏估计的方法。无偏是指偏差的数学期望为0,最优是指估计值与实际值之差的平方和最小,即估计的方差最小。克里格插值技术考虑了样点的大小、形状、相互关系和空间分布等几何特征,以及已知样本点与待估计样本点的空间关系,有了这些信息后,对未知采样点进行估计[7]。克里格插值技术的应用条件是数据有无空间自相关性和是否满足二阶平稳假设[8-9]。在实际中,二阶平稳假设不容易判别,通常通过正态性检验和半变异函数云图来检验数据是否满足二阶平稳假设[10]。经过不断的发展,除普通克里格方法外,克里格插值方法还有简单克里格法、指示克里格法、泛克里格法、概率克里格法、析取克里格法以及协同克里格法。需要特别指出的是,协同克里格法把区域化变量的最佳估值方法从单一属性发展到一个以上的协同区域化属性,但它在计算中要用到两属性各自的半方差函数和交叉半方差函数,比较复杂。
泰森多边形法最初由荷兰气象学家Thiessen推出,用来根据分散的气象站的降水量估计降水量的平均值的一种方法,又称最近距离法。该方法算法简单,即未采样点的值等于与它距离最近的采样点的值。具体为按样本数据点的位置将研究区域分割成子区域,每个子区域只包含一个样本数据点,各子区域到其内数据点的距离小于任何到其他数据点的距离,利用这个内数据点的值对这个子区域进行赋值。
泰森多边形法计算简单,效率较高[11]。当样本点较多且分布较均匀时,插值效果较好,但其对空间因素考虑太少,受样本点的影响较大,如果样本点分布不均匀且样本点数据变异明显时,利用点对区域赋值是不合理的,误差较大。
趋势面分析方法是根据有限的观测数据拟合曲面,进行内插[1]。趋势面的公式如下:y=Aθ+e。式中,y是n×1维矩阵,对应n个样本;A是n个样本的坐标矩阵;θ是趋势面参数矩阵。A和θ依赖于趋势面的次数。趋势面的次数是它最重要的特征。e是残差,通常是一个独立随机变量。当残差是随机独立时,统计检验有效;但实际上,检验是显著偏差的[1]。残差的空间自相关可以用随机过程模型模拟,趋势面的目标有时并非最佳拟合,而是把数据分成区域趋势组分和局部的残差。
趋势面的优点是易于理解、计算简单。多数空间数据可以用低次多项式拟合,一般来说趋势面次数越大,拟合曲面越接近实际,但计算会越来越复杂。缺点是对采样要求比较高,采样过程没有体现趋势因素,内插结果会有较大误差。
径向基函数法(radial basis function,RBF),是Broomhead于1988年提出的一种新型向神经网络,相对于传统的BP神经网络,具有计算格式简单,计算量小,精度相对较高等特点,是逼近理论的一个有力工具,越来越引起人们的重视[12]。
它主要是通过基函数计算待估计点得一组权系数,从而实现平滑插值。常见的5种基函数为:反转多重二次曲面(inverse multiquadric),多重二次曲面(multiquadratic),张 力 样 条 (spline with tension),完全规则样(completely regularized spline),薄板样条(thinplate spline);它们类似于克里格插值中的变异函数模型,通过调整基函数中的平滑因子可以控制插值面的光滑程度及估计精度。
径向基函数插值法适应于对大量点数据进行插值计算,同时要求获得平滑表面的情况。将径向基函数应用于表面变化平缓的表面,能得到比较精确的结果,而如果在一段较短的水平距离内,表面值发生较大的变化,径向基函数插值的方法会产生较大的误差[13]。
反距离加权插值法在流行病学研究中有广泛的应用。汪旸等[14]利用该方法研究了江苏省地方性氟中毒在空间上的分布态势,建立了江苏省水氟和氟斑牙患病率的空间分布预测图,并与实际结果进行了比较,证明IDW得到的空间分布预测图是真实、准确而详细的。陆绍红等[15]应用 ArcGIS 9.3的空间分析扩展模块中的反距离插值法对钉螺面积、钉螺阳性率和人群感染率进行了空间插值分析,直观地揭示和分析了安徽省铜陵县的血吸虫病疫情变化,为研究血吸虫病的分布和流行提供了监测和预测工具。胡茂琼[16]运用反距离加权插值法获得了血吸虫患者的分布预测图,显示湖北省血吸虫病在空间分布上存在明显的高发区和低发区。马家奇等[17]利用地理信息系统(GIS)的空间插值分析方法得到结论,IDW插值技术可以作为检测鼠密度的一种宏观的推导分析方法,用来推测检测地区的鼠密度分布。唐咸艳等[18]利用IDW插值方法对广西壮族自治区1989—2006年流行性乙型脑炎发病的时空格局进行了分析,并用时空重排扫描统计量进行了时空聚集性分析,两种研究得到的结果基本一致,证明了IDW插值技术的准确性。
武继磊等[19]通过克里格插值技术,实现了抽样调查数据对全国出生缺陷发生水平的估计,比较准确的反映了中国出生缺陷发生水平的分布特点。尚磊等[20]利用克里格插值技术对我国应征男青年视力低下检出率的空间分布进行了分析,利用交叉评价指标评估,认为空间局部内插法能很好地估计我国应征男青年视力低下的空间分布。周兰霞等[21]利用该方法对中国67个城市新生儿的苯丙酮尿症的发病情况进行了分析研究,结果显示苯丙酮尿症患者出现明显的空间分布,东南沿海地区发病率较低,东部和中部地区的发病率低于西北地区。颜仕鹏[22]在其学位论文中利用克里格插值方法对湖南省钩端螺旋体病的空间分布规律进行了分析,结果显示湖南省钩端螺旋体病主要集中在中东部丘陵地带、西北和西南部山区,为湖南省以后该病防治措施的制定提供了依据和参考。
从上述空间插值方法在流行病学中的应用实例可看出,克里格插值法和反距离加权插值法的应用最多。笔者计划应用这两种方法对肺结核患病率进行插值计算,利用全国第五次结核病流行病学抽样调查获得的176个样本点的数据,对全国部分省的肺结核患病率进行推算,为结核病防控措施的改进提供依据,而空间插值方法在结核病领域仅有初步的应用。国内牧童等[23]利用普通克里格插值方法对四川省西北部结核病高发山区的儿童结核病相关资料进行了分析处理,获得了四川省茂县儿童结核病的发病特点,并描述了高发聚集区,为指导茂县结核病防治工作提供了科学依据。国外Gómez-Barroso等[24]在探讨西班牙的结核病空间分布特征时用到了空间插值技术,利用西班牙2006年国家流行病监测系统的资料,加入相关的影响因素,如性别、年龄、人口密度、失业率、人均经费投入等,利用协同克里格插值法,准确预测了西班牙肺结核的高发区,主要集中于半岛西北和东南地区。Martínez等[25]在对墨西哥牛患结核病的预测时采用了空间插值方法,该研究首先对48 766个牛群进行了普查,计算得到其患病率,然后从中随机抽取了2287个样本,利用普通克里格插值法对样本数据进行了推算,将普查结果和推算结果进行相关性检验,发现相关性很高,相关系数为0.78,证明了插值结果是准确的,插值方法是合适的。因此,探讨空间插值方法在结核病领域的应用,具有重要的现实意义。
[1]李新,程国栋,卢玲.空间内插方法比较.地球科学进展,2000,15(3):260-265.
[2]张凯,伍瑞昌,陶学强.GIS在公共卫生领域的应用现状与发展趋势.医疗卫生装备,2010,31(10):41-42,50.
[3]朱求安,张万昌,余钧辉.基于GIS的空间插值方法研究.江西师范大学学报(自然科学版),2004,28(2):183-188.
[4]唐芳,薛付忠,王洁贞,等.疾病空间分布的“等值线-面积”多重分形模型及其应用.山东大学学报(医学版),2006,44(11):1154-1158.
[5]孙然好,刘清丽,陈利顶.基于地统计学方法的降水空间插值研究.水文,2010,30(1):14-17,58.
[6]吴学文,晏路明.普通Kriging法的参数设置及变异函数模型选择方法——以福建省一月均温空间内插为例.地球信息科学,2007,9(3):104-108.
[7]王劲峰,李连发,胡茂桂.空间抽样与统计推断.北京:科学出版社,2009:82.
[8]唐咸艳.GIS空间分析技术在疾病空间异质性分布中的应用研究——以广西原发性肝癌为例.南宁:广西医科大学,2009.
[9]Wang JF,Christakos G,Hu MG.Modeling spatial means of surfaces with stratified non-homogeneity.IEEE Transactions on Geoscience and Reomote Sensing,2009,47(12):4167-4174.
[10]汤国安,杨昕.ArcGIS地理信息系统空间分析实验教程.北京:科学出版社,2006:402.
[11]彭思岭.气象要素时空插值方法研究.长沙:中南大学,2010.
[12]杨彦军,杨宇,康志宏.径向基函数神经网络及其在插值计算中的应用.新疆石油地质,2005,26(2):209-211.
[13]汤国安,杨昕.ArcGIS地理信息系统空间分析实验教程.北京:科学出版社,2006:367.
[14]汪旸,陈晓东,王彩生.运用反距离加权插值法研究江苏省地方性氟中毒空间分布态势.中国地方病学杂志,2009,28(1):97-100.
[15]陆绍红,汪天平,陈睿,等.血吸虫病流行的地理信息系统分析.国际流行病学传染病学杂志,2009,36(6):377-379.
[16]胡茂琼.空间分析技术在湖北省血吸虫病流行趋势研究中的应用.南宁:广西医科大学,2010.
[17]马家奇,徐成,戚晓鹏,等.空间插值分析方法在鼠密度监测中的应用.中国地方病学杂志,2007,26(3):340-342.
[18]唐咸艳,甘文烨,徐斌,等.广西壮族自治区1989—2006年流行性乙型脑炎时空动态趋势分析.中华流行病学杂志,2011,32(3):274-278.
[19]武继磊,郑晓瑛.中国出生缺陷区域发生水平的Kriging插值模拟研究.中华流行病学杂志,2007,28(2):184-188.
[20]尚磊,李沪建,徐勇勇,等.运用空间局部内插研究我国应征男性青年视力低下的地区分布特征.疾病控制杂志,2007,11(2):117-119.
[21]周兰霞,金莲,赵丽,等.ArcGIS9.0在苯丙酮尿症空间分析中的应用.中国卫生统计,2007,24(6):604-606.
[22]颜仕鹏.湖南省钩端螺旋体病流行态势及空间分析.长沙:中南大学,2010.
[23]牧童,张会娜,孙永华,等.基于地理信息系统的儿童结核病疫情插值分析.中国妇幼健康研究,2009,20(3):239-241.
[24]Gómez-Barroso D,Rodríguez Valín E,Flores Segovia V,et al.Space distribution of tuberculosis in Spain by geostatistical methods.Rev Esp Salud Publica,2009,83(5):737-744.
[25]Martínez HZ,Suazo FM,Cuador Gil JQ,et al.Spatial epidemiology of bovine tuberculosis in Mexico.Vet Ital,2007,43(3):629-634.