余可忆 吴健平 周毅彬 姚申君*
(1.地理信息科学教育部重点实验室,上海 200241;2.华东师范大学地理科学学院,上海 200241;3.自然资源部超大城市自然资源时空大数据分析应用重点实验室,上海 200241;4.上海市疾病预防控制中心传染病防治所,上海 200336)
媒介生物一般指的是作为疾病传播途径且能将传染病传播给人类的生物。作为媒介生物的一种,蚊虫不仅刺叮骚扰人群,给人们带来较差的生活体验,而且可以传播登革热、黄热病、疟疾、淋巴丝虫病、流行性乙型脑炎等蚊媒传染病,是需要重点监测的媒介生物(闫冬明等,2020;田波等,2022)。过去100年来,全球气温升高加快了蚊媒疾病的快速传播;蓬勃发展的经济建设与快速的城市化进程使蚊媒疾病的传播模式更为复杂(Anoopkumaretal.,2022)。蚊虫传染病的频繁暴发(Yueetal.,2014;牟笛等,2017),使其成为当下亟待解决的公共卫生问题之一,相关防治工作也受到越来越多的关注与重视(冷培恩等,2019)。
通过对媒介蚊虫密度的监测以指导开展控制,可以有效阻断蚊媒传染病的传播,从而遏制其进一步蔓延。我国现有关于蚊虫监测的研究多着重于对监测工具、监测方法、监测结果的阐述,以及对其结果进行季节性特征分析(冷培恩等,2019;刘美德等,2021;王纯玉等,2022;王巧燕等,2022)。近年来,学者开始关注监测点的抽样问题,并逐渐意识到空间自相关和空间异质性的重要影响,如有学者以社区划分调查网格进行监测(张佳一等,2021),依据居民区、公园等不同的生境设置监测点(王巧燕等,2022),根据地形、植被、水文和土地覆盖/利用等进行环境分层实现抽样(Rouxetal.,2013;夏斯伟等,2021)。然而蚊虫监测的空间抽样研究尚在起步阶段,现有蚊虫监测点的布样主要以选择蚊虫孳生的最佳生境或疫情高发区最为常见(周毅彬等,2021),需要更为详细的规范,深入理解蚊虫空间分布特征,实现精准防控。亟需学者在理论、方法与应用等多方面进行探索,以丰富蚊虫监测的理论与实践。
除蚊虫以外,鼠类和钉螺也是两种较为重要的病媒生物,危害着世界人民的公共卫生安全。鼠类不仅危害人类健康,也在一定程度上影响了农林畜牧业的发展(黄英凯等,2015)。湖北钉螺是日本血吸虫的唯一中间宿主。由血吸虫引起的血吸虫病(Donohueetal.,2017)威胁着我国长江流域及其以南地区人民健康(郭苏影等,2021)。空间抽样方法已被广泛应用于鼠类和钉螺监测,对及时且精确地做好灭鼠工作、阻断血吸虫病的传播具有重要的意义(李忠武等,2013;雷正龙等,2015)。
本文旨在阐述空间抽样理论在病媒生物监测中的应用,并归纳适用于蚊虫监测的空间抽样框架以供相关研究借鉴。下文将先简单介绍空间抽样理论,再论述空间抽样方法在蚊虫、鼠类和钉螺监测上的应用,最后提出适用于蚊虫监测的空间抽样方案设想。
经典抽样方法的前提是样本单元之间是互相独立同分布的,但绝大多数分布在空间的研究对象(如蚊虫等媒介生物),通常具有空间相关性以及空间异质性。因此,从具有特殊分布性质的研究对象中采用经典抽样方法得到的样本,往往是非独立性、非均质性且具有属性值随着空间的不同划分而变化的特点,会对抽样统计结果产生一系列的有偏估计(王劲峰等,2019)。如空间自相关会对用样本简单平均值估计区域均值以及超总体均值产生影响,导致样本均值方差的偏小或偏大(Haining,1988;Cressie,1991;Griffithetal.,1994;Haining,2003;Wangetal.,2012);当研究对象具有空间异质性,采用分层抽样但某些层没有样本时,样本简单平均值的数学期望将有偏于总体均值(Wangetal.,2011;Huetal.,2013;Wangetal.,2013a)。因此,在抽样调查具有特殊空间分布的对象时,更适合采用将空间数据特性纳入数理统计范围内的空间抽样方法(Atkinson,1991;Stehmanetal.,2003;Wangetal.,2012)。
空间抽样在经典抽样方法的基础上更加强调空间的重要性。与经典抽样不同的是,空间抽样的对象具有地理空间坐标,如果改变被抽取空间对象的位置,将产生完全不同的抽样调查总体,从而影响抽样调查结果(姜成晟等,2009)。空间抽样调查对象由地理空间坐标和属性值共同组成,因此在空间抽样过程中需考虑研究对象的空间分布特征:是否独立同分布、是否具有空间自相关特征、是否具有分层异质性特征、抑或既具有空间自相关又具有分层异质性特征(王劲峰等,2019)。20世纪末至今,学界普遍认为由空间异质性特征对空间进行分层采样可以实现更有效的空间采样和统计推断(Lietal.,2008;Wangetal.,2010)。在考虑到空间异质性、相关性以及小样本多报告单元的问题,王劲峰等于2013年正式提出了空间三明治抽样(Wangetal.,2013b)。随着空间抽样的理论与模型逐步完善,国内外学者将其广泛运用于林业(董士伟,2018)、农业(王迪等,2021)、土壤(陈超等,2021)、生物种群(Liuetal.,2018)、土地利用(马炜,2019)调查等多个领域。
在大多数研究中,空间抽样的目的是对总体或超总体进行估算(如蚊虫的数量、鼠密度、钉螺密度等),方法是从总体中以某种方式抽取一定数量的样本单元(如使用简单随机抽样或分层抽样等),然后将获取的样本汇总得到样本的统计量(如算数平均等),利用上述统计量并结合统计推断方法,计算得到可以表征总体的统计量,完成对总体的估算(王劲峰等,2019)。上述过程主要涉及确定地学对象的属性值、抽样方案(样本量与布样情况)和统计量(王劲峰等,2019),有着众多的选择与组合。如何选择与研究对象性质相符合的抽样方法以及统计量,以期使用较少的样本得到精度较高的统计结果,是所有学者在进行空间抽样前需要解决的问题。为此,王劲峰等(2019)采用属性值、抽样方案和统计量所组成的“三位一体”的方式对空间抽样与统计推断加以描述,提供了一个空间抽样理论框架,根据研究对象的空间分布特性,空间抽样方法以及统计推断方式可有不同选择。如当研究对象既具有空间相关性又具有空间异质性,且采用分层抽样时,在每层样本足够多的情况下,可以采用异质表面均值估计(Mean of Surface with Nonhomogeneity,MSN)及其抽样(Wangetal.,2009;Huetal.,2011);当有些层的样本缺失时,即样本有偏的情况下,应采用Bshade统计量(Wangetal.,2011;Huetal.,2013;Xuetal.,2013);若仅有一个样本点时,则需要使用单点面积估计(Single Point Areal Estimation,SPA),并结合辅助信息进行统计推断(Wangetal.,2013c;王劲峰等,2019)。
后文将按照不同的主流空间抽样方法,对蚊虫、鼠类和钉螺三种病媒生物的监测应用展开综述。
空间分层抽样是较为常用且简便易行的一种空间抽样方法,大多数用于存在空间异质性的研究对象,可在一定程度上减少抽样样本数,进而降低抽样成本。由于钉螺和蚊虫的空间分布特征与地理环境密切相关,而地理环境均存在着一定的空间异质性,因此多数学者均采用了空间分层抽样对上述两种病媒生物进行数量监测。本节将先介绍空间分层抽样原理,再对钉螺与蚊虫监测进行总结梳理。
空间分层抽样应先按照一定的规则将总体划分为多层,使得属性值相近的点被划分为同一层,即层内方差最小、层间方差尽可能大(Wangetal.,2010;Wangetal.,2016)。这里的规则视不同的研究对象而定,须遵循该对象的空间分布特征。
再根据一定的分配原则,将总样本量分配到各个层内;最后根据各层内的样本量,在各层内部进行简单随机抽样。分配原则包括:各层平均分配;按各层单元数比例分配;按某层标准离散方差Sh与该层单元数Nh乘积比例分配,当各层的样本单元成本Ch不同时,层内最优抽样如公式1所示(Cochran,1977)。上述三种分配原则的抽样效率依次提高。
(1)
由于钉螺孳生与地理环境密切相关,土壤、植被等的空间异质性导致了距离相邻的采样点的钉螺数可能相差很大(邱娟,2012;张文馨,2016),因此空间分层抽样成为了钉螺调查的首选。通过该方法,可将数理统计意义上同一生境下的研究区进行归类,使得层内同质性较高、层间异质性较高,再对各层进行合理抽样。在确保无偏采样的同时,获得更具有代表性的样本,从而对此研究区的钉螺数量做出较为准确的估计。
张文馨(2015)选择江西省新建县恒湖农场茶叶港的一块50 m×50 m草洲作为试验样地,通过比较3种不同抽样方法(简单随机抽样、系统抽样和空间分层抽样)所需样本量以及抽样的相对和绝对误差,发现依据高程作为辅助因子进行空间分层抽样所需的样本量最少,绝对误差最小,优于传统抽样方法。商伊迪(2017)也采用了空间分层抽样策略对鄱阳湖的钉螺进行调查。由于灰化苔草和南荻的高度、盖度均与钉螺孳生具有明显空间关系,将上述植被因子作为辅助变量,通过K均值进行聚类,将其分为7层,再依据奈曼分配计算总样本量以及各层样本量,最后对各层进行随机抽样。汪训平(2018)提出了一种基于植物丰度的空间分层抽样策略,将与钉螺孳生密切相关的植物丰度作为分层依据,采用Hammond McCullagh方程、依据植物丰度的变异系数,确定每层最优采样点的数量,最后使用多向插值离散度的空间采样布局方案,以覆盖最大化为原则在各层中进行合理布样。
由于蚊虫密度不仅与植被覆盖(阴凉处)、积水分布、居民密度及人类活动(使用杀虫剂等)有关,也会受温度、降雨量、湿度等气象因素影响(仲洁等,2015)。因此即使是相同的土地利用类型,也会存在一定的空间异质性,即对蚊虫进行监测时也可使用空间分层抽样(Ageepetal.,2009;Rouxetal.,2013;Seddaetal.,2019)。
Ageep等(2009)对苏丹北部阿拉伯按蚊的时空分布展开研究,主要采用了空间分层随机抽样。先利用多光谱QuickBird数据以及高分辨率数字高程模型,依据物体的形状、纹理等对研究区土地利用类型进行分层合并,得到5个层复合定义的土地利用类型。之后每个月在上述层内随机抽取40个像元作为样本,每个样本面积为1公顷。Roux等(2013)设计了一种基于环境分层的成年按蚊调查和栖息地特征的采样策略。首先需要在研究区中随机抽样确定500个地点,作为后续聚类的候选采样点。接着拟定在地形、植被、水文和土地覆盖/利用等大类下的共43个不同的环境变量。然后对上述环境变量进行主成分分析以及混合群的因子分析,确定影响分层的决定性变量。最后利用500个采样候选点以及决定性变量,对其进行K均值聚类,最终获得6个预期集群(层)。Sedda等(2019)提出了一个生态采样设计框架,该框架主要讨论了样本大小、如何分层以及采样点的地理分配3个要素。首先,通过计算已知协方差函数的Log Gaussian Cox Process模型,计算上述模型参数的总方差以及预测蚊虫数的标准误差,得到最优样本大小。然后,利用二次判别分析算法,对研究区进行分层,并得到最佳层数以及其地理界限。最后,依据每一层的样本点的数量在该层内进行随机抽样或自适应抽样。
国内外对钉螺与蚊虫进行数量监测时大多使用了空间分层抽样,或提供了一个基于空间分层抽样的抽样模型。大多数学者均沿用了空间分层抽样的理念,但对如何进行分层、如何确定最佳样本数以及如何对各层进行抽样等问题进行了更深入的研究与创新,使其更加适用于钉螺调查与蚊虫密度监测。
空间分层抽样方法主要针对单报告单元,当报告单元较多时,对每个报告单元进行分别抽样,将会产生样本量大、费用高的问题。空间三明治抽样模型(Wangetal.,2002;Wangetal.,2013b)解决了在总体分异条件下小样本多报告单元抽样问题,可以用较少的样本量实现多报告单元的汇总。另外,由于空间三明治抽样对于样本图层中采样点的空间分布没有要求,因此可以最大限度地利用现有先验验数据。
此抽样主要分为以下3个步骤(Wangetal.,2002;Wangetal.,2013b):首先将研究对象按照层间方差最大,层内方差最小进行分层,形成知识层,如图1所示,可按照研究区域的属性对层进行划分。接着,将样本按照知识层进行分配,计算出各层的样本均值以及样本均值方差。最后将知识层的均值以及均值方差推算至各报告单元,得到各报告单元的总体情况。
图1 空间三明治抽样(Wang et al.,2013b)Fig.1 Spatial sandwich sampling
从上述步骤可以看出,空间三明治抽样实际上是空间分层抽样的变体,采用了两次分层抽样的技术,第一次是从样本图层到知识层,第二次是从知识层到报告图层。
该方法主要用于对研究区内鼠密度进行抽样调查与制图。如任周鹏(2011)以三峡库区现有鼠密度监测数据,并选择土壤、地貌以及NDVI(normalized difference vegetation index,归一化植被指数)作为估计研究区各县平均鼠密度的辅助因子,将NDVI的分类结果作为三明治模型的知识层,完成三峡库区蓄水前后各县平均鼠密度的估计,并采用以行政区为单元和以格网为单元的两种报告方式进行制图。Liu等(2018)在中国吉林省进行鼠密度调查时发现,土壤类型、土地利用方式以及植被类型对鼠类密度分布有显著影响,且研究区域异质性较高。因此通过地理探测器模型,在评估各种自然因素和人为因素对鼠类分布的影响及其交互效应的情况下,得到空间分层分异的情况。通过三明治模型分层计算知识层的鼠密度并汇总至报告层。
与传统抽样方法相比,空间三明治抽样方法的主要优势是考虑到媒介生物密度存在空间自相关性与空间异质性,并且在使用现有监测点数据的情况下,解决总体分异条件下小样本多报告单元抽样问题,统计推断得到任意单元内的鼠类密度,完成对鼠密度的多尺度汇总。
通过上述综述可以发现,空间抽样理论体系已构建完整,很多成熟空间抽样方法已被广泛使用于媒介生物监测,但国内有关蚊虫的监测大多采用栖息地分层的方式,并且大多是基于主观经验或定性进行分层(Ageepetal.,2009),但相同类型的栖息地也有可能存在一定的空间异质性,而不同类型的栖息地之间也有可能有着一定的空间自相关。因此未确定可表征研究区环境特征的变量、未检测样本在时空上的独立性以及忽略了相同类型栖息地的异质性,都有可能使监测结果产生偏差。
在蚊虫的监测过程中引入空间分层抽样与空间三明治抽样可提高抽样的准确性,在一定程度上解决上述问题。在使用空间分层抽样过程中,首先应确定分层的规则,规则的优劣会对分层抽样结果的准确度产生一定影响。此规则往往和影响蚊虫数量的环境因子、气象因素、人口密度等相关联,可以通过先验知识或混合群的因子分析得到。在分层前,可使用主成分分析,确保各因素间相互独立。之后,可使用地理探测器(Wangetal.,2012),探究上述因素是否对蚊虫密度有重要影响。可使用K均值聚类或模糊C均值聚类法进行分层,使得属性值相近的点被划分为同一层;再根据一定的分配原则,将总样本量分配到各个层内;最后在各层内部进行简单随机抽样。在得到抽样结果后,可使用地理加权回归(geographically weighted regression,GWR)(Brunsdonetal.,1998;Fotheringhametal.,1999)对各采样点的影响因子(自变量)与蚊虫数量(因变量)进行回归分析,拟合得到回归方程。从上述回归方程可以解释蚊虫数量的关键变量或对研究区内各地蚊虫数量进行预测。而空间三明治抽样方法的应用,则可以最大限度地利用先验数据,完成蚊虫多报告单元的汇总。
蚊虫作为一种可以传播多种传染病的媒介生物,其监测工作对于控制蚊虫数量、预防相关传染病具有重要作用。关于蚊虫密度监测方法、每种方法的适用范围、操作步骤以及密度的计算方法,国家标准中均有详细的规定,但缺少与蚊虫监测点布样相关的规范。如今已有部分学者开始意识到空间分布特征对于蚊虫监测点布样的影响,已开始积极引入空间抽样理论,在考虑样本的空间相关性和异质性的同时,增加对异质性区域的监测,减少对同质区域的重复采样,提高了抽样效率和质量(张杰等,2016)。然而国内有关蚊虫的监测尚处于初步探索阶段,可根据特征选择合适的空间抽样方法,通过借鉴、融合、发展已有方法,在蚊虫监测的理论与实践上进行更深一步的创新探究。