兽医流行病学调查中的抽样方法概述

2015-01-24 08:57张海明
中国动物检疫 2015年9期
关键词:流行病学总体概率

张海明,彭 聪,刘 华

(1.广州市动物卫生监督所,广东广州 510440;2.安徽省动物疫病预防控制中心,安徽合肥 230061)

兽医流行病学调查中的抽样方法概述

张海明1,彭聪1,刘华2

(1.广州市动物卫生监督所,广东广州510440;2.安徽省动物疫病预防控制中心,安徽合肥230061)

本文对兽医流行病学调查中常用的几种随机抽样和非随机抽样方法以及按规模大小成比例的概率抽样、基于风险的抽样进行了阐述,并结合文献报道的实例对每种抽样方法的优点、缺点和适用情况进行分析,以期为广大兽医工作者更好地开展流行病学调查和疫病防控工作提供支持。

兽医流行病学调查;随机抽样;非随机抽样;非等概率抽样;PPS抽样;基于风险的抽样

抽样调查是指从研究对象的总体中抽取一部分作为样本进行调查,并用调查结果来推断总体情况的一种调查方法[1]。抽样调查主要适用于难以进行全面调查而又必须推算总体特征的情况。与全面调查相比,抽样调查具有节省人力、物力、时间及经费等优点,因此在流行病学调查中被广泛应用。

抽样方法包括随机抽样和非随机抽样两类[2]。不同的抽样方法具有各自的特点,适用于不同的调查研究。在兽医流行病学调查研究中选择一种科学、合适的抽样方法是实现抽样目的的重要环节,并在某种程度上决定了调查的科学性和严谨性。抽样方法的选择,一般需要考虑研究目的、总体特征、成本(人力、物力和财力)和时间限制等因素[2]。

1 非随机抽样(non-random sampling)

又称非概率抽样,是指不按随机原则抽取样本、单元被抽取的概率未知的抽样方法。非随机抽样的准确性低、代表性差,在分析性流行病学调查中一般被不采用,但在描述性研究中,由于该方法具有方便性的特点而经常被使用。根据非随机性抽样所得的结果只具有参考价值,不能代表实际情况。非随机抽样主要包括便利抽样、判断抽样、配额抽样和滚雪球抽样等。

1.1便利抽样(convenient sampling)

是指以方便为原则、以无目标和随意方式抽取抽样单元的抽样方法。研究者根据实际情况,为方便开展工作,选择偶然遇到的调查对象开展调查,或者仅仅选择那些离得最近的、最容易找到的作为调查对象。比如,在屠宰场进行采样时,随便遇到一批或几批生猪即进行采样;在进行养殖场疫病调查采样时,选取场主配合工作的或者交通方便的场。这种方法认为被调查总体的每个单位的特征都是相同的,因此无论将哪个单位选为样本进行调查,其调查结果都是一样的,而事实上并非所有调查总体中的每一个单位都是一样的。只有在调查总体中各个单位的特征大致相同的情况下,才适宜应用便利抽样法。Eric等[3]从1999-2005年挑选香港60~80个活禽交易市场中的8个市场进行H9N2亚型禽流感病毒分离率的研究,对于所需调查的8个市场的选择在考虑区域代表性的同时,进行了便利抽样。便利抽样的最大的优点是抽样方便,省时省钱,但该方法最大的局限性是样本信息无法说明总体状况。

1.2判断抽样(judgemental sampling)

又称典型抽样,是指调查人员根据主观经验和现有条件等从总体样本中选择那些被判断为最能代表总体的单位作为样本的抽样方法。在进行抽样调查过程中,由行政领导、专家和其他人员根据“情况”来决定抽样的对象和数量。比如,要对全国的活禽市场卫生状况进行调查,有关部门选择活禽交易量较大的A、B、C3个省作为调查对象,这就是判断抽样。例如,康敏等[4]为了解广东省狂犬病高发地区学龄期儿童狂犬病暴露现状和相关危险因素,采取典型抽样的方法,选择广东省狂犬病高发的某市1 所地市级小学、1 所县级小学、2 所乡镇中心小学和2 所村级小学进行问卷调查。

判断抽样法具有简便易行、在一定程度上符合调查目的和特殊需要等优点,特别是当作决定的人员对研究总体的情况比较了解时,采用这种抽样方法可获得代表性较高的样本。但判断抽样极易受到研究人员倾向性的影响,存在较大的主观性,调查的结果与做决定人员对情况的了解程度以及经验、知识等相关性非常大。一旦出现主观判断的不准确,则容易引起抽样偏差。在兽医监测工作中,便利抽样的情况经常发生,比如对某县进行禽流感免疫效果评价时,经常选择种鸡场、蛋鸡场之类的饲养条件和防疫条件较好的养殖场,其检测结果往往不能代表全县的整体情况。

1.3配额抽样(quota sampling)

也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,然后在配额内任意抽选样本的抽样方式。调查人员按总体特征配置样本份额,再由采样人员随意抽取样本。配额抽样是最常用的非随机抽样方法[5],调查人员有极大的自由度去选择样本,只要完成配额数量即可,因此常因调查的偏好及方便性而降低准确性。比如,在进行X市猪病的流行病学调查方案设计时,采取在养殖量大的县选5~7个中大规模猪场、养殖量小的县选2~3个中大规模猪场的抽样方式。配额抽样适用于设计调查者对总体的有关特征具有一定的了解而样本数较多的情况。实际上,配额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体)。配额抽样与分层随机抽样既有相似之处,也有很大区别[6]:相似之处在于事先都对总体中所有单元按其属性、特征进行分类,例如按家禽种类进行分类;不同之处在于配额抽样是由调查人员在配额内主观进行样品的选择,而分层随机抽样则是按随机原则在层内进行样品的抽取。该抽样方法费用不高,易于实施,能满足总体比例的要求,但缺点是容易掩盖不可忽略的偏差。

1.4滚雪球抽样(snowball sampling)

是指先随机或有针对性地选择一些被访者并对其实施访问,再由他们提供另外一些属于所研究目标总体的调查对象的联系方式,再对这些调查对象进行调查的抽样方法。此种调查方法是利用抽样对象间所具有的共性特点和社会联系网络的优势来进行抽样的一种方法,因此又称网络抽样。在兽医流行病学调查中,市场链的调查经常采用本方法,如要调查某县肉鸡市场链,可首先选择本县部分肉鸡养殖户,然后对由他们所提供的活禽经纪人进行调查,再由这些人提供第三批调查对象,如批发市场或农贸市场摊主,依次类推,样本如同滚雪球般由小变大。

滚雪球抽样方法适用于稀少调查对象的调查或者对所要调查的情况了解较少时的调查。该方法的优点是操作比较简单,可以根据某些样本特征对样本进行控制,特别是对于稀少的调查对象,可以大大减少调查成本。然而这种成本的节约是以调查质量的降低为代价的。整个样本很可能出现偏差,因为那些个体的名单来源于那些最初调查过的人,而他们之间的某些调查所关注的特征可能十分相似,因此,样本可能不会很好地代表整个总体。另外,如果被调查者不愿意提供人员的信息来接受调查,那么这种方法就会受阻。

2 随机抽样(random sampling)

又称概率抽样,是根据随机的原则、运用恰当的抽样方法从抽样总体中抽选调查单元的方法。随机抽样得到的样本具有代表性,具有省时、省力的优点,但抽样调查的设计相对复杂。

2.1简单随机抽样(simple random sampling)

简单随机抽样是最基本的抽样方法,是指从总体N中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。实施简单随机抽样可采用掷硬币法、抽签法、查随机数表、利用软件获得随机数字等办法,较为常用的是抽签法和随机数表法。例如刘华等[7]为了解安徽省中等规模种猪场猪伪狂犬病病毒的感染情况,在前期调查获得全省中等规模种猪场抽样框并进行编号,再通过在线随机数字发生器获得猪场编号,然后对选中的猪场进行了采样检测。

该法最大的优点是操作简单,缺点则是在抽样前需要完整的抽样框,因此一般只适用于总体单位之间差异程度较小和动物数量或动物群体数量较小情况下的抽样。

2.2系统随机抽样(systematic random sampling)

又称等距随机抽样,是纯随机抽样的一种演变形式,是指在随机抽样的基础上将样本按照一定顺序进行排列,按照个体总容量与所要选取样本的比例确定合适的间隔进行取样的一种抽样方法。等距抽样的基本做法是将总体中的各单元先按一定的顺序排列编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体。样本距离可通过总体单位数和样本单位数来确定,并且可以随意或随机选择数据的起点。例如,Holt等[8]于2009年在对埃及尼罗河地区Menufi ya省一个村子的牛进行布鲁氏菌病血清流行率研究时,由于村子内的2 000户牛养殖农户并没有编号(即没有抽样框),因此,在根据预期流行率等计算出所需样本量后,每隔24户进行养殖户的抽选,如果选中的农户刚好没有牛,则顺延1户,依次类推。又如,Indriani等[9]于2010年对印度尼西亚Jakarta,Banten和West Java 3个省的共约300个家禽交易市场的H5N1亚型禽流感的污染情况以及存留禽流感病毒的风险因素进行调查。研究者按照50%的场预期流行率、10%可接受误差和95%的置信水平,计算所需采样的场数为73个,考虑到不应答率,最后的采样场数确定为83个。根据300个农贸市场的抽样框,每间隔4个市场进行抽样,而首个市场由随机抽取选择。

本方法简便易行,不需要目标总体过多的信息。系统随机抽样方法比简单随机抽样更为简单、花费的时间和费用更少。值得注意的是,当需要研究的总体的特征按顺序有周期趋势或递增(递减)趋势时,系统抽样将产生明显的偏性,由此所获得的样本的代表性较差。

2.3分层随机抽样(stratifi ed sampling)

是指将总体分成互不重复的若干层(如性别、年龄、种群、饲养方式等),然后在每个层内分别随机抽取抽样单元的抽样方法。分层随机抽样是科学分层与随机抽样的有机结合,特别适用于层间差异大、层内差异小的总体的抽样,在动物疫病状况和卫生状况调查中应用广泛。分层抽样应尽量利用事先掌握的信息,并充分考虑保持样本结构和总体结构的一致性,这对提高样本的代表性非常重要。例如,Zhang等[10]为了解广州地区家禽的禽流感病毒感染情况,于2013年在广州某区开展了横断面研究。在抽样中,首先将目标群体分为规模化养禽场、家禽批发市场和家禽农贸市场3个层,然后又将目标动物种类分为鸡、水禽和其它家禽等若干层。

分层随机抽样一般比简单随机抽样和系统随机抽样更为精确,能够通过对较少的样本进行调查,得到比较准确的结果,特别是当总体数目较大、内部结构复杂时,该方法常能取得令人满意的效果。另外,该法确保了每层的样本都具有代表性,可使样本在总体中的分布更加均匀,还可对各层进行参数估计。但该抽样方法的缺点是先要对目标群体进行前期的调查,以了解目标群体内的层的分布、各层所占比例等信息,然后才能对其进行科学的分层。当分层不科学或不恰当时,会影响抽样调查结果的准确性。

2.4整群抽样(cluster sampling)

也被称作聚类抽样,是指首先将总体中各单位归并成若干个互不交叉、互不重复的子群,然后以群为单位进行抽样的抽样方法。整群抽样适用于缺乏总体单位抽样框的情况。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。例如,Holt等[8]于2009年对埃及尼罗河地区Menufi ya省一个村子进行牛布鲁氏菌病的调查,每隔24户进行养殖农户的选择,并对选中农户的牛全部采样。

这种方法便于组织、实施并且节省人力、物力,多用于大规模调查。但当不同群之间的差异较大时,会导致产生较大的抽样误差。

2.5多阶段抽样(multistage sampling)

是指把抽样过程分为不同阶段,先从总体中抽取一级抽样单元(如区、县),再从每个抽得的一级单元中抽取范围较小的二级抽样单元(如镇、街道),依次类推。当一级抽样单元内差异大于一级单位间差异时,要尽量少选一级抽样单元而多选二级抽样单位。在多阶段抽样中,各阶段可以采用不同的抽样方法,也可采用同一种抽样方法,同时,还可以根据各阶段单元分布情况的不同,安排不同的抽样比,要视具体情况和要求而定。该抽样方法在大型流行病学调查中常用。例如,张志等[11]为掌握我国猪流行性腹泻在规模猪场(年出栏>1000头)的流行情况、分析疫病发生的风险因素,于2013年底采用横断面研究方法进行调查。在抽样时采取三阶段随机抽样方法:第一阶段从全国32个省份中随机抽取5个省份,分别为广西、河南、湖南、江西和四川;第二阶段对抽取的省份按照养殖规模按比例随机抽样;第三阶段对抽取的每个猪场采集 10 份不同窝的仔猪粪便样品进行流行性腹泻病毒的检测。

多阶段抽样方法的优点是:首先,当总体单元数目很大、分布很广时,便于组织抽样;其次,该法抽样方式灵活,有利于提高抽样的估计效率;再次,该抽样法在抽样前不要求完整的动物个体清单,仅要求一级单位的清单;另外,该法还有经济和实用的优点。但多阶段的抽样设计一般比较复杂,这里不仅涉及如何划分阶段,还包括在每个阶段上应当抽取多大样本量以及每个阶段的抽样方法的确定。此外,多阶段抽样时的阶段数越多,抽样误差也越大,因此阶段不宜划分过多。

3 按规模大小成比例的概率抽样(probability proportional to size sampling)

简称PPS抽样,是抽取概率与单元大小成正比的抽样方法,这是一种典型的非等概率抽样。非等概率抽样是指抽样前给总体中的每一个单元赋予一定的抽中概率,从而保证大的或者重要的单元被抽中的概率大,而小的或不重要的单元被抽中的概率小。非等概率抽样与随机(概率)抽样的区别为每个单元被抽中的概率是否相同。PPS抽样适用于总体中的各单元大小或规模差异很大、并且这些大小或规模的情况在抽样前已知的情况。PPS抽样可用于多阶段抽样,使初级抽样单位被抽中的概率由其初级抽样单位的规模大小所决定,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的概率就越小。比如,刘喜冬等[12]在对内蒙古敖汉旗地区基础母牛存栏量进行抽样调查时,即采用了PPS抽样方法。

PPS抽样的主要优点是由于使用了辅助信息而提高了总体中含量大的部分被抽中的概率,因而提高了样本的代表性并减少了抽样误差。主要缺点是在抽样前需要了解总体中各单元的规模大小,而且方差的估计也比较复杂。

4 基于风险的抽样

基于风险的抽样就是根据以往的研究、调查或经验等,在抽样过程中有意识地抽取更容易检出阳性结果的单元或个体。基于风险的抽样通常根据一个或多个特征对总体进行分层,而这些特征往往是被认为与疫病发生或存在的概率有较为密切的联系。该方法特别适用于发病率极低的疫病的调查或者无疫调查。比如,Prattley等[13]在疯牛病的流行率调查中运用基于风险的抽样。再如,Min Kang等[14]在对广东部分地区活禽交易市场内环境中H7N9亚型禽流感病毒污染情况的调查中,根据以往的研究、检测结果等,在抽样主要采集饮水、污水、案板等可能存留该病毒的样品,而且要采集潮湿区域的样品,以便最大限度地保证H7N9亚型禽流感病毒的检出率。

基于风险的抽样的优点是所需样本量比其他抽样方法要小,特别适用于发病率低的疫病或者无疫调查。但缺点也较为明显,即在设计抽样方案前需要对总体的目标特征(如疫病在不同层中的分布情况)十分清楚或较为清楚,否则可能得出完全相反的结论。

5 结语

对于抽样调查,首先要明确抽样的目的是为了通过对样本的调查来推断总体的情况,因此要兼顾准确性、效益性和实际可操作性三个方面,即研究者在设计抽样方案时,应全面考虑使用各种备选的抽样方法所抽取的样本是否能满足分析项目及指标的要求,并对抽样方法可能产生的抽样误差大小、可行性程度等进行充分的评估,从而选择科学、合理地抽样方法,以达到保证样本代表性、调查可操作性的目的,同时有效地节省人力、物力、时间和经费。

需要注意的是,没有一种抽样方法是完美的和适用于所有流行病学调查研究的。在进行抽样方法选择时,应尽量选择随机抽样方法,但这一原则也并不绝对,需要兼顾准确性、效益性和实际可操作性三个方面,并结合已有的或者可获得的抽样相关信息,以选择最合理的抽样方法。另外,在实际流行病学调查中需要在掌握各种抽样方法原理的基础上,结合具体情况灵活运用这些方法。

[1] 李坤. 常见抽样方法概述[J]. 市场研究,2012,11(9):38-39.

[2] 黄保续. 兽医流行病学[M].北京:中国农业出版社,2010:67-70.

[3] Lau E H Y,Leung Y H C,Zhang L J,et al. Effect of interventions on infl uenza A(H9N2) isolation in Hong Kong’s live poultry markets, 1999-2005[J]. Emerg Infect Dis,2007,13(9):340-1347.

[4] 康敏,李灵辉,黄国华,等. 广东省狂犬病高发地区学龄儿童暴露分析[J]. 华南预防医学,2012,38(3):32-34.

[5] 张维铭. 各种抽样调查方法的比较[J]. 浙江统计,1995,10(8):16-18.

[6] 沈朝建,王幼明. 兽医流行病学调查与监测——抽样技术手册[M].北京:中国农业出版社,2013:32-41.

[7] 刘华,占松鹤,王靖飞,等. 2013 年安徽省中小规模种猪场猪伪狂犬病群流行率及风险因素横断面研究[J]. 中国动物检疫,2014,31(11):16-20,47.

[8] Holt H R,Eltholth M M,Hegazy Y M,et al. Brucellaspp. infection in large ruminants in an endemic area of Egypt∶ crosssectional study investigating seroprevalence, risk factors and livestock owner’s knowledge, attitudes and practice(sKAPs)[J]. BMC Public Health,2011, 11(9):341.

[9] Indriani R,Samaan G,Gultom A,et al. Environmental Sampling for Avian Influenza Virus A(H5N1) in Live-Bird Markets, Indonesia[J]. Emerg Infect Dis,2010,16(12):1889-1895.

[10] Zhang H M,Peng C,Duan X D,et al. A cross-sectional study of avian infl uenza in one district of Guangzhou, 2013.[J]. PLoS One,2014,9(10):e111218.

[11] 张志,王幼明,李晓成. 中国规模猪场腹泻调查[J].中国动物检疫,2014,31(11):1-4.

[12] 刘喜冬,王延晖,高会江,等. 内蒙古敖汉旗地区基础母牛存栏量调查方案的研究[J]. 中国畜牧兽医,2012,39(4):134-138.

[13]Prattley D J, Cannon R M,Wilesmith J W, et al.A model(BSurvE) for estimating the prevalence of bovine spongiform encephalopathy in a national herd[J].Prev Vet Med, 2007, 80(4):330-343.

[14] Kang M, He J, Song T, et al. Environmental Sampling for Avian Influenz A(H7N9) in Live-Poultry Markets in Guangdong, China[J].PLoS One, 2015,10(5):e0126335.

(责任编辑:王伟涛)

Summary of Sampling Methods in Veterinary Epidemiological Investigation

Zhang Haiming1,Peng Cong1, Liu Hua2
(1 Guangzhou Animal Health Inspection Institute, Guangzhou, Guangdong 510440;2 Anhui Animal Disease Prevention and Control Center, Hefei, Anhui 230061)

The main sampling methods of random sampling and non-random sampling methods, probability proportional to size sampling, risk-based sampling applied in the veterinary epidemiological investigation were summarized in the paper. The advantages, disadvantages and the applications of various methods were also analyzed with examples, hoping to provide support for the veterinarians to better conduct the epidemiological investigation and epidemic control.

veterinary epidemiological investigation;random sampling;non-random sampling;sampling with unequal probability;PPS sampling;risk-based sampling

S851.31

C

1005-944X(2015)09-0055-05

彭聪

猜你喜欢
流行病学总体概率
第6讲 “统计与概率”复习精讲
昆明市院前急救患者流行病学的调查
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
用样本估计总体复习点拨
健康体检常见慢性病及指标异常流行病学分析
2020年秋粮收购总体进度快于上年
新型冠状病毒及其流行病学特征认识
外汇市场运行有望延续总体平稳发展趋势