张燕华 孙 超 马 会 汤连升
(山东省药学科学院新药评价中心,济南 250101)
生殖毒理学主要研究对雌雄生命生殖系统产生损害作用的原因、机制和后果,它包括对动物的精卵形成、交配、排卵、射精、合子形成、着床、妊娠、分娩和哺乳过程的毒理学作用,当具有生殖毒性的外源性物质在此期间与机体接触,会影响动物的生殖发育,造成损害作用。药物非临床生殖毒性实验则是研究药物对动物生殖系统及其功能活动毒副现象和作用机制的具体方法和技术,其评价方法主要包括生育力与早期胚胎发育毒性实验(生殖Ⅰ段毒性实验)、胚胎-胎仔发育毒性实验(生殖Ⅱ段毒性实验)和围产期毒性实验(生殖Ⅲ段毒性实验)[1-2]。
生殖毒性实验动物数量多、过程繁琐复杂、产生的数据量大、指标众多及生殖毒性实验产生的主要数据从传统意义上可以划分为计量资料和计数资料[3-4](表1),不同类型的数据具有不同的统计学方法。在做统计学分析时,需要根据数据的特点,选取合适的统计学方法,作出相应的统计判断。
表1 实验类别及数据类型分类
不同的数据分析应选用不同的统计方法,应根据数据类型以及数据是否服从正态分布、总体方差是否相等,进而选用适当的检验方法[5],表2列出了毒理实验中常用的几种统计方法[6-8]。通过以上对生殖毒性实验中产生的数据进行归纳分析,得出生殖毒性产生的实验数据主要分为母体数据和胎仔数据,根据不同数据的特点选择合适的统计方法。
生殖毒性实验一般包括对照组和受试物的高、中、低剂量组等,所以产生的母体计量资料属于完全随机设计的多样本数据间的均数比较,可以选用方差分析进行多样本数据间的比较。由于数据的分布特征会因不同的实验、不同的时间测定出现不同的结果,所以应首先对这些数据进行方差齐性检验,而生殖毒性实验中因每组动物受孕数量的不同,使得每组样本数不同,所以不适于采用Hartevl最大方差比检验法,可以选用Bartlett检验或Levene检验(表2)。
表2 常用的统计方法及适用条件
若总体方差相等,则选用方差分析进行总体均数间的比较,若总体均数存在显著性差异时,需进行两两比较,生殖毒性实验只需比较各实验组与对照组是否有差异,但若用t检验多重比较,可能把本无差别的两个总体均数判为有差别,所以可选择Dunnett-t检验进行多重比较。若总体方差不等,可用变量变换的方法或非参数统计方法进行统计分析,但用变量变换的方法使得结果的解释不如原始观测尺度方便,所以方差不齐时,一般选择Kruskal-Wallis H检验方法,当检验结果存在显著性差异时,应选择非参数Dunnett-t检验法或Nemenyi法进行两两多重比较[7]。
生殖毒性实验中产生的如生育率、受孕率、死亡率、早产率和流产率等属于计数资料。这些数据因没有等级要求且实验组只与对照组进行比较,所以可根据总样本数量或理论频数选用χ2检验或Fisher确切概率法进行统计[6]。
2.3.1胎仔数据的特点:为了探索胎仔数据的特点,选择生殖毒性Ⅱ段实验中对照组和实验组胎仔畸形的部分数据(表3)。采用SPSS中的Fisher确切概率法,以胎仔为单位对对照组(畸形数/正常胎仔数:2/67)和实验组(畸形数/正常胎仔数:10/60)的畸形数进行统计分析,得到P<0.05,表明与对照组相比,实验组的畸形发生率有统计学意义上的显著性差异;但是以窝为单位,以SPSS中非参数秩和检验方法统计对照组和实验组的畸形率得到P>0.05,表明实验组的畸形率与对照组相比,未见统计学意义上的显著性差异。
表3 胎仔数据实例1
以窝为单位和以胎仔为单位得出不一样的结论,原因为实验组的的胎仔畸形数大部分集中于F09号孕鼠的胎仔中,导致实验组的畸形率仅F09较高,结果说明胎仔数据中存在窝效应,即实验数据中存在孕鼠-仔鼠关系,由于同窝仔鼠接受的外界环境均相同,所以来自同一窝的仔鼠其体质量、身长和发育指标较所有仔鼠中随机抽取的个体更为相似,即同窝仔鼠具有相似性和聚集性,数据是非独立的[9-10]。若以每个胎仔作为实验单位,这些非独立的数据被误认为成独立数据,使得统计分析失去参数估计的有效性,增加犯假阳性的概率,并导致不合理的推断结论[8,11],而且以胎仔为实验单位时,畸形率比较小,数据的分布接近二项分布的极限泊松分布,所以只用计数资料的χ2检验不足以得出正确的统计结果。
针对窝效应的问题,胡丽娜[2]和管彤等[12]提出用窝平均法来统计胎仔数据,即将每窝比率作平方根反正弦变换后作参数方差分析或用非参数秩和检验的方法进行统计分析。这种以母体作为分析单元来进行组间分析的做法虽然考虑到了窝效应的存在,但是没有考虑到窝大小的不均一性,假设实验组窝内胎仔总数和畸形数均明显多于相应对照组,而采用窝平均法则不能统计出这一差异性。如表4所示,实验组的畸形数量明显多于对照组,采用Fisher确切概率法,以胎仔为单位统计分析对照组(畸形数/正常胎仔数:3/96)和实验组(畸形数/正常胎仔数:10/88)的畸形数,显示与对照组相比,实验组的畸形发生率有显著性差异(P<0.05);但由于F10号和F14号孕鼠的胎仔总数较多,导致每窝畸形率差异不大,若以窝平均法采用非参数秩和检验的方法进行统计分析,与对照组相比,实验组的畸形率未见明显统计学差异(P>0.05)。另一方面,由于母体的观察数量较少,以母体作为分析单元,会损失大量的数据信息,不能分析胎仔个体水平的变异,增加犯假阴性的概率[13]。
表4 胎仔数据实例2
2.3.2可用于窝效应的统计方法:目前,有研究[4,14]对处理这类多层次的聚集性数据提出了相应的统计方法,如随机效应logistic回归模型、广义估计方程和多水平模型等。随机效应logistic回归模型:logistic回归是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法,生殖毒性实验中的胎仔计数资料则为多变量数据。在对生殖毒性实验胎仔计数资料进行分析时,所建立的随机效应logistic回归模型是针对窝效应的发生率不同和变异分布不同这一特点对logistic回归的扩展,是带有随机效应参数的logistic回归模型,通过对两种模型进行拟合,假设随机效应参数的大小,进而判断检验资料是否存在窝效应,然后通过参数估计和回归系数判断各组间的差别[15]。这种方法可以检验资料是否存在窝效应,并在窝效应的前提下比较各组间的差别,降低犯假阳性错误的概率。
广义估计方程(generalized estimation equations,GEE):是在广义线性模型的基础上发展起来的,可用于处理分析非独立数据,在生殖毒性实验的胎仔数据中,每窝胎仔之间存在组内相关性,可以通过等相关矩阵建立GEE-logistic回归模型[16]。多水平模型可以用来处理具有层次结构的数据,生殖毒性实验中胎仔数据有母体和胎仔两个水平单位,对于这些非正态数据,可以建立两水平logistic回归模型,通过预测性拟似然法和二阶近似法对模型进行估计,再通过Wald检验得出比较结果[16-17]。这两种模型中两水平logistic回归模型可以方便的分解开两水平上的残差,便于考虑窝效应的具体影响。
这几种统计方法虽然可以准确的统计存在窝效应的数据,但是这些方法过程复杂,需要借助像SAS、SPSS、SUDAAN等专业的统计软件来处理[13-17]。为此,需要将百分率统计法和频数计数统计相结合的方法来处理胎仔计数资料。首先计算每只母体的胎仔畸形率,将其合并到剂量组,因百分率数据的分布不服从正态分布,可采用非参数秩和检验方法,如果只有两个实验组,则直接用两个独立样本比较的Mann-Whitney U检验进行统计分析;当实验组数大于等于三个实验组的时候,采用Kruskal-Wallis H检验。频数计数统计法:即分别以窝为单位和以每个胎仔为单位汇总窝畸形频数和胎仔畸形频数后,将其处理为四格表资料,直接用Fisher确切概率法进行差异性统计。本文以表4数据为例,简要介绍了其在SPSS19.0中的操作过程(表5)。这种方法在对结果进行分析时,需要综合考虑两种方法的统计结果,对结果的解释没有以上几种方法直观,但是这种方法在统计软件中操作方便,简单易懂,在对数据进行统计时,可以根据自身情况选择合适的方法。
表5 SPSS操作过程
胎仔数据中还有像体质量、身长、胎盘质量、胎仔骨化数等一样的计量资料,对于这些数据,可以选择窝平均法对胎仔计量资料进行统计分析,也可以选择前文提到的广义估计方程和多水平模型来处理这些非独立数据。
药物安全性评价的目的为通过统计分析安全性评价实验中产生的大量数据,得出药物的毒性相关信息。生殖毒性实验过程繁琐复杂,实验数据多样,尤其是窝效应和窝大小的不均一性越来越受到研究者们的重视,所以对于实验中产生的数据需要根据数据的特点选用合适的统计分析方法。生殖毒性实验产生的数据可以根据数据的特点将其分为母体数据和胎仔数据,其母体数据可以按照常规的统计方法进行统计分析。窝效应的存在使得生殖毒性实验中胎仔数据成为非独立数据,可以选用本文提到的随机效应logistic回归模型、广义估计方程和多水平模型等或者百分率统计和频数统计相结合的方法对胎仔数据进行统计分析,并根据胎仔畸形的类型以及背景数据做出合理的判断。