段乃华 王元佳
精神医学中的生物统计学(2)连续性结果测量的效应度
段乃华 王元佳
我们在上一期栏目中已经讨论了效应度是评估治疗效果的重要指标[1]。接下来我们讨论几种广泛使用的方法来计算连续性结果测量值的效应度(以后将讨论二分结果测量值的效应度)。
对连续性结果测量值,观察到的效应度(observed effect size,OES)是指以样本测量值均数计算的组间(研究组对比对照组)差异。它通常是在治疗结束时进行评定(当然也可以在不同的治疗时点评定,或在全部治疗完成之后的一段时间再评定,以测量疗效的持续时间)。OES定义为:
其中M1为研究组的样本均数,M0为对照组的样本均数。报告OES的时候,通常伴有相关的显著性检验和95%CI(采用OES的标准误差,即标准差除以样本量的平方根,进行计算;可信区间的计算参考Moore等[2]的方法)。
许多精神病学的研究结果是基于心理测量量表的分值,因此并不具备物理或生理学解释,使读者难以解释OES。例如,简明精神病量表(Brief Psychiatric Rating Scale,BPRS)评分均分的组间差异为1分,读者难以解释它对患者的意义。在这些情况下,研究者常采用标准效应度(standardized effect size,SES),即用观察到的差异除以适当的标准差(standard deviation,SD),而不是采用OES,以便对结果进行解释。SES定义为:
SES把研究组比对照组的优异性表示为SD的单位,因此能够帮助解释研究组治疗方案对一般患者人群的治疗效果。
对正态分布的结果测量值,SES可用患者人群的百分位数值来解释(可采用直方图或多种正态检验,如Kolmogorov-Smirnov检验,确定是否为正态分布)。例如,在所有接受治疗的患者中,标准治疗后患者症状的平均水平处于第50百分位数,新的治疗措施使患者的症状水平下降了1个标准差(也就是SES=1.0),那么,接受新疗法的患者的平均症状水平处于接受标准治疗的患者的第16百分位数,也就是说,有84%的接受标准治疗的患者症状会重于接受新疗法者的平均症状水平。
SES的计算可采用几种不同的SD:治疗组的合计SD,对照组的SD(假定它更能代表患者),或采用在更能代表患者群体的、大样本患者中独立进行研究获得的SD。Cohen[3]的估计值d运用治疗组的合计SD得到的SES,隐含地假定了组内方差(及SD)齐。Glass[4,5]的估计值Δ运用对照组SD,允许组内方差(及SD)不齐。近期,Henson[6]比较了Cohen的估计值d与Glass的估计值Δ,回顾了它们的作用及在临床研究中的解释。我们建议研究者常规进行组间方差同质性检验,如Levene[7]检验。这一检验具有两个重要的目的:①如果方差齐,采用标准t检验,但如果方差不齐,应采用Sat-terthwaite法校正t检验;②如果方差齐,采用合计SD计算SES(Cohen的d值),但如果方差不齐,应采用对照组SD(Glass的Δ值)。
Cohen的估计值d和Glass的估计值Δ都使用了SD的内部估计值。这些内部估计值采用临床研究患者数据样本来估计SD。可是,大多数临床研究的患者样本具有高度选择性,所以这些SD可能不能代表一般患者人群的SD。Johnston等[8]报道了临床研究的纳入标准如何影响了所报道的效应度。例如,采用严格的纳入标准招募到同质性的患者的临床研究,尽管可能OES并不大,量表评定后却可能得到较小的内部SD,相应地得到较大的SES。另一方面,为了增强外部效度(一般性)纳入不同质性的患者的临床研究,可能产生较大的内部SD,因此较小的SES,尽管此研究的OES与前述研究的OES数值相当。为避免同质患者样本的造成SES偏高的想象,Glass[5]推荐(我们也赞同)在可能的时候,应该采用外部估计的SD值来计算SES;这里的外部估计值是指从其他较大的,招募具有代表性的患者样本的研究中估计SD,以便得到代表一般患者人群的SD。例如采用最初进行的、旨在获得量表常模的心理测量研究报告中的SD来计算SES。
现用如下假定的情形来举例说明怎样计算OES和不同形式的SES。一项研究要比较新抗抑郁剂与标准抗抑郁剂的疗效,治疗结束时实验组与对照组汉密尔顿抑郁量表(Hamilton Depression Rating Scale,HAMD)评分的均数(标准差)分别为10.5(5.0)与14.0(8.0)。该研究HAMD的合计SD为6.7,一项大的国家抑郁症研究中HAMD的SD为7.5。OSE为-4.0(10.0-14.0)分;Cohen估计值d为0.60(4.0/6.7),Glass估计值Δ为0.50(4.0/8.0),采用外部研究SD值计算得到的SES为0.53(4.0/7.5)。
Cohen[3]提出了下述对SES大致进行分级的法则:d= 0.2、0.5、0.8分别表示“小”、“中等”、“大”的效应度。研究者常把这一大致法则用于临床研究的设计、统计效力检验及临床结果的解释。然而,这个法则是相对的,不是绝对的。对效应度分级的临床解释需考虑到所研究的每种治疗措施的特定情况:比较新治疗方法与标准治疗方案增加的成本,治疗获益和不良反应,等等。对有危及生命情况的低成本干预研究,SES为0.2,效应度为“小”,但它可能具有较大的临床意义。而对较次要的临床情况,高成本的干预研究,SES为0.8,效应度为“大”,但它可能不具有临床意义。我们将以后在本栏目中讨论有关临床意义的内容。
尽管精神病学文献已广泛报道SES,对某些结果测量值,例如体重的改变、纳入的例数、病情缓解的天数等等来说,OES比SES能提供较多的与临床生理明确相关的信息。例如,比较为期6个月的社区治疗与常规治疗对精神分裂症的疗效,治疗结束时实验组患者病情缓解的平均值(标准差)为150(60)天,对照组为100(50)天,那么OES为50天(这很容易理解)但很难解释SES(采用对照组的SD)为1.0。
文献中“效应度effect size(ES)”常指的是SES。这个术语有时会令人困惑,因为读者不清楚作者采用的是OES还是SES。我们推荐作者使用“观察效应度(OES)”和“标准效应度(SES)”的术语以阐明两种效应度计算方法的差别。理想的情况是,作者应说明用于计算SES的SD,如“基于合计SD的SES”、“基于对照组SD的SES”或“基于外部某研究的SD的SES”。