肖志尊
(中山大学哲学系暨逻辑与认知研究所,广东广州 510275)
从古希腊哲学家亚里士多德的“四因说”(four causes),到苏格兰哲学家大卫·休谟的原因与结果的“恒常汇合”(constant conjunction),再到美国哲学家大卫·刘易斯的“反事实依赖”(counterfactual dependence),认识因果关系一直是我们心之所向。
随着互联网的迅速发展,二十一世纪大数据(big data)的出现,使得情况发生了些许变化。大数据,其基本特征是3V,即容量大(Volume)、速度快(Velocity)、种类多(Variety)。[1]基于此,对大数据的相关研究蓬勃发展,部分大数据主义者认为我们不再需要理论和模型,只需要关注相关关系就够了,基于大数据的相关分析方法更快、更客观、更准确。那么处于大数据时代,相关关系是否能取代因果关系?本文更赞同“如何从相关关系中推断出因果关系,才是大数据真正问题所在”[2]这一观点。
因果关系,其表现形式多种多样,一因一果较为少见,更常见的是多因一果、一因多果和多因多果。通常我们只会研究主要的(或感兴趣的)因或果,这时就会存在不确定性。于是我们将概率语言纳入对因果关系的研究中,从数学的意义上来探究因果关系。此时,对因果关系的判定就转变为对因果效应的准确估计。这在很多方面都是举足轻重的,大到国家,加征十个点的关税会使得商品的产量增加多少;小到个人,每天多吸一支烟会多大程度影响到身体健康。在流行病学研究中,推断因果关系并估计因果效应更是永恒不变的主题,而消除混杂是实现这一目标的重要前提[3]。本文拟从混杂的角度认识相关和因果,并介绍了消除混杂实现因果效应准确估计的三种方法,对它们的优势、不足做了对比和分析。
清晨早起,你在观察到公鸡打鸣的情况下,大概率也会看到太阳升起。前者增加了后者发生的可能性,后者的发生总是伴随着前者的出现,我们认为这两者之间存在相关联系。那么相关就意味着因果吗?公鸡打鸣是太阳升起的原因吗?我们如何判定两个事件之间是否具有因果关系并估计因果效应的大小呢?
为了厘清这些困惑,我们介绍一些概念来更好地认识相关和因果。首先相关关系,指的是两个变量之间具有的相互关系和函数关系[4]。从概率论的角度看,变量(事件)X与变量(事件)Y的相关程度,可以用“条件概率”P(Y|X)来表示[5]8。它表示当你观察到X的情况下,Y将会发生的可能性。当概率提高时(P(Y|X)>P(Y)),我们认为X增加了Y发生的可能性,X与Y是相关的。[5]25此种情况对应于因果关系之梯第一层级“关联”。[5]8当观察到公鸡在打鸣了,我们就知道太阳也要升起了,这两者呈现高度相关。
因果关系,“指的是事件之间的一个序列,如果事件A引起事件B,则事件A是原因,而事件B是结果”[4]。已有文献利用概率来分析因果关系。[6]接下来我们介绍朱迪亚·珀尔(Judea Pearl)的想法,从概率的角度定义“因果效应”这个概念。首先介绍用来表示主动干预的do算子。[7]珀尔用do算子do(X=x),表示对变量X进行假想的干预。与之对应,在因果图中它意味着删除所有指向变量X的箭头,并且将变量X的值固定为x。此时,子变量X不再受原有父变量(原因变量)的影响,关于变量X的机制被强制干预引入的新机制X=x所取代,而保持其他机制不变。有了do算子,我们接着定义因果效应。变量(事件)X对变量(事件)Y的因果效应(causal effect),可以用“干预概率”P(Y|do(X))表示[5]127,其中P代表概率,竖线意味着“当你实施……行动的情况下”。它表示当你实施X行动的情况下,Y将会发生的可能性。当概率提高时(P(Y|do(X))>P(Y)),我们认为X导致了Y,X是Y的一个因。[5]27此种情况对应于因果关系之梯第二层级“干预”[5]8。
有了以上的概念,我们能明白为什么相关和因果容易让人混淆了。直觉上,我们可以用“概率提高”这一概率定义因果关系,“如果X提高了Y的概率,那么我们就说X导致了Y”[5]25。但是,如果只使用条件概率来表示概率提高,这种概率提高很可能是由其他因素(如混杂)造成的,你只能得到统计上的相关性,回答的也只是因果关系之梯的第一层级“关联”的问题。要想体现概率提高的因果解释,我们需要借助do算子,使用干预概率来表示概率提高。
绝大多数情况下,相关程度P(Y|X)不等于因果效应P(Y|do(X))。在诸多影响因素中,混杂因子的存在是最常见,也是最重要的影响因素之一。接下来,让我们介绍混杂因子的简单定义:一个变量Z同时影响到变量X和变量Y时,变量Z就是混杂因子[5]115。
珀尔使用图模型来表示变量及其因果关系,直观的因果图帮助我们识别混杂因子。因果图模型由节点,有向边和路径组成。如图1所示,节点X,Y,Z代表不同的变量(事件),两节点之间的有向边表示直接的因果关系,“X→Y”表示X导致了Y,X是Y的一个因。同理,图1中的Z既是X的原因,也是Y的原因,Z是X和Y的共同原因,变量Z就是混杂因子。而路径则是由一系列边连接而成。从节点X到节点Y一共有两条路径:路径X←Z→Y和路径X→Y。由路径X←Z→Y诱导的X和Y之间的伪相关[8](即无因果的相关),与路径X→Y表示的X对Y真正的因果效应混合在一起了,我们只能观察到X和Y之间总的相关程度。
图1
回到公鸡打鸣的例子。用变量X,Y,Z分别表示公鸡打鸣,太阳升起和时间。我们观察到的是两个时间段X和Y的状态:早上公鸡打鸣和太阳升起,晚上公鸡不打鸣和太阳不升起。这两个状态的差异让我们以为公鸡打鸣X是太阳升起Y的原因,即“X→Y”。我们现在知道了时间Z是混杂因子,在控制混杂也就是比较同一时间段的情况下:早上公鸡打鸣和太阳升起,早上公鸡生病不打鸣和太阳依旧升起;晚上公鸡不打鸣和太阳不升起,晚上吓唬公鸡使得公鸡打鸣和太阳依旧不升起。通过同一时间段下的对比,我们明白了公鸡打鸣并不会导致太阳升起。我们观察到的这两者之间的相关,是由“X←Z→Y”诱导产生的伪相关。这是一种特殊的情况,其中X完全不是Y的原因,“X→Y”不存在。现实中,图1描述的混合现象更为常见,它涉及著名的辛普森悖论[9]。它向我们展示了由于混杂因子的存在,数据会如何“欺骗”我们的大脑,影响我们做出错误的决策。
现在我们知道,混杂因子的存在使得相关程度P(Y|X)不等于因果效应P(Y|do(X))。消除混杂因子影响的过程,是从相关性走向因果性的重要过程[10]。下一步我们要做的是,消除混杂,使得最后留下来的相关性就是真正的因果效应。
混杂存在时,相关不等于因果。在消除混杂因子的影响后,我们就可以得到真正的因果效应。这一节我们介绍消除混杂实现因果效应准确估计的三种方法:[5]133
第一种消除混杂的方法被称为,Z调整或Z控制,即对混杂因子Z进行统计调整或者控制。由于混杂因子Z的存在,我们不能直接使用观测数据估计X对Y的因果效应。首先我们需要按照混杂因子Z将数据分为不同的组,在每个组内分别估计X对Y的因果效应,最后再加权求和。
在对混杂因子Z进行控制后,留下的相关性就是真正的因果效应。例如我们观察到,当冰激凌的销量增加时,溺水事件也会同时增加。此时,温度是混杂因子,会同时影响到这两个事件。所以实际上是,在温度升高的影响下,我们观察到冰激凌销量和溺水事件增加。如果消除温度的影响,结果会怎样呢?可以在同一温度下记录这两个事件的数据,我们会发现这两者之间很可能是毫无联系的,冰激凌销量的变化并不会影响到后者。在对温度进行控制后,这两者之间就变得不相关了,也就说明了前者并不是后者的原因。在这里,混杂因子温度就等同于哲学家所提出的“背景因子”[5]26。不足之处是,你需要事先识别所有的混杂因子。
第二种消除混杂的方法是,随机对照试验(randomized controlled trial,简称RCT),其研究方法是将符合标准的受试者随机分配到处理组或对照组,对每一组实施相应的干预措施,在一致的条件下对比效果差异。[11]179随机对照试验通过随机化方法,可以消除混杂因子的影响,对因果效应进行内部有效的无偏估计,被认为是临床试验的黄金标准。
那么,随机对照试验可能存在哪些问题。(1)内部有效性问题,指“一项研究不存在偏倚或系统性误差的程度”[11]33。在现实操作中,随机试验的实际过程会很大程度影响到内部有效性,比如招募不力引起的样本不足。(2)外部有效性问题,是指“研究结果可应用、可推广或可转用于未参与研究的人群或群组的程度”[11]34。由于实际参与随机试验的人一般是经过层层筛选产生的,他们和患有相同疾病的人群是存在差异的,因此并不能代表真正的患病人群,得到的试验结果无法直接使用。这就是外部有效性问题。(3)其他问题。由于道德伦理或试验成本的限制,使得随机对照试验无法顺利开展和完成[11]11。另外,大型的随机试验需要投入大量的时间、金钱和人力,成本高昂。
第三种消除混杂的方法就是,以因果图为基础的do演算(do-calculus)。Do演算,是一组(三条)推理规则。其中,每一条推理规则解释do算子为干预,对应修改初始图模型中的一组函数。通过这些推理规则,包含干预概率和条件概率的语句能转换为其他等价的语句,因此提供了一个干预声明的句法推导方法。[12]Do演算可以作为随机对照试验的补充或扩展,在不实际实施试验的情况下,使用观测数据就可以预估真正的因果效应。
使用do演算来估计因果效应的方法如下。假如我们的目的是确定事件X对事件Y的因果效应P(Y|do(X))。首先,根据已有的科学知识和必要的假设构建因果模型即因果图(部分情况下,利用收集到的数据信息,用算法协助可实现因果网络结构学习[13])。在因果图中,节点对应于事件,箭头对应于直接的因果关系。箭头为子节点,箭尾为父节点,父节点就是子节点的直接原因。当然,因果图是部分可验证的。根据因果图,我们可以输出可验证的数据,将其与实际数据进行对比,当两者相冲突的时候,我们就需要修改因果图,使得数据与因果假设能相互匹配。
在建立因果图后,我们要确定事件X对事件Y的因果效应P(Y|do(X)),就要对X实施干预do操作。我们用do(X=x)或者do(x)来表示主动干预将变量X的值设定为恒定值x。此时,变量X不再受父变量影响,X的值由新的机制X=x唯一确定。这意味着,我们需要修改因果图,将所有指向X的箭头全部抹去(图2)。其理由是,伪相关信息通过混杂因子Z在X和Y之间传递,造成X和Y之间的伪相关。那么将所有指向X的箭头全部抹去后,X只能通过因果路径到达Y,此时留下的相关性就等于真正的因果效应。
图2
那么,我们如何从表达式中去除do算子,将干预概率转化为条件概率,达到从观测数据估计因果效应的目的呢?
常见的方法有以下几种。第一种方法,后门调整[5]195。我们通过对混杂因子进行调整来阻断混杂因子的影响,也可以通过调整其他的可替代的变量来同样达到消除混杂的目的,这就是后门调整公式。第二种方法,前门调整[5]199。当混杂因子未知且找不到其他可替代变量的时候,可以尝试使用前门调整公式。那有没有一种方法将上面两种方法囊括其中?有,它就是do演算[5]206。利用do演算三大规则和因果图及其子图,通过逐步的推导论证就有可能将表达式P(Y|do(X))转化为一个没有do算子的表达式。如果最后能得到只含有标准的条件概率的表达式,就说明我们能通过已观测的数据准确无误地估计出因果效应,我们就说表达式P(Y|do(X))是“可识别的”。
以因果图为基础的do演算能解决随机对照试验的部分问题:(1)可迁移性问题,即将在研究人群中得到的因果效应迁移到目标人群的问题,是外部有效性中一个更加具体的问题。珀尔和伊莱亚斯·巴伦拜姆(Elias Bareinboim)对其做了研究,并提出了解决方案。其核心是根据图示使用do演算进行迁移运算,将前者的结果“迁移”到后者上来使用。[14]在整个过程中,珀尔等人的研究方法依赖于研究者具备充足的背景知识这一假设,即至少能定性地确定研究人群和目标人群间存在的差异和共性。在现实使用时,可能选择图中的大部分变量都存在较大差异,此时我们将无法实现可迁移性。因此,研究环境和目标环境严格相似是可迁移性能实现的一个必要条件。
(2)不完全依从性问题,指在随机对照试验中,试验对象没有完全遵守随机分配的治疗方案,试验偏离了随机控制的理想方案。不完全依从性会带来问题,如果拒绝服药的受试者恰恰是那些会产生不良反应的受试者,这时我们就会高估药物的有效性。此情况下不能简单地对比处理组和对照组的治疗效果来评估药物的有效性。结合反事实的结构模型,亚历克斯·巴克(Alexander Balke)和珀尔针对此问题提出了解决方案。[15]
(3)其他的问题,如样本选择偏倚问题[5]330。从总体中抽取样本时没有强制要求,受试者自愿接受研究,那么纳入研究的样本很可能并不具有代表性,研究的样本与总体在某些方面不一致,就会产生选择偏倚。理想中如果总体中的所有单位都被纳入到样本中,也就是说将总体作为样本进行研究,此时就能完全消除选择偏倚的影响。利用do演算,也可以解决非代表性样本引起的选择偏倚问题。在因果图中,根据样本选择机制,从影响样本选择的变量到选择变量S添加箭头,形成新的因果图。再利用do演算规则推演公式,收集正确的去混数据集,之后便能通过公式调整来消除选择偏倚。
相关并不意味着因果。公鸡打鸣和太阳升起高度相关,但公鸡打鸣并不是太阳升起的原因。我们通过对比两种干预状态下因果效应的差异来判定两个事件之间是否具有因果关系。使用do算子表示的假设性的干预,将前事件置于两种不同的干预状态下(如有和无),得到后事件的两个结果,结果的差异就是因果效应差异。如果因果效应无差异,我们认为前者不是后者的原因;如果因果效应存在差异,我们认为前者是后者的原因,而差异的具体大小就表明了前者对后者的因果影响程度。所以,判定因果关系关键在于估计因果效应。本文介绍了混杂因子存在时准确估计因果效应的三种方法,即Z-调整、随机对照试验和以因果图为基础的do演算,并分析了这三种方法的应用场景和不足之处。
作为黄金标准的随机对照试验能准确估计因果效应,在于它消除了估计因果干预效应重要挑战之一——混杂问题。混杂因子通常以共同原因Z的形式出现,它在两个目标变量之间诱导产生伪相关,使最终得到的结果产生偏倚。随机对照试验通过随机化处理消除混杂,可以看作是一个现实的进行人为干预的方法。
随机对照试验有其局限性和实施难题[16],而以因果图为基础的do演算将因果过程直观化,结合观测数据也可能实现对因果效应的有效估计。当然,“根据观察性研究得出的这种因果估计很可能会被标记为‘暂时的因果关系’,即因果关系取决于我们绘制的因果图所反映的一组假设”。[5]127但笔者认为这个努力迈出了重要的一步,它提供了一个可选的方案,在随机对照试验不可行的情况下,利用已有数据仍有机会实现对因果效应的无偏估计,进而回答我们感兴趣的因果问题。“与其说‘do演算’是一个类公理的运算系统,倒不如说是人类认知能力的形式化与机械化尝试”[17],而因果图则可视为将人类思维能力直观化和形式化的结果。笔者认为do演算未来的一个方向,在于提高整体的容错性,特别是因果图的容错性。Do演算结果的准确性很大程度上取决于因果图的准确与否:因果图上多(少)一个变量,多(少)一个箭头,就可能得到错误的因果效应,导致“差之毫厘,谬以千里”的后果。但笔者相信,这些问题终将迎刃而解。