因果关系阐述

2023-01-05 00:33:03姚阿逍
合作经济与科技 2022年17期
关键词:因果关系概率变量

□文/ 姚阿逍

(西安财经大学统计学院 陕西·西安)

[提要] 因果关系是近十年来研究的热点,但人们对因果关系的理解依然建立在直觉之上。本文从哲学角度阐述人们对因果关系的研究是如何产生的,主要综述统计学对因果关系的研究,分为两类:一类为因果推断;另一类为概率因果论。运用简单的例子解释人们为什么会错把相关性视为因果性。

一、什么是因果关系

历史上对因果关系的理解尚未达成一致,还没有一个大多数人能接受的定义。因果关系一般指的是两个事件之间的一种作用关系,其中一个事件会导致另一个事件的发生,前一个称为原因,后一个称为结果。中国的文学作品中对一些自然现象提出一些感性的追问,如屈原的《天问》,追问日月星辰运行的原因。中国最早对因果的理解来自佛教,因缘果报是佛教重要的思想之一,但因缘与果报是一种十分宏观的理解,没有与科学产生联系。因果关系的科学研究主要是通过量化以及归纳推理的方法,主要可以分为四种:充分因果、必要因果、充要因果和部分因果。前三种因果关系可通过实验或者逻辑方法得出,但部分因果必须借助观测数据进行研究。部分因果又叫贡献因果,也是我们社会生活中最常见的因果关系。目前,自然科学和社会科学中对因果关系的研究方法主要可分为四种,分别为新休谟理论、反事实理论、操控实验理论、机制理论。

二、因果关系的应用

无论在社会科学还是自然科学中,事物之间的联系错综复杂,如果能发现事物间准确的影响关系将会有很多益处,这样我们就可以通过控制确定的事物来影响不可控制的事物。古代史上伟大的哲学家亚里士多德认为,我们不能仅仅关注于结果“是什么”,还应该掌握“为什么”,这样才算真正理解一个事物。近些年来,统计机器学习发展迅速,也取得了很大的进步,但是当前统计机器学习主要是对变量之间的相关性探究,并非变量之间的因果性,而且目前的机器人并非真正意义上的智能。统计学、经济学、社会学、政治学、教育学、流行病学、计算机科学、哲学等领域均对因果关系做出了研究。在医学中,通过操控实验寻找病因是医学界最常用的因果检测方法。通过将人群随机分为两组,使两组在各种评价指标上都尽可能相似,而唯一不同的是待考察的原因,进而根据两组之间的区别判定因果关系。15 世纪,探险家长期航海,船员出现了身体虚弱和牙龈出血等症状,通过实验发现橘子可以治疗该疾病,直到20 世纪才发现橘子中的维生素C 可以治疗该症状;在经济学中,判断某种政策对经济的影响,如新冠肺炎疫情的防疫政策对经济造成严重影响,如果该政策在北京不造成影响,那么在上海是否会有影响,以及预测新的防疫政策能否解决该问题。但通过统计学的方法探究因果关系寸步难行。统计学研究的是观察数据,信息的不充分限制了可知的界限。比如想要研究吸烟是否会导致肺癌,这个方法不能采用医学实验的方法,不能强迫某个人去吸烟以及不吸烟,这不符合伦理道德,退而求其次,人们不得不寻找统计学的方法。多尔和希尔通过20 所医院的数据发现吸烟与肺癌之间的强相关关系,随后费希尔质疑该观点,从他们的数据中发现,吸入式抽烟的人群患肺癌的比率要低于非吸入式,所以不能排除是某种基因同时导致人们抽烟和引起肺癌,最终的结论只能说明吸烟与肺癌之间存在强相关关系,不能得出具体的因果性。因果关系在应用方面极为重要。在基于相关关系的推荐系统中,如果你买一本统计学书,可能会给你推荐一系列统计类相关书籍,如果在基于因果系统的推荐系统,它不仅会推荐统计相关书籍,还会推荐考研书籍,甚至辅导班;如果你在网上购买牙刷,相关系统会推荐各种品牌的牙刷,在因果系统中会给你推荐牙膏和牙刷。

三、因果关系的哲学研究

西方最早对因果关系的理解是,原因对结果起着推动与延缓作用。关于如何推动与延缓,历史上,亚里士多德首次做出了四因说的解释,分别为动力因、目的因、质料因、形式因。以工匠做雕像为例,雕像的材质作为质料因,工匠脑海中雕塑的形象为形式因,雕塑过程中使用的工具作为动力因,实现雕塑家所想象的完整雕像为目的因。17 世纪出现了对因果关系是否客观存在的争论,一方以莱布尼兹为代表的理性主义认为因果关系来源于理智,可以通过逻辑演绎推理得到,另一方洛克却认为因果关系只是人们的一种观念或感觉。随后,休谟继承了经验主义的观点,否认因果关系存在的必然性,认为因果关系只是人们的一种信念产物,我们只能观察一个事物伴随着另一个事物的变化规律,不能真正认识到它们之间的关联,支撑我们现实的一切必然事物都将失去其必然性,我们永远不能得到真正的因果关系,只能观察因果关系之间在时间上存在着前赴后继的时滞性以及关联性。休谟提出这种观念后,使得人们不断地怀疑这个世界的真理。就在这个世界笼罩着怀疑主义的阴影时,德国哲学家康德提出了先天综合判断的哲学思想,冲击了休谟提出的因果律。他认为因果关系存在着必然性,因果关系是一种人们的经验知识与先天认知能力的一种结合体,如果把因果关系认为是一种观念认知,那么就无法解释数学知识。19世纪,逻辑学家穆勒对归纳法做了一次系统的阐述,得出如何通过逻辑方法探究事物之间的因果关系,提出了著名的探索因果联系的归纳方法──穆勒五法,使人们开始关注如何从逻辑上推断因果关系。

四、因果推断

进入20 世纪以后,随着量子力学和逻辑实证主义的发展,哲学界对于因果的理解发生了根本的转变,量子力学几乎彻底否定了因果关系存在的必然性。现代的因果关系研究不再从哲学上进行探讨,更多的是逻辑实证主义研究。

生物学家高尔顿在研究父母与子女身高中发现,并不是父母身高越高,子女身高也会更高,反而存在着“回归”现象,矮个子的父母反而会生出高个子的子女。自此,人们对因果关系的研究转向相关性。皮尔逊认为因果关系是一种无法被证明的关联,因果关系只是现代科学高深莫测的迷信,应当在许多科学中去除,引入皮尔逊相关系数度量因果关联的强度。1921年,莱特最早对因果关系进行形式化的定义,通过数学方法进行因果关系度量,利用等式和图的结合来表示因果关系,提出了结构方程模型,其中箭头表示出发结点对目的结点的因果作用,如果不存在箭头则表示两个因素之间不存在因果关系,如X→Z→Y。统计学家费希尔继承了皮尔逊的观点,对莱特利用统计方法研究因果关系进行了强烈的批判,使得对因果推断的研究推迟了近40年。1973年,刘易斯重新发展了休谟对因果反事实框架的概念,并对其进行规范化和形式化,奠定了反事实框架的基础。例如,想要研究受教育程度是否会影响收入,根据其定义,要让一个人同时上大学且不上大学,比较收入差异。正如哲学家所言,一个人不能踏入两条河流,平行宇宙的概念只是人们假想的,一个人要么上大学要么不上大学,所以现实中不能得出反事实因果。内曼在研究两种肥料对农作物产量的影响时,用数学化的语言提出了潜在结果概念,如果说这个人已经上了大学,那么它的对立面不上大学作为潜在结果且不能观测。费希尔虽然不认可莱特的因果路径图,但他认为在能采取随机试验的条件下,得出的因果结论是可信的。对一个群体采用随机抽样的方法,硬币正面让其上大学,反面去工作,如果存在差异则表明存在因果关系。

就在最近十年,通过观测方法研究因果关系成为热门。1974年,鲁宾在反事实框架基础上,结合内曼的潜在结果和费希尔的随机试验,系统地提出鲁宾潜在结果模型,这是一种通过观测数据去模拟随机试验的方法,其中的倾向匹配方法受到广泛应用,其思想是通过样本配对尽可能使两个毕业生之间条件相似,如他们的家庭环境、长相、性格等因素。但在当时,因为统计学对因果推断的回避却很少人关注,直到近十年才发现鲁宾是真正意义上的因果推断奠基人。但潜在结果模型仍有不足点,因为假定个体处理值稳定,即个体的潜在结果不受其他个体的处理影响,一个人上大学可能会被另一个人影响,例如李四上大学会被张三影响,而且要求每个个体和处理只有一种潜在结果,需要通过一定方法弥补该缺陷;由于因果关系之间存在因果反馈的现象,即与之相互影响,不能描绘反馈机制的因果系统是最大的缺陷。1995年,珀尔在莱特的基础上通过概率语言完善了莱特的因果图模型。珀尔将结构方程模型和潜在结果框架相结合,提出了结构因果模型,其在流行病学和社会科学研究中被广泛使用,同时他结合反事实框架提出了一种认知因果关系的过程,首先通过观测发现存在的问题,然后对该问题进行干预或处理,最后进行反事实的思考得出因果结论。人们发现公鸡打鸣后太阳升起,有人认为鸡鸣是太阳升起的原因,那么通过干预使得公鸡第二天不打鸣,发现太阳依旧升起,说明公鸡无论打不打鸣太阳依旧升起,所以公鸡打鸣不是太阳升起的原因。

五、概率因果论

如果说我们不能通过因果推断得出因果关系,却急需一个因果解释用来做决策时,那么因果关系的可能理论具有一定实际意义。部分哲学家更喜欢用概率表示因果关系:如果X 提高了Y 的概率P(Y|X)>P(Y),那么我们就说X 导致了Y。自反事实框架的提出后,还有部分学者喜欢用P(Y|X)>P(Y|X)表示。由概率得出的因果关系,被称为贡献因果或部分因果。

概率因果论有四种问题需要注意:(1)不完全,原因不一定会产生结果,吸烟只是增加了肺癌概率;(2)无关性,伴随结果出现的条件可能与结果无关,例如盐被魔法师施了魔法,放在水中会溶解,但施魔法不会使盐溶解;(3)不对称,如果A 导致B,那么通常B 不会导致A,如吸烟会导致肺癌,但肺癌不会导致吸烟;(4)伪相关,水银柱的下降标志着气压下降,气压下降导致暴风雨来临,但水银下降不是暴风雨来临的原因。1956年,汉斯·莱辛巴赫的《时间的方向》出版,在这本书中,莱辛巴赫关注的是时间不对称现象的起源,特别是热力学第二定律所决定的熵增,他第一个提出了概率因果理论,尽管其中一些观点可以追溯到1925年的一篇更早的论文。

香农熵表示随机变量的平均不确定程度,表示为H(X)=-∑p(x)logp(x),随机变量的不确定程度越大,H(X)越大,如果H(Y|X)<H(X),那么X 是Y 的原因。1958年,控制论之父维纳从预测角度对概率因果提出了一种新的哲学概念,在时间序列模型中,如果X 是Y 的原因,那么X 可以提高Y 的预测。然而维纳的定义对数据分析产生了一定的困难。格兰杰1969年利用随机过程的向量自回归模型进一步优化了维纳的因果预测理论,其主要思想为:若采用时间序列X 和Y 的历史信息对Y 进行预测,优于仅采用Y 的历史信息对Y 进行预测的结果,即时间序列X 有助于解释时间序列Y 的未来变化趋势,那么时间序列X是时间序列Y 的格兰杰原因。

随后,有很多人误认为格兰杰原因是真实的因果关系,如闪电可以预测打雷,但闪电不是打雷的原因,为了避免误解,他也提出一种新的名词解释“时间相关”。1970年,苏佩斯在概率因果的基础上,加入时间变量解释概率因果论,可简单理解为,如果X 在Y 之前发生导致了Y 的发生,P(Yt|Xt')>P(Yt),t'<t,那么X 是Y 的原因。1995年,珀尔也对概率因果进行了改进,如果对X 进行一个人为干预或处理能提高Y 的概率,则X 是Y 的原因,用do(X)算子表示让X 吸烟,公式变为P(Y|do(X))>P(Y)。2000年,施莱伯等人提出了转移熵的概念,如果两个变量之间存在因果关系,那么在时间上存在从因到果的信息转移,这种信息流动可以用熵率表示,熵率通俗的理解是随机过程平均每产生一个随机字符所带来的不确定度大小。通过比较两个系统之间熵率的差异定义转移熵,转移熵越大,表示因果关系越强。2009年,巴奈特等证明了格兰杰因果分析与转移熵之间的联系,在一定条件下格兰杰因果关系与转移熵是等价的。以恩斯特·马赫、伯特兰·罗素等人为代表的物理学家和数学家,改造了休谟的理论,提出了新休谟式的框架——X如果是Y 的原因,那么X 的出现应该是Y 出现的充分条件。据此,2012年苏吉哈拉等基于系统动力学提出了收敛交叉映射方法,基本思想为如果变量X 对变量Y 有影响,而且可以从Y 的时间序列历史中恢复变量X 的信息,则可以建立从X 到Y 的因果关系,该因果影响通过计算预测X 值和观察到的X 值之间的相关系数来度量。另一个典型的方法是2019年11月的Science Advances 一篇论文中提出的PCMCI算法,该方法可以检测非线性系统下的因果关系。

六、总结

人们对因果关系的理解普遍建立在概率因果论之上,所以会容易把相关性当作因果性。原因是人们不能很好地分辨内生性问题。内生性问题分为混淆变量、中间变量和对撞偏倚。因果推断主要是判别混淆变量、中间变量和对撞偏倚,因果网络图模型结合潜在结果模型可以简单直观地分辨内生性,然而概率因果会回避此类问题,通常把它们视作随机误差项。根据休谟对因果关系的理解,其中最重要的一点就是不能存在任何的内生性问题。最为经典的当属辛普森悖论。通过数据发现,某高等院校会对性别有歧视,男生的录取率远高于女性,但在划分专业后却不存在该问题。如果原因出现了多个结果,那么该原因就是一个混淆变量,结果之间会存在正相关关系,用路径图表示为X←Z→Y,如有人认为孩子鞋的尺码会影响孩子的阅读能力,并且有着很强的正相关性,但人们忽略了年龄这一混淆变量,孩子的年龄越大,他的鞋码就会越大,阅读能力就会更强。中间变量表示为X→Z→Y,则认为Z 是一种中介物,间接影响了X 与Y 之间的相关性,而Z 才是Y的真正原因,如过去认为橘子是治疗坏血病的原因,直到维生素C 的发现,使得人们相信维生素C 才是真正的原因。一个人的长相与才华会帮助他成为明星,当我们看到一个长相不佳的明星时,我们会自然地认为他很有才华,在确定是一个明星的条件下,颜值与才华呈现出负相关关系,这就说明出现了对撞偏倚的现象。对撞偏倚可以理解为一个结果出现了多个原因,用路径图表示为X→Z←Y。

猜你喜欢
因果关系概率变量
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
抓住不变量解题
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
南大法学(2021年6期)2021-04-19 12:28:02
也谈分离变量
做完形填空题,需考虑的逻辑关系
帮助犯因果关系刍议
SL(3,3n)和SU(3,3n)的第一Cartan不变量