病因统计推断中的因果关系研究

2012-01-17 05:12邓平基
中国社会医学杂志 2012年5期
关键词:科赫跳蚤患癌

邓平基

揭示疾病的发生原因并不容易,因为病因往往隐藏在复杂的自然、社会现象中,因果联系非常复杂。统计学作为一种工具,为寻找病因提供了科学的因果推断方法,曾经改变了人们的纯粹生物学病因观念;同时,统计学改变了科学界几乎所有领域的决定论观点,以至于许多统计概念和思想已经成为世界通俗文化的一部分,我们很自然地接受统计推断结果,似乎忘了哲学上一直以来关于因果关系的争论。事实上,对于病因推断的认识是一个还在不断向前发展的过程[1]。临床中关于药物治疗的推理通常也有两种因果思维,一种基于药物的作用机制,一种基于严格的临床试验得到的经验证据。例如,达菲(Tamiflu)是治疗流行性感冒的药物,其作用机制是能有效遏制一种叫做神经氨(糖)酸苷酶的病毒蛋白质,从而阻止病毒扩散。从机制上讲,它对治疗禽流感和甲型H1N1流感应该有较好的疗效,但至少在高致病性禽流感的临床试验来看,还存在许多不确定性[2]。由客观作用机制而做出的因果推理未必与临床观察的经验证据相吻合[2]。病因的统计推断方法往往有其成立的先验假设条件,甚至这些条件是不可经验证伪的,应该受到哲学思辨的拷问。本文旨在讨论统计推断中因果关系的含义,揭示因果统计推断背后隐藏的假设条件,从而看到病因统计推断的局限性。

1 因果关系与相关关系

统计学上的因果推断主要有实验性研究和观察性研究两种基本方法。观察向我们提供的知识似乎是自己呈现出来的;而实验则是为了知道事实是否如此,根据一定的理论或假设进行有计划的试验设计,主动获取数据,其特点在于能够在人为控制的情境之下研究事物的变化,从而发现其因果关系。科学研究中,通常先进行观察,形成假设后,设计实验方案进行实验,最后得出结论。实验试图探索因果信息,观察仅能获得相关信息[3]。根据统计学家Howland的观点:如果没有不可检验的假定的话,就不能由观察数据得出因果结论。现代统计学的奠基者之一Fisher也曾指出,不通过随机化实验,根本无法证明任何东西。当然,也有人持乐观观点,统计学家Cornfield就认为,有些现象虽然无法设计随机化实验,但相关证据的累积也能说明一些问题。这些学术思想的继承者尽管至今还在争论,但统计学作为科学研究的普遍工具已经成为共识,它在医学研究领域应该有所作为。

因果与相关是两个不同的概念,尽管在医学研究领域因果比相关更让人感兴趣,但目前的大多数统计方法仅适用于相关性研究,因果推断的统计模型相对还很少。尤其要注意的是,利用统计推断得到事物之间的联系,常常被错误地用于解释为原因和结果的关系。相关的结论意味着可能有因果关系,也可能没有,需要进一步研究加以区别。两个因素之间无因果关系,可能会表现出虚假的相关性;相反地,有因果关系也可能表现出虚假的相关性。英国新赫布里底(New Hebrides)群岛上的土著居民曾经有一个信条:身上的跳蚤会带来健康的身体。因为通过长期的经验累积,土著居民发现健康的人身上总有一些跳蚤,而身体赢弱的人通常没有。于是他们得出结论:跳蚤使人身体健康,每个人身上都应该有跳蚤。这种观察发现跳蚤与健康之间似乎是相关的,并经历了多年来人们随意的检验。但这并不意味着土著居民的病因推论也是正确的,后来的研究工作最终发现了新赫布里底的真相:在大多数情况下,每个居民身上都有跳蚤,这是正常情况,然而,随着体温升高,跳蚤不能承受高温而引起的不适,因此选择离开。由此可以看到,统计数据往往容易被混杂因素所混淆或遮挡因果或相关关系。统计结果更多反映的是相关关系,而非因果关系。

2 因果关系与实质蕴含

鉴于因果关系的自相矛盾,为了取代因果概念,罗素提出了实质蕴涵。从符号逻辑的角度,通过定义原子命题和基本联结词如“与”、“或”、“非”、“蕴含”与“等价”,再附加一些逻辑规则,完成“若命题A,则命题B”的推理。19世纪后期,德国医师科赫(Koch)提出了一组必要的假设,用来证明某种病原体将导致某种特定的疾病[4]。通俗地说,这些必要假设是:①只要病原体能够培养出来,疾病就会发生;②从研究疾病的所有病例中总是能检出该种病原体;③当病原体被消除,疾病就会消失。科赫这里给出的即是实质蕴涵的条件,现在看看肺癌和吸烟之间的联系在多大程度上符合科赫假设(从而检验了罗素的实质蕴涵是否适用):病原体是吸烟史,疾病是肺部表皮癌。一些吸烟者并没有患肺癌,不满足科赫的第一个假设;一些患肺癌的人却声称他们没有吸过烟,若我们信其所言,则不满足科赫的第二个假设。如果我们拿掉病原体,也就是让病人停止吸烟,他还是可能得病,因此不满足科赫的第三个假设。如果我们应用科赫假设(应用罗素的实质蕴涵),符合这些假设的,只有那些由血液或者其他体液培育出的特定病原体所引发的疾病。但是,对于心脏病、糖尿病、哮喘、关节炎或者其他形式的癌症,这些假设就不再适用。以上的实例说明,由于病因中可能有混杂因素或虚假相关,导致患者个体会表现出一些不确定性,这使我们在分析原因和结果时,难以应用事物实质蕴涵的精确性。

3 因果统计模型与Simpson悖论

统计学上直接用于因果推断的模型并不多,早期有列联表、路径分析、结构方程等,后来,Rubin提出虚拟事实模型,Pearl提出因果推断的网络图方法[3]。在病因推断的统计学方法中,很多数据分析方法都是首先得到相关关系,然后在一定的假设条件下转化成因果联系。如果忽视了原来模型提出时对因果机制的假定,将表示相关关系的参数当作因果关系处理,统计结论将被扭曲。以下给出一个理想实验:表1为一组随机对照研究病例,吸烟人群的患癌百分比与不吸烟人群的患癌百分比相比低10%,似乎吸烟对人类没有患病的危害。

表1 吸烟与肺癌的数值例 n

再根据性别将上面的数据进行分层后,得到表2的数据,分别计算男性吸烟人群的患癌百分比(60%),女性吸烟人群的患癌百分比(50%),男性不吸烟人群的患癌百分比(60%)和女性不吸烟人群的患癌百分比(20%),发现吸烟对男性和女性似乎都有患病的危害,这种现象称为Simpson悖论[4]。

表2 按性别分层后的吸烟与肺癌数值例 n

同样的数据不同的统计处理方法得到两个迥然不同的结论。如果我们采信第二种分析方法,那意味着我们先验地认为:吸烟致癌受到性别因素的混杂,分析时需要观察性别这一背景变量,并以此变量将数据分层,从而消除混杂因素影响。因此,在统计调查和分析时,必须慎重考虑哪些变量需要观察,哪些可以忽略。一个潜在的前提是吸烟致癌受到性别因素的混杂这一假设条件通常是不可经验证伪的。

病因的统计推断是因果推理的数学模型,其思想没有脱离哲学范畴,任何一个统计模型都有其局限性,它对因果关系的解释也需要综合多方面的证据。疾病的统计因果推理更多的是测量某种因素作用大小,而不是作为某种因素是否构成疾病原因的判断标准,盲目依赖统计工具是不利的。

[1]廖兵荣,谭红专.流行病学病因推断的辩证思维[J].医学与哲学(人文社会医学版),2007,28(1):14-15.

[2]Aalen O.Causality and Mechanisms:Between Statistics and Philosophy[M].Consilience:Center for Advanced Study,Oslo,2007.79-82.

[3]耿直.观察性研究与混杂因素[J].统计与信息论坛,2004,19(5):13-17.

[4]陶秋山,詹思延,李立明.流行病学研究中的病因与病因推断[J].中华流行病学杂志,2004,25(11):1000-1003.

猜你喜欢
科赫跳蚤患癌
我不是跳蚤侠
斗跳蚤
跳蚤
递归加权科赫网络中平均的齐次与非齐次加权接收时间(英)
几时
细菌造就微观界巨量
细菌造就微观界巨星
为什么跳蚤能跳得很高
双胞胎患癌几率会比常人更高