贝叶斯因子及其应用

2023-09-25 13:04朱训 顾昕
心理技术与应用 2023年9期

朱训 顾昕

摘 要 贝叶斯因子检验是零假设显著性检验的替代方法,心理学研究者可使用贝叶斯因子评估数据支持或反对理论模型的证据。但是,贝叶斯因子的原理较为复杂,在实践中正确使用和解释贝叶斯因子存在一定难度。为此,本文介绍贝叶斯因子的定义、用法和解释,结合案例展示贝叶斯因子在评估零假设、区间假设、信息假设时的具体应用,并讨论贝叶斯因子在统计模型和实证研究中的应用进展。研究者在使用贝叶斯因子时应重点关注先验分布的设置、贝叶斯因子的解释、后验模型概率。

关键词 贝叶斯因子;先验分布;后验模型概率;发表偏差

分类号 B841

DOI:10.16842/j.cnki.issn2095-5588.2023.09.001

1 引言

零假设显著性检验是当前心理学数据分析的传统方法。然而近二十年来,基于p值的零假设显著性检验受到了广泛的批评(王珺等, 2019; 温忠麟等, 2022; 钟建军等, 2017; Hoijtink et al., 2019; Masson, 2011; Wagenmakers, 2007)。首先,显著性检验是在假定零假设为真的情况下进行的,因此无法获得支持零假设的证据(许岳培等,2022; Wagenmakers et al., 2018)。其次,研究者将p值与预先设置的显著性水平作比较,推断是否拒绝零假设。二分的统计推断可能导致发表偏差和研究不可重复的问题,获得显著性结果的心理学实证研究论文更容易被发表(胡传鹏等, 2016; Open Science Collaboration, 2015)。例如,同一研究问题的十项研究可能仅一项结果显著并被发表,其余九项得到非显著性结果的研究被忽略。此外,显著性检验结果无法简单地进行数据证据的更新,多重假设检验需要校正显著性水平(Rouder, 2014)。零假设显著性检验的缺点使得研究者重新思考它的使用和替代方法。比如,Wasserstein和Lazar(2016)强调何时、何故以及如何正确地使用p值。Benjamin等(2017)提出将常用的显著性水平从0.05改为0.005。但是,更严格的显著性水平无法解决发表偏差的问题,甚至可能使更多的非显著性结果被忽略。Trafimow和Marks(2015)则建议研究者不使用统计推断决策,仅考虑描述统计来呈现数据分析结果。但是,描述统计通常无法直接回答研究问题。

零假设显著性检验的另一种替代方法是贝叶斯因子检验(吴凡等, 2018; Heck et al., 2023)。首先,贝叶斯因子量化了数据支持零假设或备择假设的证据,这为统计推断提供了更多信息。为了控制发表偏差问题,贝叶斯因子可不作二分统计推断,仅报告研究假设得到的数据证据(Hoijtink et al., 2019)。其次,贝叶斯因子可以同时评估多个假设或模型,且无需多重检验调整。原因是贝叶斯因子不预先控制I类错误,不需要调整显著性水平。最后,贝叶斯因子可以通过数据的不断收集更新支持或反对假设的证据,即贝叶斯更新。尽管贝叶斯因子不控制I类和II类错误率,但研究者仍可以通过先验分布的设置调整贝叶斯因子检验的I类和II类错误率(Gu et al., 2016)。此外,研究发现贝叶斯更新使得贝叶斯因子检验相比零假设显著性检验有相同或更小的I类和II类错误率,意味着相同的统计功效,贝叶斯因子检验的样本容量要求更低(Schönbrodt et al., 2017)。

贝叶斯因子检验需要设定假设模型下的参数先验分布,不同的先验分布会影响贝叶斯因子的统计推断结果。Rouder等(2009)使用Jeffreys-Zellner-Siow先验,开发了R软件包BayesFactor用于t检验、方差分析和回归分析等模型的零假设和备择假设评估。Mulder等(2012)使用最小训练样本定义先验,开发了BIEMS软件用于假设检验和模型评估。Gu等(2018)使用部分样本似然函数设置先验,开发了R软件包bain用于零假设、区间假设、次序假设等的评估与比较。该软件的适用模型广泛,包括多元正态线性模型、广义线性模型、随机效应模型、结构方程模型等(Hoijtink et al., 2019; Van Lissa et al., 2021)。当然,能够计算贝叶斯因子评估假设或模型的软件工具还有很多(JASP Team, 2020)。

目前,已有许多文献从不同视角介绍贝叶斯因子,推广了其在心理学研究中的应用(Hoijtink et al., 2019; Schmalz et al., 2023; Wagenmakers et al., 2010)。在国内心理学研究中,胡传鹏等(2018)介绍了贝叶斯因子的原理、解释及其在特定软件JASP中的实现。吴凡等(2018)重点阐释了贝叶斯因子的原理、优势和计算。但是,以往研究未涉及贝叶斯因子在零假设、区间假设、次序假设检验中的具体应用,也没有讨论贝叶斯因子在具体统计模型中的研究进展。为此,本研究结合数据分析实例,阐述贝叶斯因子的基本方法和实际应用,并讨论贝叶斯因子在统计模型和实证应用中的进展。

2 贝叶斯因子

本节将借助一个简单的例子介绍贝叶斯因子的相关概念,关于贝叶斯因子更详细的理论介绍可参考Kass和Raftery(1995)。样例数据来自Bem(2011)提出的关于超感知觉(ESP)是否存在的实验。实验共有n=40名被试,每人先看两张卡片,一张正面有数字,另一张正面有特殊图片,然后猜测哪张卡片上有特殊图片。实验得到x=26人选择了正面为图片的卡片。根据研究问题,构建零假设表示被试猜对的概率为50%,即ESP不存在;备择假设表示被试猜对的概率不等于50%,即ESP存在。更具体地,在零假设下可建立模型

M1:x~Binomial(n=40,θ=0.5)

模型假设成功的次数服从二项分布,并且猜测正确的概率为θ=0.5;在备择假設下可建立模型

M2:x~Binomial(n=40,θ≠0.5)

该模型表示正确选择的概率θ不等于0.5。频率统计通常通过估计参数θ,并计算p值或置信区间进行推断。比如在上述例子中参数估计值为=26/40=0.65,95%置信区间为[0.48,0.79],p值为0.096,因此在α=0.05的显著性水平下,模型M1不能被拒绝。此时,由于显著性检验无法接受零假设,研究者无法得到任何结论。

贝叶斯统计推断使用贝叶斯因子量化数据对两个竞争假设或模型的支持程度,计算贝叶斯因子需要指定各模型下参数θ的先验分布。先验分布反映了观测数据之前各模型下参数θ的可能取值及概率。模型M1指定θ恰好等于0.5,相应的先验分布也指定θ=0.5是唯一的取值。然而,模型M2并没有指定θ,参数θ≠0.5需要设定先验分布量化预期效应大小的不确定性。

先验分布的设定是贝叶斯统计的重点和难点。研究者既可以指定主观的先验分布,也可以设置默认的先验分布(Heck et al., 2023)。主观先验反映研究者的主观信念,比如相信ESP的研究者可以指定均匀分布θ~Uniform(0.5,0.6),表示θ的取值在[0.5,0.6]之间且可能性相等。该先验反映了如果ESP存在,正确选择卡片的概率略大于随机选择的概率0.5。一般来说,主观先验分布是模型的扩展,将M1与M2的比较变为θ=0.5与θ~Uniform(0.5,0.6)的比较。默认先验分布通常在先验信息不存在时使用,研究者将得到客观的、完全基于数据的贝叶斯推断。比如,当研究者不知道θ的可能取值时,可设定θ~Uniform(0,1),即概率θ在0到1区间内取任何值的概率相等。

在指定先验分布后,贝叶斯因子需要计算每个模型下数据的边缘似然函数(marginal likelihood,ML)。比如,边缘似然ML(x=26|M)是给定特定模型的情况下,在n=40次试验中观测到x=26次正确猜测的概率。边缘似然值越大,模型结合先验对数据的预测效果越好。在计算两个模型的边缘似然函数后,其贝叶斯因子可由下式计算:

因此,贝叶斯因子直观地比较了两个模型对数据的预测能力。

贝叶斯因子可以解释为数据支持两个模型的相对程度。如果贝叶斯因子等于1,说明数据对模型M1和M2的支持程度相等;如果贝叶斯因子等于5,表明数据对模型M1的支持程度是M2的5倍;如果贝叶斯因子等于0.2,意味着数据对模型M2的支持程度是M1的5倍。已有研究给出解释贝叶斯因子的一般准则(胡传鹏等, 2018; Kass & Raftery, 1995),并推荐使用3或1/3作为阈值推断模型是否得到数据的支持。若BF12>3,则存在证据表明数据支持模型M1;若BF12<1/3,则数据支持模型M2;若1/3<BF12<3,则没有足够的证据表明数据支持任一模型。但是,以3或1/3为阈值的贝叶斯因子同样会产生引言中提到的发表偏差和研究不可重复的问题(Tendeiro & Kiers, 2019)。比如,当M1是所期望的模型时,贝叶斯因子BF12>3的研究结果更有可能被发表。

为此,统计学者提倡不使用贝叶斯因子作二分推断,仅呈现贝叶斯因子量化数据支持模型的程度(Hoijtink et al., 2019)。与显著性检验不同的是,贝叶斯因子相比于p值有更具体的含义,故不需要形式上的阈值。如果BF12=2.5,研究者仅需报告M1得到的数据支持程度是M2的2.5倍。当然,如果BF12=100,那么研究者自然地认为数据支持M1的证据是可信的。如果BF12在1附近,则通常认为贝叶斯因子不偏向任何模型。

贝叶斯因子的另一种表达是后验模型概率比与先验模型概率比的比值:

因此,贝叶斯因子可以随着数据的收集不断更新研究者对模型的信念。在没有先验信念时,研究者可以设置相等的模型先验概率,即P(M1)=P(M2)=0.5。这时,贝叶斯因子等于模型后验概率的比值。后验模型概率表示在观测数据后,研究者对模型选择的信念。比如P(M1|x=26)=0.6表示M1是最佳模型的概率为60%。另外,后验模型概率也可表示贝叶斯错误概率(Bayesian error probability)。与频率统计的I类和II类错误率不同,贝叶斯错误概率是在真实模型未知的情况下,分析数据后选择模型的错误率。若P(M1|x=26)=0.6,则表示选择模型M1可能出错的概率为1-0.6=0.4。因此,后验模型概率评估了贝叶斯因子检验的不确定性。

3 贝叶斯假设检验

3.1 应用案例

贝叶斯因子可用于检验零假设、区间假设、信息假设等。本节引入应用案例,并在之后的3.2、3.3、3.4节结合案例展示贝叶斯因子在以上假设检验中的具体应用。

案例采用儿童教育电视节目《芝麻街》(Sesame Street)数据(Pituch & Stevens, 2016)。《芝麻街》是教授3~5岁儿童学前技能的动画片,该数据包含N=240名年龄在34到69个月的儿童,其中男孩115名,占比47.9%。变量包括儿童观看节目后的数字测验得分(均值M=29.45,标准差SD=12.59)、观看节目前的数字测验得分(均值M=20.76,标准差SD=(10.62)、词汇测验得分(均值M=46.80,标准差SD=16.08)、年龄(均值M=51.01,标准差SD=6.29)等。该数据集可在R软件包bain中找到。图1给出了变量的相关系数矩阵热图。

研究假设包括:(1)男孩和女孩的数字测验后测平均得分不存在差异。(2)儿童在观看《芝麻街》后的数字测验平均得分高于前测平均得分。(3)儿童数字测验前测得分对数字测验后测得分的影响比词汇测验得分大,而词汇测验得分的影响又比年齡大。

3.2 贝叶斯零假设检验

研究者通常通过证伪零假设获得支持研究理论的证据。零假设是对总体参数的精确表述,比如零假设H0∶μ1=μ2表示实验组与对照组的均值完全相等。检验零假设需要将其与备择假设相比,备择假设与零假设对立互斥,比如备择假设H1∶μ1≠μ2表示实验组与对照组的均值不相等。这里的一个问题是,零假设是具体的,可使用μ1-μ2=0的先验分布定义,但是备择假设非常模糊,我们并不知道均值的具体差异是多少。频率统计推断常以概率的方式表达备择假设,如μ1-μ2是服从正态分布的随机值。类似地,贝叶斯统计推断通过设置参数的先验分布定义备择假设,如设置μ1-μ2的正态先验分布。在定义零假设和备择假设下μ1-μ2的先验分布后,即可计算贝叶斯因子比较数据对零假设与备择假设的相对支持程度。

贝叶斯零假设检验相较于传统零假设显著性检验有着诸多优点。首先,贝叶斯检验可以量化数据对零假设的支持,而显著性检验只能拒绝或不拒绝零假设,不能得到支持零假设的证据。其次,在收集数据的同时,贝叶斯检验可以不断更新对所关注假设的支持程度。当计划和执行一项研究时,如果所关注的理论假设没有得到令人信服的数据证据支持,在贝叶斯范式中,研究者可以选择继续收集更多的数据并更新对假设的评估。最后,贝叶斯零假设检验不控制I类和II类错误率,即在观测数据前,从总体中重复抽样的决策错误率(I类和II类错误在观测数据之前被确定)。相反,贝叶斯检验控制贝叶斯错误概率,即在观测数据后,根据数据信息做出错误决策的概率(贝叶斯错误概率不考虑从总体中重复抽样会发生什么,而是完全取决于数据本身)。因此,研究者在实验设计时无需设置显著性水平、统计功效阈值等与I类和II类错误率相关的指标。

当然,贝叶斯零假设检验对使用者提出了更高的要求。贝叶斯检验需要思考备择假设的实际含义是什么(Heck et al., 2023)。与传统显著性检验只需指定零假设不同,贝叶斯检验比较两个实实在在的假设,因此必须明确备择假设的含义。如在H0∶μ1-μ2=0的零假设和H1∶μ1-μ2=0.5的备择假设下,贝叶斯因子BF01=5表示总体效应为0的模型受到数据的支持程度是效应为0.5的模型的5倍。然而,如果将零假设与H2∶μ1-μ2=0.2进行比较,我们可能得到BF02=0.5,说明备择假设H2受到的数据支持更多。这一现象表明贝叶斯零假设检验比零假设显著性检验更为复杂,研究者需要指定备择假设下效应的先验分布来定义备择假设是什么。当然上面两个例子中的备择假设都是不合适的,与零假设相对的备择假设应该包括参数或效应的所有可能取值。为此,心理统计学者提出默认先验定义备择假设,如标准化均值差异的柯西分布(Rouder et al., 2009)、近似正态分布(Gu et al., 2018)等。此外,根据心理学研究的实际情况,出现在零假设周围的效应取值更有可能出现,比如对于标准化均值差异,μ1-μ2=0.2显然比μ1-μ2=20更有可能出现。在备择假设下,若预期的效应量较小,则先验分布的方差较小,可能的取值在零假设附近;若预期的效应量较大,则先验分布的方差较大,可能的取值远离零假设。

研究者已开发出方便心理学者使用的贝叶斯检验软件,包括SPSS、JASP、R、Python在内的诸多软件均支持贝叶斯零假设检验。本文以R软件包bain(Gu et al., 2019)为例,分析3.1节应用案例中的研究假设(1):男孩和女孩的数字测验后测平均得分不存在差异。根据研究问题确定零假设H0∶μ男=μ女和备择假设H1∶μ男≠μ女,其中μ男和μ女分别表示男孩和女孩的数字测验后测平均得分。随后,使用两独立样本t检验分析数据,得到样本均值差为男-女=1.24,95%置信区间为[-1.97, 4.45],t值为0.76。零假设显著性检验的结果为p=0.447,在α=0.05的显著性水平下无法拒绝零假设,没有得到任何结论。贝叶斯因子可以作为显著性检验p值的替代,在呈现统计量t值后,报告贝叶斯因子以及模型的后验概率,解释假设被支持的数据证据和不确定性。在案例中,贝叶斯零假设检验的结果为BF01=11.58,表明数据支持零假设H0的证据是备择假设H1的11.58倍,即男孩和女孩的数字测验后测平均得分不存在差异的数据证据是存在差异的11.58倍。通过BF01又可以计算零假设的后验模型概率为BF01/(1+BF01)=0.92,表示在观测数据后,零假设正确的概率为92%,也表明错误接受零假设的概率为8%。该数据分析的R代码见附录。

3.3 贝叶斯区间假设检验

贝叶斯检验通常比较零假设和备择假设(Wagenmakers et al., 2018)。但是,研究者应该思考零假设是否能准确反映研究理论。例如,均值相等的两个总体是否真的存在?零假设所描述的“没有任何差异”“没有任何效应”能否准确反映真实总体(Cohen, 1994)。人們更接受总体参数“接近于零”或者不大于指定的效应量的假设。这时,区间假设更能反映研究理论,即总体差异或效应是否在某个区间范围内(Heck et al., 2023)。

常见的涉及区间假设的设计类型是优效性设计,在这种设计中,零假设(例如,药物或干预没有效果)与备择假设(例如,药物或干预有一些积极的效果)形成对比。经典频率统计推断通常使用单侧t检验分析此类设计下的实验数据。比如检验零假设H0∶μ=0与备择假设H1∶μ>0。与优效性设计相对的是非劣效设计,该设计的目标是证明新的治疗药物或干预方法不比现有的差,需要在观测数据之前设置非劣效临界值,如μ0。同样通过单侧t检验比较“零假设”H0∶μ<μ0与备择假设H1∶μ≥μ0。使用区间假设的另一种设计类型是等价设计,零假设被定义在0附近的小区间[-μ0,+μ0],即H0∶-μ0≤μ≤μ0,备择假设与区间假设对立,即H1∶μ<-μ0或μ>μ0。

以上三种设计下的区间假设都可以使用贝叶斯因子评估(Van Ravenzwaaij et al., 2019)。区间假设的范围大小根据总体效应大小指定,备择假设的先验分布可选取以零为中心的柯西分布(Rouder et al., 2009)或正态分布(Hoijtink et al., 2019)。具体而言,对于优效性设计的备择假设,先验分布可使用截断柯西分布,使得负值的分布概率为0,进而计算零假设与单边假设的贝叶斯因子。与显著性检验类似,贝叶斯单边检验比双边检验更容易拒绝零假设,具有更大的统计功效。对于非劣性设计和等价设计,两种假设都是区间假设,都可使用以零为中心的截断柯西先验,并计算两个互补假设的贝叶斯因子。

考虑3.1节应用案例,根据研究假设(2):儿童在观看《芝麻街》后的数字测验平均得分高于前测平均得分,构造区间假设H0∶μ后>μ前和H1∶μ后≤μ前,其中μ前和μ后分别表示儿童数字测验前测和后测平均得分。使用配对样本t检验分析数据,得到样本均值差为后-前=8.69,95%置信区间为[7.48,9.90],t值为t=14.15。贝叶斯区间假设检验的结果为BF01=2.29×1014,H0的后驗模型概率约等于100%,选择H0的贝叶斯错误概率约等于0。研究者可以很确信地给出儿童数字测验后测平均得分高于前测平均得分的结论。数据分析的R代码见附录。

3.4 贝叶斯信息假设检验

第3.2、3.3节讨论了零假设和区间假设检验的贝叶斯方法。正如前文所述,研究者不应该不假思索地使用零假设。很多情况下即使拒绝了零假设,也只能说“发生了一些事情,但不清楚是什么”。因此,研究者应该直接评估能够准确反映研究期望的假设。研究期望可能是“男孩和女孩的数学自我概念不存在差异”,可能是“接受药物治疗的患者疼痛感轻于接受安慰剂的患者”,也可能是“自我意识是影响大学生幸福感的最重要因素,其次是学校学习和人际交往”。以上研究期望可以用H0∶μ男=μ女、H1∶μ药<μ安、H2∶μ自>μ学>μ人等假设表达。这里,H0是零假设,H1是区间假设,H2被称为次序假设,表示效应的大小排序。零假设、区间假设和次序假设都可以纳为信息假设的范畴(Hoijtink et al., 2019)。信息假设与无信息的备择假设对应,用来精确表达研究理论与期望。

信息假设使用等式和不等式(“等于”“小于”或“大于”)对现有模型参数进行约束,模型参数可以是总体均值、方差、回归系数、因子负荷等。例如,若μ代表四个连续的测量平均值,则μ1-μ2>μ2-μ3>μ3-μ4说明平均值的差异随着时间的推移而减小;若μ代表两因素方差分析的均值,则μ11-μ12>μ21-μ22表示存在特定的交互效应;若μ代表标准化回归系数,则μ1>μ2>μ3表示自变量对因变量影响的大小排序;若μ代表因子负荷,则μ1>0.5,... ,μ5>0.5表示每个因子负荷都大于0.5。此外,信息假设也可包含非线性约束 (Klugkist et al., 2010),比如若μ代表列联表中的概率,μ11μ22/μ12μ21>1表示优势比大于1,即两个分类变量存在关联。信息假设还可以表述变量的相对重要性,即变量对模型拟合的重要性大小(朱训, 顾昕, 2023; Gu, 2021)。总之,各类明确的研究理论与期望都可以用信息假设表达。

信息假设既可以使用传统频率统计p值评估(Silvapulle & Sen, 2004),也可以使用贝叶斯因子评估(Gu et al., 2014)。p值可以检验零假设与备择假设、零假设与其他信息假设,但是无法比较除零假设以外的相互竞争的信息假设。而贝叶斯因子则可以评估两个信息假设得到的相对数据证据。当只评估一个信息假设时,贝叶斯因子可将其与互补假设相比较。例如μ1>μ2>μ3的互补假设为包含μ2>μ1>μ3、μ2>μ3>μ1等其他五个次序约束的假设,记为互补假设HC。信息假设的先验分布可设置截断先验,与无约束的备择假设具有相同的先验形式。比如,若设定备择假设下μ1,μ2,μ3的先验为多元正态分布,则信息假设μ1>μ2>μ3下的先验分布为限制在该约束条件下的截断多元正态分布。

回顾3.1节应用案例,评估研究假设(3):儿童数字测验前测得分对数字测验后测得分的影响比词汇测验得分大,而词汇测验得分的影响又比年龄大。先建立回归模型

数字后测得分=β0+β1数字前测得分+β2词汇测验得分+β3年龄

其中β0表示截距,β1,β2,β3表示相应的回归系数。随后根据研究假设构建信息假设H1∶1 >2>3,其中代表标准化回归系数。注意,比较自变量影响大小需使用标准化系数。分析数据得到标准化回归系数1,2,3的估计值分别为0.57,0.15,0.06,95%置信区间分别为[0.46,0.67],[0.04,0.26],[-0.04,0.16]。将信息假设H1与互补假设HC相比较,计算贝叶斯因子得到BF1C=38.77,表明数据支持信息假设H1的证据是其互补假设的38.77倍,意味着有很强的证据表明在数字测验后测得分的影响因素中,前测得分的影响大于词汇测验得分,又大于年龄。数据分析R代码见附录。

4 贝叶斯因子的应用进展

研究者使用t检验验证正态总体均值是否等于预设值、两个正态总体均值是否存在差异等研究问题。贝叶斯t检验已有完善的统计方法和软件工具。在心理学领域,研究者提出设定t检验的效应量服从柯西先验分布(Rouder et al., 2009),但是基于柯西先验的贝叶斯因子无显式表达式,计算较为困难。为此,Morey等(2011)在柯西先验分布下,使用马尔科夫链蒙特卡洛(MCMC)抽样方法有效估计t检验的贝叶斯因子。此外,在该方法的基础上研究者提出有信息的贝叶斯t检验,展示如何根据效应量的先验信息设定柯西先验分布(Gronau et al., 2019)。需要指出的是,柯西先验分布不是贝叶斯t检验的唯一选择。事实上,对于t检验的总体均值和方差,正态-逆伽马共轭先验也应用广泛。Gu等(2016)比较了不同先验分布下,贝叶斯检验的I类和II类错误率,并指出可通过调整先验参数控制错误率。

方差分析用于三个及以上总体均值的比较,是实验心理学常用的统计方法。在贝叶斯方差分析中,Rouder等(2012)将柯西先验分布拓展到多正態总体均值,并使用MCMC抽样方法估计贝叶斯因子。该方法可用于固定效应、随机效应、混合效应的方差分析,同时允许连续协变量的存在。而Wetzels等(2012)基于正态-逆伽马先验,介绍了贝叶斯方差分析,并讨论了贝叶斯因子的计算、性质和应用。此外,对于比较多个正态总体均值大小的次序假设,贝叶斯方差分析的优势更为明显。Klugkist等(2005)最早提出均值次序假设的贝叶斯因子检验,将贝叶斯因子表示为次序假设限制下的模型拟合度与复杂度之比。

回归分析是推断多变量关系必不可少的统计方法。一方面,贝叶斯回归分析需指定回归系数和残差方差的先验分布,最常用的g先验设置回归系数β在残差方差σ2给定的条件下服从正态分布β|σ2~N(0,gσ2(X'X)-1),其中X表示自变量矩阵,g为超参数(Liang et al., 2008)。在g先验分布下,贝叶斯因子有显示表达式,计算方便。Rouder和Morey(2012)将g先验下的贝叶斯因子推广到心理学研究应用中,为贝叶斯因子检验提供了软件工具。另一方面,变量选择是回归分析的关键步骤,旨在找出对因变量有实际影响的自变量,排除干扰或冗余变量。与假设检验不同,变量选择需要比较多个模型,贝叶斯评价指标为后验模型概率。后验模型概率表示为贝叶斯因子和先验模型概率的乘积,因此在进行贝叶斯变量选择时,除了要计算贝叶斯因子,先验模型概率的设置也至关重要。当研究者无任何偏好,且自变量数目较少时,可设置各模型的先验概率相等;当自变量数目较多时,则建议使用全贝叶斯(Fully Bayes)方法校正模型先验概率(Gu et al., 2022)。

除了t检验、方差分析、回归分析等经典模型,贝叶斯因子检验也已应用到列联表模型(Klugkist et al., 2010),重复测量模型(Mulder et al., 2009),结构方程模型(Van Lissa et al., 2021),多元线性模型(Mulder & Gu, 2022),混合效应模型(Van Doorn et al., 2023),高斯图模型(Williams & Mulder, 2020)等。研究者也开发出多个统计软件支持各类模型下的贝叶斯因子计算,包括R软件包BayesFactor,bain,BFpack,BayesVarSel,BayestestR等。其中软件包BayesFactor和bain已集成在可视化统计软件JASP中。

不同的贝叶斯因子计算软件有不同的先验分布设置。其中,软件包BayesFactor设置备择假设下参数的柯西先验分布,并通过超参数调节先验方差的大小。默认的超参数将使得95%的先验分布落在社会科学研究常用的效应量范围[-1,1]内。软件包bain和BFpack使用部分数据样本设置参数的共轭先验,超参数为用于先验分布的数据样本比例。默认的超参数将设置最小训练样本。此外,软件包bain正态近似参数的后验分布,可用于一般统计模型的贝叶斯因子计算,而BFpack仅限于线性正态模型的贝叶斯检验。软件包BayesVarSel适用于变量选择,默认使用稳健g先验设置回归系数的先验分布。软件包BayestestR需借助其他软件先获得参数的后验分布抽样,再计算贝叶斯因子。该软件包并未提供默认的先验分布,但给出了设置有信息先验的指导。

由于先验分布设置的差异,不同软件包可能给出不同的贝叶斯因子。但是,基于默认先验的贝叶斯因子通常差异不大,在不考虑阈值的情况下,研究者不会得到相悖的结论。而当样本容量较大时,贝叶斯因子具备一致性,不同软件将给出类似的结果。本文建议研究者在研究设计时明确先验分布和分析软件,在数据分析时依据预先计划计算贝叶斯因子。当然,先验分布和分析软件的选择往往是主观的决策,可能影响研究结果,这些决策被称为“研究者自由度”。需要指出的是,频率统计同样存在研究者自由度,包括显著性水平的设定,统计量的选择等。比如,对于相同的研究假设和数据,瓦尔德检验、似然比检验、bootstrap抽样方法得到的p值也会存在差异。因此,尽管研究者试图客观,但无论是频率统计还是贝叶斯统计推断,都无法得到完全客观的结果。

贝叶斯因子的模型应用研究和软件开发已较为完善,这为贝叶斯因子的实证应用打下了基础。针对不同应用领域,研究者结合具体案例阐述了贝叶斯因子数据分析的基本方法。例如,在认知心理学领域,Wagenmakers等(2010)给出贝叶斯因子的使用教程,并分析了注意力缺陷多动障碍研究的实证数据;在实验心理学领域,Wetzels等(2011)利用t检验实例,展示贝叶斯因子的数据分析过程,并与显著性检验p值相比较,结果显示两者得到的数据证据存在差别;在发展心理学领域,Van de Schoot等(2014)以人格和人际关系的交叉滞后模型为例,介绍了贝叶斯数据分析策略和结果报告范式;在神经科学领域,Keysers等(2020)指出大脑研究明确有效和无效的实验操作十分重要,并利用贝叶斯t检验和方差分析,教程式地展示了贝叶斯因子推断无效实验操作的过程。这些贝叶斯因子实证研究教程均在相关领域得到了广泛关注,促进了贝叶斯因子在心理学实证研究中的应用。

在心理学数据分析中,贝叶斯因子有着显著性检验不可替代的优势。与传统显著性检验相比,贝叶斯因子可以得到支持无效应零假设的证据。在具体案例中,Keysers等(2020)使用贝叶斯因子得到大鼠前扣带皮层失活不会导致非社交性触发冻结行为减少的结论。此外,贝叶斯因子在推断研究假设是否得到数据支持的同时,量化数据支持假设的证据和强度,这也是显著性检验所不具备的。比如,Wagenmakers等(2010)根据贝叶斯因子检验得出,注意力缺陷多动障碍的儿童与正常儿童在威斯康辛卡片分类测验上的表现类似,并且支持该结论的数据证据是反对该结论(即表现存在差异)的5倍。

5 总结与讨论

贝叶斯统计推断已广泛应用于心理学数据分析(李贵玉, 顾昕, 2021; Van de Schoot et al., 2017)。但是,目前大部分應用仅涉及贝叶斯参数估计,未考虑贝叶斯假设检验。参数估计和假设检验是统计推断不可或缺的环节。前者关注特定模型下参数的估计值及误差范围,解决的是什么样的参数值最可信的问题;后者比较两个或两个以上的理论假设,判断的是哪种理论模型能更准确地描述数据。相比于显著性检验,贝叶斯检验在心理学数据分析中的应用还不够广泛。研究者在计划使用贝叶斯因子时缺乏具体方法、模型和案例指导。为此,本文重点介绍了贝叶斯因子及其应用,为研究者正确使用贝叶斯因子评估零假设、区间假设、信息假设提供了方法支持。此外,本研究展示了贝叶斯因子在统计模型和实证研究中的应用进展,帮助研究者了解贝叶斯因子的适用模型和应用场景。期望本文对贝叶斯因子的论述能够推广其实际应用。

贝叶斯因子检验为心理学研究的统计推断提供了新方法,但是研究者也可能会错误使用、错误解释贝叶斯因子。先验分布对贝叶斯因子至关重要,它以分布的形式精确表达研究理论和先验知识。但是,当先验知识不存在或无法获得时,参数估计常用的无信息先验不能用在贝叶斯因子的先验设置上,否则将导致无论观测数据如何,贝叶斯因子永远支持零假设的后果。因此,研究者需要根据研究问题设置具有实质含义的先验,这增加了贝叶斯因子的使用难度。为此,贝叶斯因子检验软件给出了默认先验设置,在先验信息缺失的情况下,研究者使用软件的默认设置即可。

贝叶斯因子作为贝叶斯检验指标,能否避免发表偏差和研究不可重复的问题,取决于研究者如何解释贝叶斯因子。为方便研究者使用,统计学者将贝叶斯因子表达的数据证据划分类别,如BF12>3表示有令人信服的证据支持第一个模型。但是,本文不建议使用严格的贝叶斯因子阈值对数据证据做二分或三分判断,更推荐的方法是报告数据支持假设的相对证据。需要注意的是,不作二分推断的贝叶斯因子能在一定程度上减少发表偏差的问题,但无法完全避免该问题。解决发表偏差问题的一种方法是研究的预注册。预注册要求研究者在收集数据之前完成研究设计和数据分析计划,并提交同行评审。审稿人和期刊根据研究问题的意义和研究设计的合理性决定是否接收文章,文章被接收后再开展数据收集和分析工作。无论数据分析结果如何,预期研究假设是否受到数据支持都不影响文章的发表。但是,预注册对同行评审的要求更高,研究设计和数据分析计划的合理性,在收集或分析数据之前可能较难判断。比如,数据的正态性与方差齐次性等可能会影响统计方法的选择。

贝叶斯因子检验同样存在不足。首先,贝叶斯因子的原理较为复杂,不熟悉贝叶斯方法的研究者难以理解。本研究结合实例,以较为简单的方式阐释了贝叶斯因子的含义,关于贝叶斯因子的数学原理可参考胡传鹏等(2018)和Kass和Raftery(1995)。其次,贝叶斯方法需要设置参数的先验分布。一方面,对于主观先验,研究者如何将抽象的先验信息转化为具体的先验分布是贝叶斯方法的难点。尽管已有文献讨论贝叶斯因子检验的主观先验分布设置方法(Gronau et al., 2019),但其应用模型十分有限。另一方面,对于客观先验,贝叶斯因子无法使用无信息先验,不同默认先验下的贝叶斯因子存在差异,研究者面临选择。最后,贝叶斯因子的计算困难,尽管已有许多软件支持贝叶斯因子的计算,但在复杂统计模型的开发进程上还落后于频率统计推断方法。此外,复杂模型下的贝叶斯因子计算需要借助MCMC抽样,计算效率不如频率统计推断。

贝叶斯因子检验的未来研究方向应关注不同默认先验的比较与整合,方便研究者理解并选择合适的先验分布。同时,用户友好的贝叶斯统计软件的开发与优化也是未来研究的重点。尽管目前已有JASP可视化数据分析软件能够用于贝叶斯数据分析,但其功能还不如社会科学常用软件SPSS。最后,统计方法的学习、应用和推广离不开课堂教学和科研训练。期望心理统计学者能在日常教学与学生培养工作中融入贝叶斯统计方法。

参考文献

胡传鹏, 孔祥祯, Wagenmakers, E.-J., Ly, A., 彭凯平(2018). 贝叶斯因子及其在 JASP 中的实现. 心理科学进展, 26(6), 951-965.

胡传鹏, 王非, 宋梦迪, 隋洁, 彭凯平 (2016). 心理学研究中的可重复性问题: 从危机到契机. 心理科学进展, 24(9), 1504-1518.

李贵玉, 顾昕 (2021). 贝叶斯统计方法的应用与现状. 心理学探新, 41(5), 466-473.

王珺珺, 宋琼雅, 许岳培, 贾彬彬, 胡传鹏 (2019). 效应量置信区间的原理及其实现. 心理技术与应用, 7(5), 284-296.

温忠麟, 谢晋艳, 方杰, 王一帆 (2022). 新世纪20年国内假设检验及其关联问题的方法学研究. 心理科学进展, 30(8), 1667-1681.

吴凡, 顾全, 施壮华, 高在峰, 沈模卫 (2018). 跳出传统假设检验方法的陷阱——贝叶斯因子在心理学研究领域的应用. 应用心理学, 24(3), 195-202.

许岳培, 陆春雷, 王珺, 宋琼雅, 贾彬彬, 胡传鹏 (2022). 评估零效应的三种统计方法. 应用心理学, 28(3), 369-384.

钟建军, Dienes,Z., 陈中永 (2017). 心理研究引入贝叶斯统计推断的必要性、应用思路与领域. 心理科学, 40(6), 1477-1482.

朱训, 顾昕 (2023). 变量相对重要性评估的方法选择及应用. 心理科学进展, 31(1), 145-158.

Bem, D. J. (2011). Feeling the future: Experimental evide-nce for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., ... Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 2(1),6-10.

Cohen, J. (1994). The earth is round (p<.05). American Psychologist, 49(12),997-1003.

Gronau, Q. F., Ly, A., & Wagenmakers, E.-J. (2019). Informed Bayesian t-Tests. The American Statistician, 74(2), 137-143.

Gu, X. (2021). Evaluating predictors’ relative importance using Bayes factors in regression models. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000431

Gu, X., Hoijtink, H., & Mulder, J. (2016). Error probabilities in default Bayesian hypothesis testing. Journal of Math-ematical Psychology, 72, 130-143.

Gu, X., Hoijtink, H., & Mulder, J. (2022). Bayesian one-sided variable selection. Multivariate Behavioral Res-earch, 57(2), 264-278.

Gu, X., Hoijtink, H., Mulder, J., & Lissa, C. J. V. (2019). Bain: Bayes factors for informative hypotheses. Retr-ieved from https://CRAN.Rproject.org/package=bain (R package version 0.2.1)

Gu, X., Mulder, J., Dekovic, M., & Hoijtink, H. (2014). Bayesian evaluation of inequality constrained hypo-theses. Psychological Methods, 19(4), 511-527.

Gu, X., Mulder, J., & Hoijtink, H. (2018). Approximated adjusted fractional Bayes factors: A general method for testing informative hypotheses. British Journal of Mathematical and Statistical Psychology, 71(2), 229-261.

Heck, D., Boehm, U., Böing-Messing, F., Bürkner, P., Derks, K., Dienes, Z., ... Hoijtink, H. (2023). A review of applications of the Bayes factor in psychological research. Psychological Methods, 28(3), 558-579.

Hoijtink, H., Mulder, J., van Lissa, C., & Gu, X. (2019). A tutorial on testing hypotheses using the Bayes factor. Psychological Methods, 24(5), 539-556.

JASP Team (2020). JASP (Version 0.13.1)[Computer software]. Retrieved from https://jasp-stats.org/

Kass, R. E., & Raftery, A. E. (1995). Bayes factors. Journal of the American Statistical Association, 90(430),773-795.

Keysers, C., Gazzola, V., & Wagenmakers, E.-J. (2020). Using Bayes factor hypothesis testing in neuroscience to establish evidence of absence. Nature Neuroscience, 23(7), 788-799.

Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach. Psychological Methods, 10(4), 447-493.

Klugkist, I., Laudy, O., & Hoijtink, H. (2010). Bayesian evaluation of inequality and equality constrained hypot-heses for contingency tables. Psychological Methods, 15(3), 281-299.

Liang, F., Paulo, R., Molina, G., Clyde, M. A., & Berger, J. O. (2008). Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association, 103(481), 410-423.

Masson, M. E. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing. Beh-avioral Research Methods, 43(3), 679-690.

Morey, R. D., Rouder, J. N., Pratte, M. S., & Speckman, P. L. (2011). Using MCMC chain outputs to efficiently estimate Bayes factors. Journal of Mathematical Psy-chology, 55(5), 368-378.

Mulder, J., & Gu, X. (2022). Bayesian testing of scientific expectations under multivariate normal linear models. Multivariate Behavioral Research, 57(5), 767-783.

Mulder, J., Hoijtink, H., & de Leeuw, C. (2012). BIEMS: A Fortran 90 program for calculating Bayes factors for inequality and equality constrained models. Journal of Statistical Software, 46(2),1-39.

Mulder, J., Klugkist, I., Van de Schoot, R., Meeus, M., Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated meas-urements. Journal of Mathematical Psychology, 53(6), 530-546.

Open Science Collaboration. (2015). Estimating the repr-oducibility of psychological science. Science, 349(6251), aac4716.

Pituch, K.A. & Stevens, J.P. (2016). Applied Multivariate Statistics for the Social Sciences (sixth edition). New York: Routledge.

Rouder, J. N. (2014). Optional stopping: No problem for Bay-esians. Psychonomic Bulletin & Review, 21(2),301-308.

Rouder, J. N., & Morey, R. D. (2012). Default Bayes factors for model selection in regression. Multivariate Behavioral Research, 47(6), 877-903.

Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J. M. (2012). Default Bayes factors for ANOVA designs. Journal of Mathematical Psychology, 56(5), 356-374.

Rouder, J. N., Speckman, P. L., Sun, D., Morey, R. D., & Iverson, G. (2009). Bayesian t-tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16(2),225-237.

Schmalz, X., Biurrun Manresa, J., & Zhang, L. (2023). What is a Bayes factor? Psychological Methods, 28(3), 705-718.

Schönbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., & Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences. Psychological Methods, 22(2),322-339.

Silvapulle, M., & Sen, P. (2004). Constrained Statistical Inference: Order, Inequality, and Shape Constraints. New York: Wiley.

Tendeiro, J. N., & Kiers, H. A. L. (2019). A review of issues about null hypothesis Bayesian testing. Psychological Methods, 24(6),774-795.

Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37, 1-2.

Van de Schoot, R., Kaplan, D., Denissen, J., Asendorpf, J. B., Neyer, F. J., & Van Aken, M. A. (2014). A gentle introduction to Bayesian analysis: Applications to deve-lopmental research. Child Development, 85(3), 842-860.

Van de Schoot, R., Winter, S. D., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian articles in psychology: The last 25 years. Psychological Methods,22(2), 217-239.

Van Doorn, J., Haaf, J. M., Stefan, A. M., Wagenmakers, E. J., Cox, G. E., Davis-Stober, C.P., ... Aust, F. (2023). Bayes Factors for mixed models: A discussion. Computational Brain & Behavior, 6(1), 140-158.

Van Lissa, C., Gu, X., Mulder, J., Rosseel, Y., Van Zundert, C., & Hoijtink, H. (2021). Teacher’s corner: Evaluating informative hypotheses using the Bayes factor in struct-ural equation models. Structural Equation Modelling: A Multidisciplinary Journal, 28(2),292-301.

Van Ravenzwaaij, D., Monden, R., Tendeiro, J. N., & Ioannidis, J. P. A. (2019). Bayes factors for superiority, non-inferiority, and equivalence designs. BMC Medical-Research Methodology, 19(71), 1-12.

Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.

Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman, R. (2010). Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method. Cognitive Psychology, 60(3), 158-189.

Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ... Morey, R. D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25, 35-57.

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133.

Wetzels, R., Grasman, R. P., & Wagenmakers, E.-J. (2012). A default Bayesian hypothesis test for ANOVA designs. The American Statistician, 66(2), 104-111.

Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson, G. J., & Wagenmakers, E. J. (2011). Statistical evidence in experimental psychology: An empirical comparison using 855 t tests. Perspectives on Psychological Science, 6(3), 291-298.

Williams, D. R., & Mulder, J. (2020). Bayesian hypothesis testing for Gaussian graphical models: Conditional inde-pendence and order constraints.Journal of Mathematical Psychology, 99, 102441.