王 进
国际视野下的中国运动心理学研究考量
王 进
今天的中国运动心理学研究发展需要新的视点。国际对接更需要研究的质量做保证。基于此,在回顾并比较国际运动心理学研究发展的同时,着重就我国运动心理学研究发展中的问题进行了分析与讨论。首先肯定了我国运动心理研究发展的成果。同时,也指出了发展中的瓶颈问题。从国际视野的角度,针对我国运动心理研究的理论运用问题进行了辨析;进一步,对我国部分学术期刊发表的运动心理研究结果的真实性问题进行了分析。“检力分析”(Power Analysis)发现,在所测样本中效应大、中、小的“检力”分别为0.94、0.40和0.10,普遍低于国际水平;总体分析样本中符合国际通用“检力”接受标准的研究仅占10%, 90%的研究可能存在“I型错误”(Type I Error)或“II型错误”(Type II Error)。另外,研究P值解释误区和研究设计问题也在文中进行了讨论。基于这些问题,从研究论文的可读性和质量两个方面提出改进的建议。并提出,今后的学术研究应报告“效应大小”(Effect Size)。
运动心理学;检力分析;效应大小;置信区间
国际运动心理学会第13届世界大会将于2013年在中国北京举行,这对中国的运动心理学研究来说无疑是一个发展契机。然而,如何面对国际化科学研究发展的新挑战、如何展示中国运动心理学研究发展的水平并与国际对接,是本文要探讨的问题。
文章回顾国际运动心理学研究发展的同时,考量我国相关学科研究的现状,从中领悟中国运动心理学研究发展的国际对接新途径。基于此,笔者结合多年来教学、科研及审稿过程中引发的思考,对比国外运动心理学研究的水平,着重分析国内运动心理学研究存在的一些质量问题,其目的在于通过质量讨论,努力寻求解决我国运动心理学研究的瓶颈问题,尽快缩短国内、外同类研究的差距。当然,在分析问题的同时,难以做到尽善尽美,甚至有的观点不一定能得到认同,仅供参考。希望这些讨论能为2013年北京运动心理学大会召开前的中国运动心理学研究发展带来一些启示。
20世纪80年代,国际运动心理学经历了跨越式的发展。在以后的30多年中,人们逐渐认识到了运动心理学研究的重要性,这不仅是因为竞技体育的制胜要取决于心理、技术与体力的综合效应,更是因为体育活动对健康的涵义在于提升幸福感状态和生活质量(Buckworth&Dishman,2002)。早在20世纪80年代,随着积极心理学的出现,研究人员开始关注运动心理学的应用发展,并提出了“心理训练”的概念[4,28,36,48]。当时的运动心理学研究与实践主要集中在高级竞技运动的个体项目上[21]。到了21世纪,运动心理学研究已普遍被母学科所接受,并在世界范围内达成了运动心理学家,包括社会心理学应用的学术资格认证共识[15]。这一时期的国际运动心理学的研究领域得到拓展,内容涵盖了运动成绩的提高与赛前心理准备、运动中的情绪与情感、过度训练与倦怠、运动创伤的恢复以及体育锻炼的心理效应与生活质量等问题。
随着竞技体育的竞争性增加,研究不仅涉及个体运动项目的探索,还发展了许多团队体育项目的理论。许多运动心理学实践者意识到,心理援助已不仅仅是帮助运动员准备比赛,更重要的是增强运动团队有效的交流和培养积极团队发展的动机氛围,以及发展运动员人格[39]。从这个角度上讲,当代的国际运动心理学应用研究更加关注系统的纵向效应。由此,在教练员心理、运动学习与控制、锻炼心理与终身发展等研究领域衍生出了健康发展的相关问题与临床运动心理学的探索[14,37]。另外,在体育有关的社会心理学领域里,团队动力、凝聚力、交流技术和体育道德等方面的问题也是研究的热点[29]。
以1979年和1980年,中国心理学会和中国体育科学学会分别成立了运动心理学分会为标志,开始形成了学科建设的初创阶段。与国外相比,初创时期的研究似乎更强调针对高水平竞技体育的服务,主要关注优秀运动员心理特征评定、心理训练与咨询、教练员心理和运动员选材等方面的问题[3]。进入21世纪后,学科研究开始转向多元化发展,特别是在研究方法上,从不同角度、不同层面探索体育运动中的心理现象。此时,中国的研究领域已基本形成了竞技运动心理、锻炼心理和体育教育心理三个方向,主要包含了心理训练、运动认知、心理生理、自我概念、心理疲劳、锻炼与心境、锻炼与自尊、锻炼与认知功能、锻炼与生活满意感、健康运动处方、学习心理动力、体育教师心理特征、教学心理建设与教学模式心理效应等内容[1,2]。
总体上讲,国际运动心理学学者与我国学者所关注的问题略有不同,主要为运动心理与锻炼心理两个方向,从相关学术期刊看,国外学者相对偏重运动心理问题的探索,而且,研究较细、较深。我国运动心理学的研究除了运动心理与锻炼心理方向外,还有教学心理,这是我国研究的特色(表1)。
表1 运动心理学研究领域的国际比较一览表
表2 我国部分体育学术期刊发表的运动心理学研究领域分布一览表(1998—2009)
结合我国运动心理学研究成果的展示窗口,本文选择了国内具有代表性的体育学术期刊,考察研究的质量状况。根据《体育科学》、《中国体育科技》和《北京体育大学学报》1998—2009年以来发表的心理有关的研究,共统计到719篇论文。按照国际同类研究领域的划分方法[40],目前三种学术期刊涉及的内容主要包括增强运动表现、运动认知、运动情绪、过度训练与倦怠、运动创伤恢复、锻炼心理、社会心理、教练心理、运动学习与控制、健康心理、运动人格和研究方法等方面。从论文主题分布的情况看,与运动成绩有关的探索仍然是主流方向,其次是与健康心理、运动学习与控制、运动认知和运动情绪有关的研究(表2)。另外,从研究采用的设计范式看,定量的调查研究形成了主流,其次是实验研究。除此之外,文献综述是定性研究的主要内容(表3)。
应该说,目前我国运动心理学研究探索的领域基本上还是跟随了国际的主流意识。研究关注的问题也并不落后于国外的同类研究,有的甚至还表现出了中国自己的特色,研究水平也较过去有所提高。而且,越来越多的研究开始运用生理学、神经学、运动学、社会学等交叉学科的指标来探讨运动心理学的问题。从研究的设计上看,定量的实证性调查与实验研究(包括准实验)形成了目前较流行的运用范式。值得一提的是,现在仍有相当数量的研究在关注心理测量工具的开发,这对我国运动心理学研究的本土化探索有着重要的意义。
表3 我国部分体育学术期刊发表论文研究范式一览表(1998—2009)
表4 我国部分体育学术期刊发表的运动心理研究论文统计方法一览表(1998—2009)
但是,客观地讲,就国内学术期刊发表的论文质量来看,与国外的研究相比还有一定差距。笔者以为,缺乏科学严谨的研究设计和操作应该是造成差距的主要原因,这可能与我国研究人员的科学专业训练不够有关。例如,在统计的期刊论文中,有相当数量的研究论文缺乏理论,且方法创新不够;定性研究中采用具有探索特征的“现象归纳”和“理论演绎”设计并不是主流。除了《体育科学》杂志刊发的论文运用“现象归纳”和“理论演绎”相对多于“文献综述”外,《北京体育大学学报》和《中国体育科技》刊发的文章中“文献综述”研究仍是主流内容。这种现象表明相关的研究缺乏对新理论的探索,在创新性方面还显得不足。同时,在统计的论文中,有些还使用过于陈旧的,甚至错误的研究设计和统计方法,使得研究的信、效度过低,基本不能作为研究参考的依据;有的论文存在展示信息不全的问题,特别是许多论文忽略了研究过程和必要数据结果,使文章的可读性较低,对后续研究的参考价值不大。需要指出的是,在数据分析结果的表述中,发现在391次差异检验对其效应大小的报告,仅仅出现了4次(表4),说明研究人员对这一问题的认识并不十分清楚。其实,早在20世纪末,这个问题就引起了国际上许多学者的关注,并撰写了大量的论文来阐述它的重要性[8,9,24,41,49]。例如, Vacha-Haase等于2000年在《理论与心理学》上发表了名为“研究报告的实际情况与APA统计意义和效应大小的编辑原则”的论文,在文中他再次强调了APA标准对研究效应大小报告的意义[49]。
到目前为止,还不能给出中国运动心理学研究问题的前瞻性评价,但从我国学术期刊发表的论文看,研究成果展示出来的质量应该说还是存在着较大的差距。目前,我国所有学术期刊每年要发表上百篇运动心理学相关的论文,如果乐观地预测一下,真正有价值并可以引用的研究恐怕也是屈指可数的。关于这些研究质量的疑问,将逐一进行讨论。
近年来,笔者深感有相当一部分的研究人员对理论在研究中的角色认识并不十分清楚。在国外,研究的最终目的是为了发展理论。所谓“发展理论”在研究中不外乎有两种情况:一是,研究开始并没有可用的理论来进行指导,理论是通过研究创建起来的,这种情况通常是“发现研究”(Exploratory Research);二是,在原有理论基础上改进理论,这是真正意义上的“发展理论”,通常是通过“实证研究”(Empirical Research)来实现的。第一种情况的理论应该在研究的结论中清晰可见,如定性研究中,通过“现象归纳”提出新的概念和现象关系的解释机制。第二种情况是我们最常见到的,在研究的一开始就应该有理论的引导,而发展的理论在假设中。在这种情况下,数据的收集与分析固然重要,但仅能说明心理与行为的状态。只有理论才能赋予数据的内涵,解释心理与行为变化的原因和回答为什么变量与变量间会存在关系。
diSessa和Cobb曾讨论过理论在研究中的角色,他们认为,理论并不需要复杂,关键是要提供对观察对象的解读,回答“为什么”的问题[13],也就是阐述行为发生的内在含义。例如,研究体育活动参与的问题,研究人员假设自我障碍认知越高的个体,体育活动的行为就越可能会减少。理论提供了这种关系的解释,说明自我障碍会导致体育活动的自我效能感和自信心下降,以致使个体认为没有能力和信心去完成体育运动。进一步,自我效能和自信可能会减少行为的意向。这样,研究假设自我障碍的认知可能是影响体育活动的重要因素。这一演绎推理的结论可以通过数据来验证,所以,研究变量关系的构建实际上是一个理论的演绎。然而,许多研究却忽略对理论假设的演绎。试想,如果研究没有理论,读者就不能连接问题探索的前后背景,更无法判断为什么要研究这些变量。在审稿过程中,发现超过半数的稿件缺乏理论来解释变量间的关系。
从这个角度讲,要提升运动心理研究的质量,我们不能仅仅是简单地对过去的文献进行综述,或表述变量出现在过去的研究中,而应该意识到变量的关系组合是需要理论来组织的。Richard L Daft是一位《管理科学季刊》和《管理学杂志》的审稿专家,他曾在1995年写过一篇名为“为什么我要建议拒绝你的投稿与你能做什么”的文章[12]。在文中他清楚地阐述了理论在研究中所处的地位,并指出,“变量的测量、数据的收集以及数据的分析技术都是研究的重要部分,但它们并不足以使一篇论文发表”。
另外,特别值得一提的,是在一些定性研究中也存在着缺乏理论的问题。一般情况下,定性研究的基本目的是构建理论。论文要基于研究者观察或访谈的数据提出理论框架,结论则要明确提出新的概念和模型。与定量研究一样,定性研究同样要遵循理论比数据更重要的原则。研究人员应通过论文来提炼实践中的观察,完成理论对知识的贡献。然而,有的研究人员,特别是年轻的研究人员,可能是过于“胆怯”而不敢去深挖数据的内涵,更不敢尝试从自己观察到的现象中提出一个新的理论。我们应该明白一点,有时候并不是编辑不喜欢定性研究,而是这些研究没有模式、没有观点、也没有结论,更没有把构建理论放在论文首要位置而不得不拒绝发表。
对于一个希望发表的研究成果来说,无论是审稿专家还是期刊编辑,都会鼓励作者提供有意义的促进性成果。这样,在进行数据分析时,研究人员总是希望追求有意义的结果(即P<0.05)。然而,我们的问题是:当你提供一个研究结论时,你对自己有多大的把握保证你所提供的发现是真实的?就目前本文能够分析到的38个研究结果发现,90%的结论值得商榷。也就是说,当实际的差异并不存在时,作者却报告一个“有意义”的结果,统计学上把这种结论的错误称之为“I型错误”(Type I error)。相反,当实际的差异确实存在时,作者却报告了一个“没有意义”的结果,这种错误通常被称为“II型错误”(Type IIerror)。
怎样理解这个结果呢?我们还需要提到“零假设意义验证”(Null hypothesis significance testing,NHST)的理论。在统计学里,所谓NHST的理论是指研究中人们通常会寻求拒绝没有关系或没有差异的假设(即“零假设”),并以此为证据,说明研究假设存在的可能性[16]。但是,由于事件的偶然性,或是研究样本的问题,导致这些证据并非完全真实。这样,我们在提供这些证据时,必须要把这些因素考虑进去。因此,在NHST中,P值与α水平被用来判断证据错误的依据。同时,在这个过程中,我们接受至少有两种判断上的错误。第一,如果我们拒绝了零假设,非差异的结果可能的确存在,这就是“I型错误”;第二,如果我们接受了零假设,非差异的结果可能的确不存在,即“II型错误”。
这种理论在当今的科学研究中非常有意义,它是说服读者相信研究结果的有力工具,最早是由Rounald Fisher提出来的。但它不是惟一的验证理论[17]。当时Fisher创建了“单一的二元零假设验证”(the testing of a single binary null hypothesis)理论,并建议采用P值作为统计的强度。然而,在他的理论中,并没有提到“两者选一的假设”(Alternative hypothesis)、“I型错误”和“II型错误”、“统计检力”(Statistical Power)等概念。这些重要概念是由与Fisher同时期的波兰人Jerzy Neyman和Egon Pearson发展的,并且,他们认为,意义验证并不是单一的假设验证,而应该是两者选一的假设验证[25]。一直以来,这些观点仅在各自的研究领域里被承认,直到20世纪50年代,统计学教科书才把他们的观点整合到意义验证理论中,并成为今天我们看到的NHST理论。后来,许多学科如心理学、社会学、教育学、医学、经济学等都把这个理论作为研究假设的验证工具[27]。
Neyman和Pearson认为,当研究人员在对假设进行选择时,可能会做出错误的决定,并用概率来反映错误存在的可能性[17]。这样,在他们的验证理论中,“I型错误”发生的概率被表示为意义的水平(即α值)。也就是说,如果选择0.05的水平为有意义的验证,“I型错误”发生的概率就是5%。当α值取值越低时(如0.01),“零假设”接受的标准就越高,同时,“I型错误”发生的概率就越低。但是,所有事件都是可逆的。当“I型错误”发生的概率越低,这个验证的检力(Power)就变得越低了。
所谓“检力”(Power),是指验证检出统计意义的概率[10,32]。例如,如果选择0.5为中度“检力”,获得有意义的检出率就是50%。根据NHST理论的界定,“检力”的完整余值(即1-power,β)表示为NHST中“II型错误”的比值。Cohen(1988)建议,在假设验证前,研究人员应考虑它们的比重。例如,如果把α水平设置在0.01,研究的“I型错误”风险可以降低到很小。但是,验证的“检力”同时也被减小到0.1。这样,“II型错误”的风险就增加到90%(1 -0.1=0.9)。一个0.1水平的验证“检力”意味着研究人员只有10%的机会获得一个有意义的结果。
“检力”的指标对于人们的研究结论具有重要的解释意义,也就是说,如果我们在研究中发现一个具有统计意义的结果,“检力”的大小将决定它的实际价值。例如,当研究的“检力”为0.1时,意味着统计发现的结果只有10%的机会可以得到验证。而当研究的“检力”为0.9时,则意味着我们的发现有90%的机会可以得到验证。显然,对于一个90%的事件发生率来说,更具有实践的指导意义。所以,在实际的研究中,一个结果的真实性与实际获得的结果有关。
其实,除“检力”控制外,国外的学者建议了各种方法来减少判断错误的发生。例如,在方差分析的后测验证中,采用Tukey测试、Newman-Keuls测试等可以很好地控制“I型错误”。但是,当控制了“I型错误”后,“II型错误”的风险却又会增加。那么,怎样来平衡这个风险点呢?学者建议通过计划控制研究的“效应大小”(Effect Size)来达到平衡的目的[29]。关于这一点,Cohen首次提出了基于“效应大小”来确定“检力”的方法,以此判断研究结论的真实性[30]。当时,他通过对《变态与社会心理杂志》发表的78篇论文进行了“检力”分析,结果发现,在中等效应水平上的研究“检力”均值为0.48,接近50%的意义检出率,而大效应水平上的意义检出率为70%。Cohen认为,如果考虑这些研究结论的真实性,这样的“检力”均值普遍偏低。所以,他在1988年建议研究的“检力”应该在0.80以上为可接受的水平[10]。但是,Sedlmeier和Gigerenzer在1989年重复了Cohen的工作,结果发现,中等效应研究的“检力”均值仅为0.37,比Cohen的0.48减少了0.11。Sedlmeier和Gigerenzer强调这种问题距离10年前Cohen提出之后不但没有改善,反而变的更糟了。因此,他们呼吁学术界应该关注研究“检力”过低的问题[34]。
在体育科学研究中(包括运动心理的研究),Jones和Brewer(1972)曾对《研究季刊》(Research Quarterly)发表的研究论文进行过“检力”分析,结果发现,小、中、大效应研究结果的平均“检力”值为0.13、0.50和0.78[22]。另一项Christensen和Christensen(1977)对《健康、体育与娱乐研究》(Health,Physical Education,and Recreation Research)发表的论文分析也发现,研究“检力”的平均值更低,分别为0.08、0.32和0.69[7]。这些分析结果表明,两个研究统计的体育研究论文结果均未达到Cohen建议的“检力”接受标准。这意味着这些研究发表的结果都可能包含了“II型错误”。2000年,Speed和Andersen对《体育科学与医学杂志》(Journal of Science and Medicine in Sport)发表的29篇论文进行了“检力”分析,结果发现,小、中、大效应研究结果的“检力”均值分别为0.14、0.63和0.97[38]。Speed和Andersen指出,统计论文中小效应研究的“检力”均值仍然没有达到Cohen建议的标准。但是,中等和大效应的研究中,已分别有38%和75%的“检力”值到标准。总体上,超过半数的研究“检力”达到接受标准(56.5%)。由此可见,从1972—2000年,经过了近30年的努力,国际体育科学研究的质量在不断地提高。
由于我国体育学术期刊对发表论文的要求没有与国际对接,无法获取相关的完整数据用于研究质量的分析。但在《体育科学》、《中国体育科技》和《北京体育大学学报》3种期刊中仍然获得38个有意义验证的数据,经“检力”分析统计法发现,小、中、大效应研究结果的“检力”均值分别为0.10、0.40和0.94(表5)。参照Cohen对研究“检力”的接受标准(80%),在本文的分析数据中,只有10%的意义验证达到可接受的标准,也就是说,90%的统计意义选择都可能存在“II型错误”。这个百分比远远地高于国外的同类研究。进一步初步分析发现,在这些随机抽取的38个样本中,约80%的结果是小的效应值,而且“检力”值都在49%以下。所以,应该说我国运动心理学研究的质量距离国际水平仍然存在着差距。
表5 《体育科学》、《中国体育科技》、《北京体育大学学报》发表的部分研究的“检力”分析一览表(n=38)
在中国运动心理的实证研究中,运用P值来帮助研究人员做出结论的几乎成了惟一的手段。但是,笔者发现,有相当一部分作者似乎并不了解P值的真正含义。总结起来至少可以列出3个方面的误区;1)低于α值的P值与研究结果的重要性无关。然而,有的作者在讨论结果时强调自己发现的重要性仅仅是因为获得了一个较小的P值。2)一个有意义的统计结果不可能告诉研究结果的可重复性。然而,有的作者却认为P值计算是评估研究结果可重复的概率。3)P值并不能单独评估研究效应的大小。然而,有的作者却把P值的大小作为研究的效应来解释。
为什么会产生这些错误的认识呢?笔者认为,可能问题出在对NHST的理解上。一般地讲,统计意义上的P值具有两个含义:1)低于α值的P值可以视为拒绝“零假设”的证据;而等于或大于α值的P值则被视为接收“零假设”的证据。从这个意义上讲,P值作为对“零假设”拒绝与否的凭据。2)P值反映效应大小与样本误差的功能,也就是说,在一个给定的样本中验证意义与效应大小直接相关,表现为:
在NHST的使用中,由于P值比较敏感,无论是当样本误差很小时(可能是因为大样本量或大效应所致),还是当样本误差很大时(可能是因为小样本量或小的效应所致),只要有很小的差异都可以被判为有意义的统计。但需要指出的是,此时的P值并不能区分哪些差异是由于效应大小,而哪些差异是由于样本误差的作用。所以,P值没有提供任何关于研究意义大小的信息,更谈不上复制研究的概率。
Thompson(1995)曾建议了一个正确运用P值的步骤:首先,当获得一个有意义的结果后,应根据P值的情况决定下一步的分析(即是否继续分析)。然后,应该分别考虑该样本误差和效应大小。这样,研究人员通过计算效应大小来区分识别样本量的效应与误差。最后,研究人员可采用其他方法来复制这个分析结果[42]。这一步骤的运用不仅可以验证所获得的分析结果,还可以为他人提供一个分析指南。
然而,统计意义的验证并不是完美的。许多学者(包括Cohen,1990、1994;Schmidt,1996;Hunter,1997;Levin, 1998;Thompson,1998等)对此提出过质疑[8,9,41,33,19,26]。例如,Cohen曾在1994年指出,意义验证存在“非必然的推理错觉”(Illusion of attaining imp robability)[9]。具体地讲,验证是基于拒绝“零假设”的意义水平设定在至少0.05,并表现为拒绝是否正确的概率。这样,假设验证的推理为:
如果“零假设”是正确的,则数据发生的可能性不大。但是,数据发生了。所以,“零假设”的可能性不大。
由于这个因果关系推理的后置并非前提的必然结果,所以,犯了前置逻辑错误。Cohen把它称之为“前提错觉”(The Permanent Illusion)[9]。基于此,Cohen等一些学者建议研究人员不能依赖这一方法作为惟一手段,并推荐使用“效应大小”(Effect Size)的指标来弥补这一缺陷。所谓“效应大小”,指一个标准差异的度量,即两组平均值差与标准差的比率:
Thompson给出了两个理由阐述为什么采用研究效应的大小值:1)研究的效应大小可以反映统计结果的实际意义;2)报告研究效应的大小有利于在将来的文献综述中进行元分析综合[43]。目前,国际学术界已基本达成共识,要求作者在报告P值的同时必须附带研究效应大小的值。有的学术期刊在投稿指南中就明确注明需要报告研究效应大小的值[30]。Murphy是《应用心理学杂志》的一名编辑,他曾在1997年的期刊编辑附言中建议:
“如果一个作者在报告意义验证结果的同时决定不附带效应大小的值,我会要求他(她)提供特别的解释为什么不报告研究效应大小。到目前为止,我还没有得到一个充足的理由拒绝报告效应值。所以,除非是真的有困难,通常情况下都应该在论文中报告研究效应的大小。”[30]
从这个角度讲,不能不说我国运动心理研究把这个问题忽略得太久了。正如前面提到的,在统计的391次P值报告仅附带4次研究效应大小。这种状况应该是改变的时候了。
在本文统计的158个实验研究设计中,有73个采用了“前后测试控制组设计”(Pretest-posttest Control Group Design),约占实验设计的50%,说明该设计已成为研究人员常用的方法,其主要原因有两个:首先,它属于“真实验设计”(True Experimental Design),能科学地控制对内部效度的威胁;其次,是一个多层设计。通常情况下,它被用于两组比较(实验组与控制组,或两组给予不同的干预),但很容易延伸进行另外的多组比较,所以使用方便。
然而,使用这种设计时应小心选择数据分析方法。如果运用数据处理方法不恰当,就可能产生结论错误。例如,Speed和Andersen(2000)曾指出t检验分析与这种设计有关的“II型错误”[38]。具体地讲,“前后测试控制组设计”中的t检验分析主要由前测的组间同质检验和组内差异的分析组成。但是,这种“同质”可能会因为一个小效应的“无意义差异”结论而引起质疑。如前讨论,在效应值较小的情况下接受“零假设”,无疑会增加判断上的“II型错误”。这样,由于同质验证并不能保证组间“相等”结论的真实性,前置的逻辑错误必然会导致组内差异错误判断的结论。
关于“前后测试控制组设计”中使用ANOVA的数据处理方法,Huck和M cLean早在1975年就指出了其潜在的危机[18]。他们分析了此种情况下可能存在的3个问题: 1)ANOVA结果的组间主效应可能过小,引起表述上的错误;2)交互效应与干预效应的重复计算;3)多层分析结果前后矛盾。具体地讲,根据“前后测试控制组设计”模式的原理,由于因变量的前测得分是在实验干预施加前获得的,故交互效应与干预效应不对其产生作用。然而,对于后测得分来说,则会受到交互效应的影响,但交互效应的结构又不成立。另一方面,基于实验施加的干预仅仅作用于因变量后测得分的事实,这样,当重复测试的ANOVA被运用于前后设计时,线性数据模型中主效应F值将会被分散,从而使其计算的效应比实际的效应小,造成对分析的结果的错误描述。
Huck和McLean进一步指出,理论上讲,由于实验干预只能作用因变量的后测得分,采用One-way ANOVA分析主效应也是一个思路。但是,如果缺乏因变量的前测得分,对于分析模型来说会影响两个效应:1)解释组间差异有关的实验干预主效应变化;2)减少组间差异引起的分析“检力”下降。然而,如果采用因变量的前测得分,ANOVA就会计算交互效应的F值和干预主效应F值。在这种情况下,实际上是重复计算了干预的效应,两个F值具有同样的含义。最后,在运用重复测试的ANOVA分析数据时,Huck和McLean发现许多研究存在交互效应F值与实验干预主效应F值不同。这也反映了该分析方法与理论之间产生了不符的问题。
另外,有学者建议把干预前后得分的差值作为因变量,进行One-way ANOVA分析。但Sheeber等指出,这种方法仍然无法控制前测组间的差异问题[35],也就是说,如果前测组间存在差异,统计得出的意义结果仍然无法确定是否是实验干预的效应,与前面分析的One-way ANOVA情况基本相似。所以,在运用“前后测试控制组设计”时,它同样存在One-way ANOVA方法的问题。
为了克服ANOVA在“前后测试控制组设计”中产生的问题,许多学者建议用协方差分析(ANCOVA)来处理前后测试的设计实验问题[18,35,20]。ANCOVA是用于随机分组的前后测试组间差异的分析方法。一般地讲,后测得分作为因变量,前测作为协变量。在心理学实验设计中, ANCOVA是一个较好分析组间变化的方法。但是,Jamieson(2004)指出,当被试组的构成不是随机分组,而是自然分组时,分析的基线变化就不是由于机会产生的了。这时的ANCOVA结果表述就会产生偏差[20]。所以,在进行实验设计时,需要注意这一点。
差距的对比并非在于打击自信,问题的分析旨在激励寻求发展的出路。中国运动心理学研究需要冷静思考,更需要新的视点。一方面,希望通过本文的讨论能启迪人们对科学研究的再思考;另一方面,也渴望从以下几个方面去进行再探索:
1.学术论文可读性的提升——众所周知,写论文不是写给自己看的,而是要面对你的读者。因此,读者是否能读懂你的文章就变得尤为重要。例如,有的研究缺乏理论支持,或是操作不能反映理论的模式与概念;有时,作者寻求一个间接变量,却不能给读者一个直接的理由;在一些操作变量的关系上,有的逻辑分析思路混乱、有的甚至缺乏必要的研究过程表述,内容显得杂乱无章,而且远离主题,大量篇幅讨论与题目无关的信息,让读者很难读懂论文的真实意图等。
其实,高水平的论文最能显示作者良好的科学训练,也就是说,作为研究人员,要努力学会让别人理解你的思路,了解研究问题的来龙去脉。理论总是与研究相关,不管是创新一个理论,还是验证一个理论,都要给出具有说服力的证据。让读者了解到什么是研究的新发现,并给出足够信息,让研究结果变的可再现。同时,作为研究论文的作者,要努力做到文章前后一致、逻辑有序,避免在结论中突然提出新观点。
实际上,由于在研究过程中收集到的信息是零乱的,所以,我们需要自我训练,学会去除无序的信息,让读者知道研究中究竟发生了什么。学会展示必要的研究信息,努力提高论文的可读性。我想说的是:一个好的学术论文作者应该追求把复杂的科学问题变得让大众读懂,而不是追求“玄学”般地把简单事情变得复杂化。
2.学术研究质量的提升——高质量的研究不仅经得起考验,更能为后续研究提供具有说服力的证据,并成为有价值的参考来源。一般的讲,学术研究质量的控制可以通过对研究的“信度”和“效度”评估来实现。这里所指的“信度”是研究结论的误差度,而“效度”则是一个“宏”概念,反映了理论推理与研究证据的一致性。心理学中已经建立了一些有效的评判方法。例如,早在2001年,国外的《应用心理学杂志》、《咨询与临床心理学杂志》、《实验教育学杂志》、《当代教育心理学》等17种学术期刊编辑指南中就明确要求作者在报告P值的同时“必须”附带效应大小的值[44]。另外,为了提高研究的质量,有学者还建议在因素分析中要求报告构想系数,并要求把信度和效度数据设置在0.75以上作为可接受的底线以及建议避免运用进级分析等[45,46,47]。
当然,相关的研究人员还在不断地探索更有效的方法,以保证学术成果质量的提高。例如,“置信区间”(Confidence Intervals)就是一个最近流行的假设验证方法,并正在开始取代P值的地位[23]。所谓“置信区间”主要反映干预效应的测量值,表示干预效应大小的范围。置信设立为一个上限和下限,以使包含在一个随机区间内的拟合参数等于1-α,用公式表示为:
其中,θ为关注的参数,θL(X)和θU(X)随机置信的上限和下限,主要基于观察数据X和P值概率。由于θL(X)和θU(X)直接表述为θL和θU,而且,取决于随机数据,所以,我们可以理解为值信的上、下限是随机的。在实际的应用中,由于“置信区间”告诉我们可能的效应大小范围,所以,作为结果的判断,它更优于P值。从实践的意义上讲,由于“置信区间”直接反映效应大小,对研究的结果解释更直观。理论上讲,统计学上的意义并不表示干预效应。所以,在很多情况下,统计没有意义,并不意味着实际没有效应。相反,统计出现了意义,也并不一定表示对实际具有重要性。
“置信区间”的特点在于验证研究假设的方法简单易行,其原理为:首先,假设置信水平为95%。这意味着构建的“置信区间”有95%的机会包含了真实的干预效应值(换算成P值则表示为出错率小于0.05)。这样,判断过程表示为:1)如果置信值落在“无效应”值区,差异则表示无统计意义(对于一个95%的“置信区间”,无意义在5%的水平上);2)如果置信值落在“无效应”值区外,差异则视为具有统计意义(对于一个95%的“置信区间”,有意义在5%的水平上)。所以,“统计意义”(相当于P<0.05)被认为是“置信区间”,但对于一个具体的观察数据来说,这些区间反映了可能的最大和最小效应值。
“置信区间”之所以优于传统的假设验证,是因为它能够告诉人们更多的信息。例如,区间的上、下值反映了真实效应可能存在的大小。从区间宽度看,窄的区间说明效应大小存在一个小的范围。这样,任何远离这个区间的效应都可以很肯定地被研究排除在外。这种情况通常会出现在大效应的研究中,这样,对真实效应的估计通常会很准确,也就是说,研究有足够的“检力”来选择效应。但是,对于一个宽区间来说,意味着可获取多个效应范围,则认为研究效应可能很小。因此,任何效应大小的评估都可能是不准确的。这样的研究通常被视为较低“检力”的研究,而且可提供的信息也是很有限的。
如同P值一样,“置信区间”提供了判断研究效应的描述。然而,需要指出的是:1)理论上讲,组间的差异是通过计算获得的,这样,“置信区间”提供了可观察的“统计意义”差异。但是,正是因为简单地凭借机会很难观察到这个差异,导致人们判断结论不是真实的。根据定义,20次有意义的发现中出现1次假的,则可能被误认为非真实的事件。这通常被称为“I型错误”。虽然这很不幸,但在统计意义中这又是不可避免的。而且,统计比较的计算次数越多,这种错误的发生率就越高。2)另一方面,有时“统计意义”可能错误地被描述为一个重要的结果。其实,“统计意义”仅仅是关注干预之间的数据是否产生了差异。对于一个大样本的研究来说,发现了“统计意义”的差异,可能对实际的指导意义也不大。关于这一点的统计描述,可基于研究样本量来考虑结果的重要性(表6)。
表6 研究结果表述中统计意义与样本量的角色一览表
本文在回顾国内、外运动心理学研究发展的基础上,着重对我国运动心理学研究的质量进行了分析。从国际视野的角度,分析了发表在《体育科学》、《中国体育科技》和《北京体育大学学报》上的运动心理学研究论文。笔者认为,我国运动心理研究的问题与领域较为丰富,在学科的交叉研究方面也有较快的发展。但是,从研究的质量上看,与国际水平差距较大。主要反映的问题是研究人员普遍对理论的作用认识不足,研究设计缺乏科学的计划;数据分析手段落后,甚至有错误运用,而且也不严谨,导致研究普遍存在“检力”较低的现象;在研究成果的展示方面,一些关键的环节和数据被忽略。总体上看,尽管多年来发表了一定的研究论文,但真正可以作为参考的有价值的文献较少。
基于这些问题,笔者主要对理论在研究中的作用进行了辨析,同时,分析了研究结论的真实性问题。经过初步的“检力”分析发现,在分析的研究中约90%可能存在“检力”不达标的问题。进一步,文章就P值的误区问题进行了讨论,并强调了研究“效应大小”的重要性。最后,讨论了我国运动心理学研究存在的设计问题。在此基础上,建议我国运动心理学研究的质量把关应从文章的可读性和数据分析方法方面入手。
[1]姚家新,张力为,李京城,等.运动心理学研究进展[J].天津体育学院学报,2008,23(1):1-10.
[2]姚家新,徐霞.中国运动心理学的研究现状与展望[J].体育科学,2004,24(10):38-45.
[3]张力为,丁雪琴.中国运动心理学的发展:历史、现状与未来[J].心理学报,1994,27(3):324-330.
[4]ALDERMAN R B.The future of sport psychology.In J.H.Silva,&R.S.Weinberg(Eds.).Psychological Foundations of Sport[M].Champaign,IL:Human Kinetics,1984:45-54.
[5]ARON E,COUPS E,ARON A.Statistics for Behavioral and Social Sciences(4th ed)[M].Langue:Anglais,2007.
[6]BUCKWORTH J,DISHMAN R K.Exercise Psychology[M]. Champaign,Il:Human Kinetics,2002.
[7]CHRISTENSEN J E,CHRISTENSEN C E.Statistical power analysis of health,physical education,and recreation research[J]. Res Q,1977,48:204-208.
[8]COHEN J.Thing Ihave learned(so far)[J].Am Psychol,1990, 45:1304-1312.
[9]COHEN J.The earth is round(P<0.5)[J].Am Psychol,1994, 49:997-1003.
[10]COHEN J.Statistical Pow er Analysis fo r the Behavio ral Sciences(2nd ed.)[M].Hilladale,N.J.:Law rence Erlbaum Associate,1998.
[11]COHEN J.The statistical pow er of abnormal social psychology research[J].J Abnormal Soc Psychol,1962,63(3):145-153.
[12]DAFT R L.Why Irecommended that yourmanuscript be rejected and w hat you can do about it.In L.L.Cummings&J.P. Frost(eds.).Publishing in the Organizational Sciences[M]. Thousand Oaks,California:SAGE Publications,Inc,1995:164-182.
[13]DISESSA A A,COBB P.Ontological innovation and the role of theory in design experiments[J].J Learning Sci,2004,13(1): 77-103.
[14]GARDNER F,MOORE Z.Clinical Sport Psychology[M]. Champaign,Il.:Human Kinetics,2006.
[15]HAN IN J,STAMBULOVA N.Spo rt psychology:Overview [J].Encyclopaedia Appl Psychol,2004,(3):463-477.
[16]H INKLED E,W IERSMA W,JURSS G.Applied Statistics for the Behavioral Sciences(3rd ed.)[M].Boston:Houghton Mifflin Company,1994.
[17]HUBERTY C J.Histo rical o rigins of statistical testing p ractices:The treatment of Fisher versus Neyman-Pearson view s in textbooks[J].J Experimental Edu,1993,61(4):317-333.
[18]HUCK SW,MCLEAN R.Using a repeated measures ANOVA to analyze the data from a pretest-posttest design:A potentially confusing task[J].Psychol Bulletin,1975,82(4):511-518.
[19]HUN TER J E.Needed:A ban on the significance test[J].Psychol Sci,1997,8(1):3-1.
[20]JAM IESON J.Analysis of covariance(ANCOVA)w ith difference scores[J].Int J Psychol,2004,52:277-283.
[21]JOHNSON U.Sport Psychology-past,p resent and future:The percep tions of Sw edish sport psychology students[J].A thl Insight,2006,8(3):64-78.
[22]JONESB J,BREWERJ K.An analysisof the power of statistical tests repo rted in The Research Quarterly[J].Res Q,1972, 43:23-30.
[23]KILLEEN P R.An alternative to null-hypothesis significance tests[J].Psychol Sci,2005,16(5):345-353.
[24]KIRK R.Practical significance:A concep t w hose time has come [J].Edu Psychol Measurement,1996,56:746-759.
[25]LEHMANN E L.The Fisher,Neyman-Pearson theoriesof testing hypotheses:One theory or two?[J].J Am Statistical Association,1993,88:1242-1249.
[26]LEV IN J R.To test or not to test H0?[J].Edu Psychol Measurement,1998,58:311-331.
[27]LOFTUS G R.On the tyranny of hypothesis testing in the social sciences[J].Contemporary Psychol,1991,36(2):102-105.
[28]ISBERG L.Applied sport psychology in Sweden-historical development-today’s wo rk-future development[J].J App l Spo rt Psychol,1989,(1):52-60.
[29]MELLAL IEU S D,HANTON S.Advances in Applied Sport Psychology:A Review[M].London:Routledge,2008.
[30]MURPHY K R.Editorial[J].J Appl Psychol,1997,82:3-5.
[31]N IX TW,BARNETTEJ J.The data analysis dilemma:Ban or abandon[J].Res Schools,1998,5(2):3-14.
[32]SAW YER A G,BALL A D.Statistical power and effect size in marketing research[J].J Marketing Res,1981,18:275-290.
[33]SCHM IDT F.Statistical significance testing and cumulative know ledge in psychology:Implications for the training of researchers[J].Psychol Methods,1996,1(2):115-129.
[34]SEDLM EIER P,GIGERENZER G.Do studies of statistical power have an effect on the power of studies?[J].Psychol Bulletin,1989,105(2):309-316.
[35]SHEEBER L B,SORENSEN E D,HOWE S R.Data analytic studies w ith p retest/posttestmeasurement:An extensive p rimer[J].J Psychiatry Res,1996,30(3):185-199.
[36]SILVA J M.The emergence if applied sport psychology contemporary trends-future issues[J].Int J Sport Psychol,1984, 15:40-51.
[37]SILVA J M.Current trends and future directions in sport psychology.In R.N.Singer,H.A.Hausenblas,&C.M.Janelle (Eds.).Handbook of Sport Psychology(2nd ed.)[M].New York:John Wiley,2001:823-832.
[38]SPEED H D,ANDERSEN M B.What exercise and sport scientists don’t understand[J].J Sci Med Sport,2000,3(1):84-92.
[39]STELTER R.New app roaches to exercise and sport psychology-Critical reflections and useful recommendations.In R. Stelter&K.K Roessler(Eds.).New App roaches to Sport and Exercise Psychology[M].Meyer&M eyer Spo rt,2005:13-30.
[40]TENENBAUM G,EKLUND R C.Handbook of Sport Psychology(3ird)[M].Hoboken,New Jersey:John Wiley&Sons, 2007.
[41]THOMPSON B.Review of w hat if there w ere no significance test?By L Harlow,SMulaik,J Steiger(eds.)[J].Edu PsycholM easurement,1998,58:332-344.
[42]THOM PSON B.Edito rial Policies Regarding Statistical Significance Testing:Three Suggested Reforms[M].Paper presented at the annualmeeting of Mid-South Education Research Association,Biloxi,MS,1995.
[43]THOMPSON B.Effect sizes,confidence intervals,and confidence intervals for effect sizes[J].Psychol Schools,2007,44: 423-432.
[44]THOMPSON B.Significance,effect sizes,stepw ise methods, and other issues:Strong argumentsmove the field[J].J Experimental Edu,2001,70(1):80-93.
[45]THOMPSON B.Guidelines for authors[J].Edu Psychol Measurement,1994,54:837-847.
[46]THOM PSON B.Stepw ise regression and stepw ise discriminant analysis need not apply here:A guidelines editorial[J].Edu Psychol Measurement,1995,55:525-534.
[47]THOM PSON B,DAN IEL L G.Facto r analytic evidence fo r the construct validity of scores:An historical overview and some guidelines[J].Edu Psychol Measurement,1996,56:197-208.
[48]UNESTAHL L E.Sport Psychology in Theory and Practice [M].Orebro:VEJE International,1985.
[49]VACHA-HAASE T,et al.Reporting p ractices and APA editorial policies regarding statistical significance and effect size[J]. Theory Psychol,2000,10:413-425.
A Critical Thinking over Sport Psychology Research in China From an International Perspective
WANG Jin
Today’s development of spo rt psychology research in China needs new ideas,and the research harmony w ith the international level also needs the guarantee in the quality.Based on these considerations,this article gives an international comparison to research development of spo rt psychology in China.Meanw hile,the focus of the discussion is on the research issue of the Chinese spo rt psychology.A t first,a positive view on the achievement of the research and some issues about obstructing development fo r the sport psychology in China are p resented, and meanw hile,the article discusses the issue of app lied theo ries in the relative studies from an international perspective.Furthermore,w ith the power analysis the article discusses the verisimilitude of research results published on the Chinese sport academic journals.The findings show that the power w ith large,middle and small are 0.94,0.40 and 0.10,w hich they are lower than it at the international level.Only 10%of the mean of power fo r the samp le are accep table at the international level,w hich means the research results of 90%are likely to contain either Type Ierror o r Type IIerro r.In addition,the misunderstand about P value and the issue about research design are discussed in the article.On the basis of these discussions,the article gives some suggestions about how to imp rove research readability and quality.Meanw hile,the author suggests the effect size repo rting requirements w hile a research gave the p value in o rder to making the harmony w ith the international research.
Sportpsychology;Poweranalysis;Effectsize;Confidenceinterval
G804.8
A
1000-677X(2010)10-0052-10
2010-08-30;
2010-09-15
王进(1959-),男,教授,博士,博士研究生导师,主要研究方向为运动心理学、健康及社会心理学、休闲心理学,E-mail:jinwang47@live.cn。
浙江大学教育学院应用心理交叉学科研究中心,浙江杭州310028 College of Education,Zhejiang University,Hangzhou 310028,China.