胡晓玲 袁民 赵凌霞
[摘 要] 作为一种突破传统统计局限的整合性统计分析方法,元分析方法的应用日益增多,但元分析结论的不可靠性却往往被忽略。鉴于此,本研究选取我国近二十年有关学习主题的元分析成果,对其进行方法学质量评价和报告质量评价。研究首先在确定纳入标准后经过检索、筛选,从2002—2022年间CSSCI期刊发表的1906篇元分析中纳入106篇作为评价对象。经过数据提取和特征分析后,应用AMSTAR和PRISMA评价工具对106篇文献分别开展了方法学质量和报告质量评价,评价结论为文献的方法学质量整体偏低,缺乏方法学高质量文献;报告质量中等,表现不均衡。其中方法学质量存在研究纳入与资料提取的可重复性较差、纳入研究质量评价缺失及发表偏倚检验方法不当等问题;报告质量存在摘要报告结构性不佳、方案和注册缺失、纳入研究信息报告不充分、报告结果缺乏严谨性、研究局限报告缺失等问题。最后,研究讨论了质量风险来源,给出了改进建议。
[关键词] 学习主题; 元分析; 方法学质量; 报告质量; 评价
[中图分类号] G434 [文献标志码] A
[作者簡介] 胡晓玲(1975—),女,山东济宁人。副教授,博士,主要从事学习科学、循证教育学研究。E-mail:hxiaoling @lzu.edu.cn。
一、引 言
元分析也称为Meta分析,或荟萃分析、整合分析等,由美国教育心理学家Gene V. Glass于1976年首次提出。Glass指出元分析是以综合已有的发现为目的,对单个研究结果进行综合的统计学分析方法[1]。元分析突破了一些传统统计学方法的局限,通过元分析可以对同类研究下不一致的研究结果进行合并,得出具有普遍性的结论[2],因而受到多学科领域的高度重视并普遍应用。但并非所有元分析得出的结论均是可靠的[3]。作为对已有研究数据进行合并分析的二次研究,元分析极易在各类偏倚风险的侵害下产生效应大小被高估、假阳性等情况[4],从而导致研究信度降低。因此,为合理判断元分析结论的可靠性和有效性,对元分析进行质量评价是十分必要的。元分析质量分为方法学质量和报告质量两部分,国际上先后发表了AMSTAR、PRISMA等工具用以进行元分析方法学质量评估和帮助研究者改进系统评价和元分析的撰写和报告[5-6],且事实证明两个工具能够有效评估并提升元分析质量[7-9]。
近些年在学习研究领域,学者们运用元分析方法对各种学习境脉的有效性及其影响因素展开了广泛研究,获得了丰富的研究结论。但元分析质量如何,方法使用是否严谨,结论是否可靠是值得深入探讨的。本研究将采用AMSTAR、PRISMA两个评价工具对我国近二十年来学习主题的元分析展开方法学质量和报告质量评价,对评价结果进行分析,并讨论质量风险来源,提出改进建议。
二、资料与方法
(一)文献纳入标准
文献纳入标准如下:(1)发表于CSSCI期刊的中文文献;(2)研究采用元分析方法;(3)以影响学习成效的效应值为结果指标的研究。这里学习成效指学习活动后学习者认知水平和学习能力产生的可量化的学习结果;(4)研究样本属于全日制在校学生。
(二)文献检索策略
本研究以中国知网、万方、维普三个中文数据库为检索源,检索了从2002年1月到2022年6月数据库内的CSSCI来源期刊文献,最后一次检索时间为2022年10月18日。考虑到定量系统评价也采用元分析方法进行科学量化统计[10],检索词中增加了有关系统评价的词汇。最终,检索词定为“系统评价”“系统综述”“Meta分析”“荟萃分析”“元分析”“教育”“教学”“学习”。以在中国知网为例,检索式为:“TI='元分析'+'荟萃分析'+'Meta分析'+'系统综述'+'系统评价' and SU='教育'+'教学'+'学习'”。
(三)文献筛选与数据提取
文献查重后,由两名研究者依据文献纳入标准,通过阅读标题、摘要、全文独立进行文献筛选。筛选后核对结果,若出现分歧交由第三方裁定。纳入文献确定后,再由两名研究者独立进行文献数据提取,提取内容包括:标题、作者、发表时间、研究主题、研究篇数、样本数量、效应值大小、项目资金等。数据提取后核对结果,若出现分歧交由第三方裁定。
(四)文献质量评价
1. 方法学质量评价
元分析方法学质量可反映研究过程和研究结论中的偏倚或效度风险[8],即元分析过程是否遵循科学标准以有效控制偏倚,提高结果的真实可靠程度[9]。2007年,鉴于已有数十种元分析评价工具却难以统一推广的局面,荷兰与加拿大的医学研究团队在已有工具、实践证据、专家共识的基础上开发了系统评价或元分析方法学质量评价工具——AMSTAR(A Measurement Tool to Assess Systematic Reviews)[6]。尽管该评价工具开发之初主要用于循证医学领域,但现在国外多领域同类研究中得到广泛使用且为相关专业期刊编辑推荐使用[11]。因此,本研究选取AMSTAR作为纳入文献的方法学质量评价工具。
AMSTAR共有11个条目,条目的评价选项分为“是”“不清楚”“否”三类,三类选项依次按1分、0分、0分计分,满分11分。鉴于AMSTAR的使用局限性[12-13],本研究依据增加重要条目权重以优化质量评价的方法,参照AMSTAR 2和Jacobs等人的评价办法[14-15],将AMSTAR条目1、2、3、7、8、10视作关键条目。设置评价规则如下:若6个关键条目得分合计为6分,文献的方法学质量直接被认定为高等质量;若关键条目得分合计为4分或5分,则认定为中等质量;若得分合计低于4分,则认定为低等质量。
为避免出现评价偏倚,由两名研究者独立进行评价,评价后核对结果,如遇分歧交由第三方裁定。
2. 报告质量评价
元分析报告质量是指报告的清晰度和透明度[8],可反映报告内容的全面性和完整性以及研究结果的发表偏倚[16]。2009年,David Moher等人在《英国医学杂志》上发表的《系统评价和元分析首选报告项目》(Prefered Reporting Items for Systematic Reviews and Meta-analysis,PRISMA)[5]作为系统评价和元分析的规范性报告指南,以确保研究者报告每个要素,特别是研究内部和研究之间偏倚风险的报告[7],国内也推荐其为编辑审查系统评价/元分析来稿的重要工具[9]。
本研究依据PRISMA指南对纳入文献进行报告质量审查,PRISMA指南由标题、结构式摘要、引言、方法、结果、讨论、资金七个部分组成,共计27个条目,条目的评估选项分为“完整报告”“部分报告”“无报告”三类,三类选项依次按1分、0.5分、0分计分,满分27分。本研究参照拜争刚等人的评估赋分方法[8],若文献得分在[0,15)区间内,视作信息严重丢失、报告内容不完整,认定为低等质量;若文献得分在[15,21)区间内,视作信息有所丢失、报告有所欠缺,认定为中等质量;若文献得分在[21,27]区间内,视作信息较为全面、报告相对完整,认定为高等质量。
为避免出现评价偏倚,由两名研究者独立进行评价,评价后核对结果,如遇分歧交由第三方裁定。
(五)统计分析方法
利用Excel 2016整理统计文献PRISMA和AMSTAR各条目得分。利用SPSS 23进行统计分析,通过正态分布检验了解得分分布,通过单因素方差分析对文献质量进行影响因素探析,再通过多重比较了解差异所在。
三、结 果
(一)文献筛选结果
本研究初次检索共得1906篇相关文献,通过EndNote软件去重、阅读文献主题初筛以及阅读全文复筛,排除重复以及不符合纳入标准的文献1800篇,最终得到符合纳入标准的106篇文献。本文在接下来的表述中提及“文献”时特指筛选后纳入的106篇元分析文献。
(二)纳入文献基本特征
对106篇文献进行数据提取、整理后获得了文献基本特征。如表1所示。特别需要注意,文献中有43篇文献没有提供其研究样本数量,这将严重影响质量评价结果。同时,为保证元分析研究的可重复性和科学性,作者数量要求为3人及3人以上,但有46篇文献作者数量为1~2人,这部分文献的科学性和规范性是值得质疑的。
另外,从图1可知,学习领域的元分析研究主题呈现出多样丰富的特点,主题主要集中在有关技术环境的学习成效分析。例如,虚拟现实技术、信息技术、多媒体环境、数字化游戏等。而“互联网+”时代的新型学习模式成效的元分析也是研究最广泛的主题,例如翻转课堂、混合学习、STEM学习、问题式学习、协作学习、项目式学习、在线学习等。也有一些关注教育信息化中的微观因素对学习影响的元分析研究,例如,概念地图、弹幕、教师在屏、线索效应、图文整合、触觉反馈等。还有一些涉及师生特质的研究主题,例如,师生互动模式、教师合作、积极情绪、学习初始年龄等。
(三)文献质量评價
1. 总体质量分布状况
106篇文献的方法学质量平均得分5.34分,最高分9分,最低分3分,其中仅有4篇高质量文献,20篇中质量文献,而77篇文献被认定为低等质量。文献方法学质量得分分布偏度检验显著,得分呈陡峭的正偏态分布,大部分文献得分集中在低分段并低于平均值水平,整体方法学质量表现不佳。而文献报告质量平均得分18.31分,最高分25.5分,最低分12.5分,其中,13篇为高质量文献,84篇文献质量集中在中等分数段,9篇低质量文献。报告质量得分分布偏度检验不显著,得分呈正态分布,平均值可代表整体情况,整体报告质量表现中等。
2. 方法学质量评价
106篇文献的AMSTAR各条目评价结果见表2。在关键条目的评价中,整体而言,文献在提供前期方案、进行全面检索、检索发表偏倚三条中表现较好,不同质量等级的文献之间也未出现明显差异。而不足主要体现在106篇文献的元分析研究过程可重复性差,并且很少有研究对其检索结果的科学性作评估,导致推导研究结论时的科学性表现不佳。在非关键条目的评价中,所有文献均采用元分析的结果合成计算方法计算效应值;过半的文献提供了研究纳入排除清单以及纳入研究的基本特征;而不足主要体现在仅6篇文献纳入了灰色文献,且没有文献报告利益冲突。
3. 报告质量评价
106篇文献的PRISMA各条目评价结果见表3。结果可见,所有文献都在标题中说明了文章类型。在摘要中尽管大部分文献都有方法、结果、结论等内容呈现,但绝大多数并未形成完整的结构式摘要。这与不同的社会科学期刊对文章摘要的书写表达要求有关。在前言里过半数的文献详尽阐述了理论基础和研究目的。关于研究方法,所有文献都提供了纳入标准,并最终得出了合并效应指标和结果综合;绝大部分文献提供了信息来源、检索和资料提取;而在研究选择、资料条目、研究偏倚和其他分析方面呈现不足,报告缺失比例较高。其中,研究选择部分主要缺少筛选步骤的说明,研究偏倚和其他分析部分缺少研究偏倚预估以及依据预估预设其他分析方法。对于研究方法,最严重的问题是没有一篇文献进行方案注册,仅有两篇文献进行了单个研究存在偏倚的检验。关于研究结果,所有的文献都进行了结果综合,绝大部分文献提供了研究间偏倚风险和其他分析,但部分文献缺失研究筛选结果、研究特征、单个研究结果的报告,仅有6篇文献对研究内部偏倚风险作了报告。关于研究讨论,绝大部分文献对整个研究进行了总结,只有过半文献完整讨论了证据总结和研究局限性问题。
(四)文献质量的年度分析
图2 文献各年发文数量及方法学质量、报告质量平均得分
在所检文献中,首篇学习主题元分析文章为王立君、顾海根2008年发表于《心理科学》的《概念图对学生成绩和态度影响的元分析》[17]。之后两年未见相关文章发表。在2011至2017年间年均发文量仅2.86篇,随后发文量呈现增长态势,如图2所示。鉴于2022年文献数据不完整,年度分析中不涉及2022年文献。研究中文献的方法学质量得分和报告质量得分的年度走向呈现出一致性,但没有出现得分逐年提升的势头,也没有出现得分随发文量增加而逐步提升的局面。由此推断,元分析研究的质量问题并没有受到足够重视,研究者对此没有形成共识,研究质量依赖于研究个体的方法素养。
(五)文献质量的影响因素分析
为进一步探析质量影响因素,以106篇文献的发表年份、作者数量、研究篇数、研究样本数量、资助资金为因子分别对AMSTAR和PRISMA得分进行单因素方差分析,结果见表4。
经检验,研究篇数、研究样本数量对文献的方法学质量有显著影响,其他因素对文献质量无显著影响。其中,研究篇数少于30篇的文献方法学质量更高。经过AMSTAR各条目得分比对发现,这类文献在提供纳入或排除清单上表现更好,而研究篇数多于30篇的文献由于纳入研究清单过于侵占篇幅而未提供引起方法学质量下降。另外,研究样本数量是元分析中纳入研究时必须提取的基本信息,也是效应值合并时必须提供的信息,样本数量不清楚的文献在描述纳入研究基本特征上表现更差,从而导致质量不佳。
四、分析与讨论
(一)方法学质量评价的结果讨论
通过方法学质量评价可知,学习主题元分析研究基本能够按照元分析方法步骤展开,但存在较多的问题与不足。最终仅有四篇方法学高质量文章。由于偏倚风险是影响元分析质量的主要因素,方法学质量评价主要评估在元分析实施过程中如何控制偏倚[16]。因此接下来主要从元分析常见的三类偏倚[2]——选择偏倚、研究内偏倚(包括提取者偏倚和研究质量评分偏倚)、发表偏倚角度展开方法学质量问题探讨。
1. 元分析的纳入研究选择与资料提取缺少可重复性
可重复性高意味着研究者制定了描述明确、范畴清晰的纳入/排除标准,并通过可靠的编码对研究信息进行客观精准的捕捉。作为对多项独立研究进行系统性综合的二次研究,元分析研究过程的可重复性是系统性与客观性的主要体现,也是极其关键的质量指标。然而从对106篇文献的评价可知,低质量文献中鲜有对纳入研究的选择和资料提取的详细过程说明,而两项操作的可重复性更无从体现。鉴于研究者自身的主观因素干扰以及资料提取作为元分析中最为烦琐耗时的步骤,提取和编码时需要具备严苛的精度和对细节的关注,并具备较高信度,才能保证效应大小及模型的有效性[18]等原因,纳入研究与资料提取需要两名或以上的研究者“背对背”执行,以增加研究的可重复性,避免产生选择偏倚和提取者偏倚。
2. 元分析的纳入研究质量评价缺失
为确保元分析结果的科学性,避免因纳入研究质量参差不齐所引发的偏倚甚至是错误,现有的元分析指南都要求对被选择的研究中实验分析的偏倚风险或研究设计的方法学质量进行编码[18]。然而,在106篇文献中仅有6篇对原始研究进行了质量评价并报告单个研究质量状况。这表明研究者缺乏质量评价意识,从而缺失了对元分析研究内偏倚的控制。另外,这6篇元分析使用的质量评价方法也不尽相同,可见研究者对此并没有统一共识,评价维度、评价尺度的差异也会引发偏倚。
3. 元分析的发表偏倚检验方法不当
有研究证明发表偏倚是对元分析结果有效性的最大威胁之一[4]。对于教育实验类研究而言,教育干预措施有影響及正向影响的研究结论比无影响或负面影响的研究结论更容易受到研究者以及期刊编辑的关注,有学者在对教育学元分析进行综述时发现,未发表文献所得效应值小于已发表文献[19],这一基本规律致使元分析结果具有高估影响的风险。因而在元分析的方法学研究中产生了多种元分析发表偏倚评估方法[4]。在106篇元分析文献中尽管仅有极少部分文献在发表偏倚评价项上有所缺漏,但存在部分研究使用的发表偏倚检验方法不当的问题。例如,在《ICT 对工科学生创造力的影响效应》中,研究者仅能凭借主观感受判定漏斗图的对称性,并依此判定发表偏倚存在的可能性[20]。而在《智能导师系统对学业成就的影响研究:量化元分析的视角》中[21],虽然漏斗图看似并不对称,可能存在发表偏移,但作者利用Beggs秩相关性检验却发现发表偏倚存在可能性很小。因此,尽管本研究中85%以上的文献对发表偏倚进行了评价,但如果评价仅依靠漏斗图进行,评价的主观性较强,容易产生人为误差,有可能并未得到正确的发表偏倚评价结果。
(二)报告质量评价的结果讨论
元分析作为一种定量综合方法,对其报告的透明性、完整性、可重复性上有较高要求。通过报告质量评价可知,学习主题元分析报告质量集中在中等水平,绝大多数元分析不存在严重的报告缺失,但也有需要重视和改进的方面。
1. 摘要报告结构性不佳
元分析的摘要具有结构性要求。以PRISMA指南为例,摘要内容应该包括背景、目的、资料来源、研究纳入标准、研究对象、干预措施、研究评价、结果、局限性、结论等[10]。然而106篇元分析中大部分摘要的写作模式与一般文章的摘要写作模式无异,缺少元分析特有的资料来源、研究纳入标准、研究评价等结构性要素。
2. 方案和注册缺失
系统评价/元分析规范要求研究者在开展元分析之前要依据研究计划完成平台注册,因而有一些期刊会要求元分析类文章投稿时提供文章平台注册号。通过平台注册,研究者可以重新梳理选题意义和计划实施步骤;也可以监督和防止因某些原因,研究者在研究过程中修改纳入和排除标准,修改数据,最终有选择地只提供部分报告;也可以避免出现研究选题撞车现象,由此提升了元分析研究的可信度和透明度。目前学术界常用的元分析注册平台主要为Cochrane系统评价注册平台(http://www.cochrane.org/)和PROSPERO注册平台(https://www.crd.york.ac.uk/prospero/)。鉴于Cochrane是封闭性平台,注册周期长,更多的研究者选择PROSPERO注册平台,完成注册。在本研究中没有一篇文献进行了方案注册,究其原因,首先研究者还没有形成注册意识;其次,国内相关期刊并未对元分析注册提出要求。为保障元分析研究过程的严谨性和研究结论的科学性,应加强方案注册的执行力度。
3. 纳入研究信息报告不充分
元分析报告要求纳入信息公开透明。元分析应提供详细的文献筛选过程,包括研究纳入清单、纳入研究特征以及单个研究结果等。106篇元分析报告在纳入信息方面中都存在一定缺失。可能是由于篇幅限制或操作完整性,有些报告仅用语言简要描述了文献筛选过程,没有采用流程图呈现。在纳入研究特征报告中,大多数元分析会说明提取了哪些特征,但并未将从单个研究中提取到的特征值进行报告,如未报告样本数量等。而单个研究结果的报告更是随着研究纳入清单和研究特征报告的缺失而不见踪影。这些都是导致报告质量差的重要原因。
4. 结果报告缺乏严谨性
首先,源于方法学上的疏漏,元分析内部偏倚情况报告严重缺失。其次,由于样本的多样性,学习主题元分析往往异质性极高,在进行结果综合时,要谨慎考虑异质性对结果的影响。如在《课外辅导对学生学业成绩影响效应的元分析》中[22],综合所有研究后得到的结论是不存在显著影响,然而这与纳入的单个研究结果大相径庭,原因就在于对于不同特征的群体呈现的相反效应值在结果整合时出现了相互抵消现象。当异质性较高时,应该进行亚组分析以在同质性较高的亚组下进行结果综合,如《多媒体学习中视觉情绪设计对学习效果的影响》[23];或进行敏感性分析探析排除不同研究后效应值的稳健性,如《教师支持、学业自我效能感与中小学生学业成绩的关系:元分析结构方程模型》[24]。
5. 研究局限报告缺失
元分析作为二级研究,很难弥补原始研究本身带有的局限性,且元分析并不能保证在方法学意义上完美无缺,因此,对元分析研究的局限性进行深入分析与报告有着重要意义。但在106篇元分析中只有46篇对研究局限进行了完整报告。
(三)引发质量问题的原因探讨
1. 元分析的方法学研究与推广缺失
据不完全统计,目前国内教育领域期刊有关元分析主题的发文达三百余篇,几乎所有文章都是元分析方法的应用研究,极少数有关元分析方法学的研究成果则发表于早年间,近十年来未见教育领域内有元分析方法学的研究成果,更难提及配套工具的开发与应用。究其原因,学者们意识到元分析的价值,借由其标准化的操作程序,获得具有较强说服力的证据结论,因此而产生应用热潮。但学者们似乎更聚焦自身学术问题,只是偶尔采用方法,并没有对方法本身持续关注和深入学习的诉求。但元分析方法作为新兴研究方法,还有很多不完善之处,还处在发展之中。因而追踪研究与提高对此方法的认知是十分必要的。国外教育领域一直在元分析方法学方面开展着深入研究,得出了丰富的成果,学者们批判性地评价了已有的元分析研究[25],概述了元分析的最佳应用方法[18],并提出了有助于研究者间进行方法论探讨的步骤框架[26]。国内方法学研究的缺失以及国外研究成果推介的缺失是影响元分析质量的根本原因。
2. 元分析方法跨学科应用的不适应性
元分析起源于心理学并发展于医学,方法的跨学科迁移带来了元分析应用的模糊性。首先,有研究表明,已有的高等教育系统评价(包含元分析)在方法学术语的使用上有明显差异,在应用上也并未达成共识[26]。其次,元分析研究具有较强的科学性与严格的技术规范。这一特质对于社会学科是有些水土不服的。也有学者从强调教育学科的人文特质出发对元分析方法、循证的思路展开反思与批评[27]。这也导致元分析方法在跨入教育领域后的应用带有一些混乱性。再次,目前源自于循证医学领域已经非常成熟的AMSTAR评价工具和PRISMA报告指南已普遍运用于社会科学领域[26],但源于学科领域差异,其运用仍存在不适应现象。
五、改进建议
(一)提升元分析研究科学性
元分析研究的科学性主要体现在对各类偏倚风险的评估与控制,在进行研究时要特别予以重视。文献筛选和纳入时要尽可能纳入灰色文献,降低发表偏倚的出现风险;文献筛选和资料提取的过程由至少两人独立进行后交叉核对,以保护研究过程的可重复性;在对发表偏倚的评价上,应减少对漏斗图的依赖,尽可能使用Egger回归分析法或Beggs秩相关性法等定量检验方法补充说明[28-29],以确保发表偏倚评价的准确性。而在研究内部偏倚的排查上,研究者在元分析前应对纳入研究质量进行审查,在工具选择上可以使用认同度较高的GRADE(the Grading of Recommendations Assessment,Development and Evaluation)。GRADE是国际统一的证据质量分级和推荐强度系统,但GRADE对非随机对照实验研究的证据质量等级评定较低,对于常使用非随机对照实验的学习研究而言,也可以考虑采用由Cochrane制定的针对非随机对照实验的风险偏倚评估工具——ROBIN-I[30]。
(二)增强元分析报告规范化
有研究表明,PRISMA指南发布后,在PRIMA指导下进行的元分析报告数量增多,且报告质量有所上升[31-32]。研究还发现方法学质量对报告质量有一定依从性[32],随着报告质量的上升有所上升。因此,研究者可以学习掌握AMSTAR、PRISMA和ENTREQ等信效度好的指南,依照指南细化研究计划,完善研究过程并形成研究报告。其次,建设公开透明的数据库也是实现元分析报告规范化的重要途径。数据库既能帮助研究者查询关于某研究主题已有的元分析研究成果,直接找到相关研究的“最佳证据”,规避了研究彎路和学术浪费。同时,数据库也能帮助研究者明确元分析研究空白,确保新的元分析研究的学术价值。目前国际上在社会科学领域,特别是教育领域比较著名的数据库有Campell图书馆、社会系统证据库(Social System Evidence,SSE)、有效教学策略网WWC等。而国内教育领域的元分析数据库建设才刚刚起步,有着较大的发展空间。
(三)打造健康的元分析研究生態
要提升元分析质量,就需要涉及的多方人员共同努力,一起打造健康、科学的元分析研究生态。首先,专家学者们研究制定适用于本学科领域的元分析方法学质量评价工具以及报告规范指南是迫在眉睫的。这是打造健康研究生态的关键。其次,采用元分析方法开展研究的学者们要严格依照科学指南展开研究,获得可靠的结论和规范的报告,从而提升研究的理论价值,同时,在元分析知识转化上给出有建设性的建议和意见,以促成研究成果的实践转化。这是实现健康研究生态的重点。再次,各期刊编辑、审稿专家应高度重视元分析相关稿件质量,尽可能依照标准化、规范化的质量评价工具和报告规范指南进行审稿,以提升稿件质量。这是打造健康研究生态的保障。最后,高校教育学相关专业有必要在教育研究方法课程中添加元分析方法知识,以保证学习者能够获得全面、系统的方法学习,保障研究工作的规范科学。这是打造健康研究生态的基础。
六、结 语
元分析是针对现实问题获得高级别科学证据的方法。近年来在学习领域元分析研究呈现出蓬勃发展的局面。尽管发文量不断攀升,但研究质量还存在着不同程度的问题。本研究就该问题展开研究,对学习领域的元分析成果进行了方法学质量和报告质量评价,得出评价结果,讨论结果产生的原因,并给出改进建议。
本研究存在以下局限:(1)本研究在纳入文献基本特征分类、方法学质量评价、报告质量评价中具有主观性,尽管研究由两位经过培训的研究人员分别进行,最终交由第三方核对,但仍然可能产生偏倚。(2)本研究仅纳入了CSSCI期刊上的元分析文献,并且只搜索、录入了2022年上半年的文献,这都可能导致抽样偏差,不一定能全面反映学习主题元分析的总体水平。(3)由于篇幅限制,本研究没有提供完整的文献纳入清单和纳入研究特征。(4)本研究对质量影响因素的探析不完全充分,有待后续关注与研究。
[参考文献]
[1] GLASS G V. Primary, secondary, and meta-analysis of research[J]. Education research, 1976, 6(5):3-8.
[2] 夏凌翔. 元分析方法的几个基本问题[J]. 山西师大学报(社会科学版), 2005(3):34-38.
[3] IOANNIDIS, JOHN P A. The mass production of redundant, misleading, and conflicted systematic reviews and meta-analyses[J]. Milbank quarterly, 2016, 94(3):485-514.
[4] VAN AERT R, WICHERTS M, VAN ASSEN M. Publication bias examined in meta-analyses from psychology and medicine: a meta-meta analysis[J]. PLOS ONE, 2019, 14(4):e0215052.
[5] MOHER D, LIBERATI A, TETZLAFF J, et al. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement[J]. Journal of clinical epidemiology, 2009, 62(10):1006-1012.
[6] SHEA B, GRIMSHAW J, WELLS G, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews[J]. BMC medical research methodology, 2007, 7(10):1-7.
[7] FOSTER R L.Reporting guidelines: CONSORT, PRISMA, and SQUIRE[J]. Journal for specialists in pediatric nursing, 2012, 17(1):1-2.
[8] BAI Z G, BING Q, GONG R R, et al. Evidence based social science in China paper 3: the quality of social science systematic reviews and meta-analysis published from 2000 to 2019[J]. Journal of clinical epidemiology, 2019, 141:132-140.
[9] 吴洋. 加强系统综述/meta分析类论文来稿的编辑审查[J].编辑学报, 2020, 32(1):37-40.
[10] 杨克虎, 李秀霞, 拜争刚. 循证社会科学研究方法:系统评价与Meta分析[M]. 兰州:兰州大学出版社, 2018.
[11] 熊俊, 陈日新. 系统评价/Meta分析方法学质量的评价工具AMSTAR[J].中国循证医学杂志, 2011, 11(9):1084-1089.
[12] BURDA B U, HOLMER H K, NORRIS S L. Limitations of a measurement tool to assess systematic reviews (AMSTAR) and suggestions for improvement[J]. Systematic reviews, 2016(5):58.
[13] 张方圆, 沈傲梅, 强万敏. AMSTAR使用过程中存在的问题及建议[J]. 中国循证心血管医学杂志, 2018, 10(2):138-142.
[14] JAVOBS W C H, RUBINSTEIN S M, WILLEMS P C, et al. The evidence on surgical interventions for low back disorders, an overview of systematic reviews[J]. European spine journal, 2013, 22(9): 1936-1949.
[15] 张方圆,沈傲梅,曾宪涛,等. 系统评价方法学质量评价工具AMSTAR 2解读[J]. 中国循证心血管医学杂志,2018,10(1):14-18.
[16] 项明强,肖让,赵雪平,等. 70篇体育学元分析文献的质量评价与改进建议[J]. 上海体育学院学报, 2021, 45(4):68-76.
[17] 王立君, 顾海根. 概念图对学生成绩和态度影响的元分析[J]. 心理科学,2008,31(6):1510-1512,1506.
[18] TERRI D P, JOSHUA R P. Methodological guidance paper: high-quality meta-analysis in a systematic review[J]. Review of educational research, 2020, 90(1):24-46.
[19] POLANIN J R, TANNER-SMITH E E, HENNESSY E A. Estimating the difference between published and unpublished effect sizes[J]. Review of educational research, 2016, 86(1):207-236.
[20] 侯浩翔, 王旦. ICT对工科学生创造力的影响效应——基于国内外41项实验与准实验研究的Meta分析[J].现代教育技术, 2021, 31(12):110-118.
[21] 汪维富, 毛美娟, 闫寒冰. 智能导师系统对学业成就的影响研究:量化元分析的视角[J]. 中国远程教育, 2019(10):40-51.
[22] 刘珊珊, 杨向东. 课外辅导对学生学业成绩影响效应的元分析[J]. 教育发展研究, 2015, 35(22): 55-64.
[23] 杨红云, 陈旭辉, 顾小清. 多媒体学习中视觉情绪设计对学习效果的影响——基于31项实验与准实验研究的元分析[J]. 电化教育研究, 2020, 41(1):76-83.
[24] 纪春梅, 赵慧. 教师支持、学业自我效能感与中小学生学业成绩的关系:元分析结构方程模型[J]. 教师教育研究, 2021, 33(6):106-113.
[25] HEW K F, BAI S R, DAWSON P, et al. Meta-analyses of flipped classroom studies: a review of methodology[J]. Educational research review, 2021, 33:18.
[26] CHEN Y L, CHONG S W, LIN T J. A methodological review of systematic literature reviews in higher education: heterogeneity and homogeneity[J]. Educational research review, 2022, 35.
[27] 陈露茜, 苏艺晴. 循证教育溯源及其困境[J]. 清华大学教育研究, 2022, 43(4):44-52,113.
[28] 李彤彤, 庞丽, 王志军. 翻转课堂教学对学生学习效果的影响研究——基于37个实验和准实验的元分析[J].电化教育研究, 2018, 39(5):99-107.
[29] 张文兰, 胡姣. 项目式学习的学习作用发生了吗?——基于46项实验与准实验研究的元分析[J]. 电化教育研究, 2019, 40(2):95-104.
[30] 金雪娟, 王吉耀. 《如何使用ROBINS-I和其他非随机研究偏倚风险评估工具对证据体的质量进行评级》文献解读[J]. 中国循证兒科杂志, 2021, 16(6):442-445.
[31] NIKOLA P, EMANUELE L, GIULIO B, et al. Evaluation of the endorsement of the Preferred Reporting Items for Systematic Reviews and Meta-Analysis (PRISMA) statement on the quality of published systematic review and meta-analyses[J]. PLOS ONE, 2013, 8(12):e83138.
[32] ADAM T, MATTHEW M, RAMEZ H, et al. Association of study quality with completeness of reporting: have completeness of reporting and quality of systematic reviews and meta-analyses in major radiology journals changed since publication of the PRISMA statement?[J]. Radiology, 2013, 269(2):413-426.
Quality Evaluation of Learning Thematic Meta-analysis
Research in China from 2002 to 2022
HU Xiaoling, YUAN Min, ZHAO Lingxia
(Institute of Higher Education, Lanzhou University, Lanzhou Gansu 730000)
[Abstract] As an integrated statistical analysis method that breaks through the traditional statistical limitations, the meta-analysis method is increasingly used, but the unreliability of the meta-analysis conclusions is often ignored. In view of this, this study selects the meta-analysis studies about learning themes in China in the past two decades and evaluates them for methodological quality evaluation and report quality. Firstly, after determining the inclusion criteria, 106 meta-analyses from 1906 papers published in CSSCI journals between 2002 and 2022 are included in the study. After data extraction and feature analysis, the methodological quality and report quality of the 106 papers are evaluated by applying AMSTAR and PRISMA evaluation tools respectively. The evaluation conclusion is that the overall methodological quality of the literature is low, and there is a lack of methodologically high-quality literature; the report quality is moderate, with uneven performance. Among them, the methodological quality has some problems, such as poor reproducibility of research inclusion and data extraction, lack of included research quality evaluation and improper publication bias test methods. Report quality has problems with poorly structured abstract reports, missing protocol and registration, inadequate reporting of included research information, lack of rigor in reporting results, and missing reporting of research limitations. Finally, this study discusses the sources of quality risk and gives suggestions for improvement.
[Keywords] Learning Themes; Meta-analysis; Methodological Quality; Report Quality; Evaluation