人工智能技术对学生学习效果的影响研究
——基于2010至2022年40项实验与准实验的元分析

2022-11-30 04:11胡德鑫王耀荣

天津大学学报（社会科学版） 2022年6期

胡德鑫，王耀荣

（天津大学教育学院，天津 300350）

进入21世纪以来，全球正处于百年未有之大变局，随着以人工智能技术为代表的新科技革命不断发展，全球资源配置形态、工业生产模式和人类生活方式正发生急遽变革。人工智能技术亟需在国家高科技战略与前沿行业发展领域发挥引领与支撑作用，当前人工智能已经成为赋能学校教育治理现代化的关键工具，受到学术界和社会公众的广泛关注。尤其是2020年以来，关于人工智能技术在教育教学领域应用的研究快速增加，主要集中在辅助学生学习的智能分析技术、教师智能技术运用能力提升、教学资源开发与共享机制、教学管理与评价智能平台建设、学习环境技术支持与升级等诸多领域。人工智能进一步赋能智慧教学、泛在学习、监测评价等教育教学改革场域，为“人工智能+教育”的多场景、多模态、多时空运用奠定坚实技术基础。

通过梳理发现，目前学术界对人工智能技术是否影响学生的学习效果主要持有以下两类观点。诸多学者通过实验证明人工智能技术对学生的学习效果有显著影响。诸如，Abbasi等通过开发部署一个带有面向对象编程语言知识库的聊天机器人系统，使用谷歌搜索引擎和聊天机器人系统进行实验比较，实验结果表明聊天机器人系统对学生的记忆保持和学习成绩有显著影响[1]；Zafar等通过设计和开发一种智能辅导技术，对在真实环境中计算机科学专业的研究生用SQL进行测试，结果显示该智能辅导系统对学生学习结果产生积极的影响[2]；Julià等通过实验组和对照组对比的视角，讨论和分析教育机器人在培养12岁学生空间能力方面的效果，结果显示机器人课程参与者对空间能力的积极变化大于未参加课程的学生的变化[3]。然而也有一些实证研究结果表明，人工智能技术并不能提升学生的学习效果。如Calvo-Ferrer通过前、后和延迟测试探究智能教育游戏对学生词汇习得和感知学习收益的激励效应，结果显示智能教育游戏对学生的学习结果没有影响[4]，该作者认为智能教育游戏作为教育环境中的一种创新技术工具，可能会让学生过度兴奋，进而可能导致学生对教育内容分心；Wrzesien等采用准实验设计对比虚拟班级（采用E-Junior智能程序以帮助学生理解自然科学的虚拟世界）和传统类型的班级对学习效果的影响，结果显示虚拟班级和传统班级在学习效果上没有统计学上的显著差异[5-6]。

总的来看，目前学术界针对人工智能技术对学习效果影响这一论题仍未达成统一共识，人工智能对学习效果的影响尚不清楚。鉴于此，本研究采用元分析研究法，对2010至2022年国际权威数据库中关于人工智能影响学生学习效果的实证研究文献进行筛选并分析。本研究试图回答以下问题：1）与传统学习方式相比，人工智能技术整体上能否提升学生学习效果？2）人工智能对学生学习效果在认知层面和非认知层面各维度的影响程度如何？对学生认知和非认知的学习效果有无差异？3）不同类型的人工智能技术应用对学习效果的影响有没有差异？4）人工智能在不同学科、学段和规模下是否会影响学习效果，影响程度有没有差异？

一、研究设计

1. 研究问题界定

本研究主要探究人工智能技术对学生学习效果的潜在影响与基本特征。借鉴蒋鑫等学者对美国教育中的人工智能热点分类，结合本研究所梳理的文献，把教育领域内常用的人工智能技术划分为可穿戴技术（Wearable Technology）、教育机器人（Educational Robot）、智能教育游戏（Smart Educational Games）和智能学习系统（Intelligent Learning System）四种类型[7]。本研究中的学习效果指基于人工智能技术的运用，学生在学习过程中产生的心理与行为上的变化。研究借鉴顾小清等学者将学习效果分为认知和非认知两个层面，结合纳入本研究的样本文献，认知层面划分为创造性思维、问题解决能力、学习收获、认知能力和空间能力五个维度，非认知层面主要包括学习意志、学习态度、学习参与、学习兴趣和学习动机五个维度[8]。

2. 文献筛选与编码

本研究中选取的样本文献主要通过对Web of Science、Springer Link、ScienceDirect、ERIC、IEEE等国际权威文献数据库中2010—2022年间发表的论文进行大范围交叉检索，检索时用人工智能技术关键词包括：人工智能（Artificial Intelligence）、教育（Education）、智能学习系统（Intelligent Learning System）、机器人（Robot）、可穿戴技术（Wearable Technology）、智能教育游戏（Smart Educational Games）等。学习效果相关关键词有：学习成就（Learning Achievement）、学习表现（Learning Performance）、学习收获（Learning Gains）、学习结果（Learning Outcome）、学习影响（Learning Effect）等。首轮检索结束后，为获取更多相关研究权威文献，对相关研究的参考文献进行第二轮回溯检索。

为保证研究的严谨性和有效性，本研究对文献纳入标准制定了以下规则：第一，研究主题必须为人工智能技术影响学生学习效果的高度相关研究；第二，研究必须为实证研究，排除非实证研究；第三，研究必须包括实验组和对照组，实验组学生使用人工智能技术，对照组采用传统学习方式，或者是实验采取前测和后测，前测为人工智能技术干预前，后测为人工智能技术干预后；第四，研究必须包括能够计算出效应值的各项统计原始数据。经过筛选后，最终完全符合元分析标准的文献共有40篇，共计包含72个效应值，具体流程如图1所示[9-44]。

图1 样本文献筛选Prisma流程

根据纳入元分析样本文献的特点，对样本文献的特征值进行编码，从符合文件筛选要求的文献中提取以下变量：作者、出版年、样本量、学段、学科、技术应用类型以及学习效果等信息，编码标准如表1所示[45]。为保证编码的准确性，本研究由两位研究人员进行双重编码，两者编码的Kappa值为0.913，说明编码结果可信。

表1 文献编码标准

3. 分析方法与工具

本研究采用的基本方法是元分析，元分析法是通过采用特定的测量与统计分析技术对诸多同一类主题的多项独立的量化研究进行再分析，避免单个研究结果可能带来的结论偏差，从而得出一个具有普遍性意义的结论。目前可用于元分析的主流工具包括R语言、Stata、SAS、Review Manager和Comprehensive Meta-Analysis（CMA）等。结合研究实际情况，本研究采用CMA 3.0作为技术分析工具开展研究。在元分析研究中，常用的效应量有Cohen’sd和Hedges’g，综合对比分析这两种效应量，结合本研究中有部分文献的研究对象样本量小于20的实际情况，本研究采用Hedges’g作为效应量指标[46]。在解释效应量大小时，研究使用了科恩的效应值分类：当效应值位于0.8左右时，有显著的影响效果，且影响很大；当效应值位于0.5左右时，有中等程度的影响；当效应值在0.2左右时，通常认为影响相对较小，效果不显著[47]。除探究人工智能技术对学生学习效果的总体影响外，本研究还引入样本规模、学科、学段和技术应用类型4类调节变量，从不同层面来评价人工智能技术对学习效果的影响，框架设计如图2所示。

图2 元分析框架设计路线

二、研究结果与分析

1.发表偏倚检验

在元分析中，当选择样本不能代表该领域的研究总体时，就有可能出现发表偏倚问题，从而影响研究结果的准确性。为检验本研究是否存在发表偏倚现象，评估采用漏斗图和失安全系数（Fail-safe N）的综合评价方法加以判定。图3漏斗图中横坐标表示平均标准差效应值，纵坐标表示效应值的标准差。使用漏斗图对发表偏倚进行可视化，可以看出72项独立研究效应量绝大部分位于漏斗图的上半部分，且分布在平均效应值的两侧，说明存在发表偏倚的可能性很小。失安全系数是评估发表偏倚是否发生的另一个有效指标，该系数强调在元分析结果有统计意义时，系数值越大，结论逆转的可能性越低，即发表偏倚出现的概率越小。其具体评价标准为如果失安全系数小于5K+10，其中K代表纳入元分析的样本文献数量，则存在发表偏倚。本研究中失安全系数为4 655，远超过210（即5×40+10），说明此研究存在发表偏倚的可能性很小。根据上述两种评价方法综合判断，本研究的基本结果较为可靠，能够得出较为稳定的结论。

图3 效应值分布漏斗图

2.异质性检验

异质性检验主要用于测量研究中效应值的变异程度，目的是确定各独立研究结果是否具有可合并性。本研究中主要采用Q和I²来进行检验，结果显示Q为731.741（p＜0.001），说明研究的样本间存在异质性；I²的值为90.297%，大于75%，说明90%的异质性是来自于效应值的真实差异，仅有10%是由系统误差导致的。纳入研究中样本文献的发表时间、来源国家、样本规模、研究对象等多种因素可能是导致出现异质性的原因。I²值反映异质性部分在效应量总的变异中所占的比重，其数值越大，表明异质性越强。本研究采用随机效应模型进行解析，以保证研究结果的有效性和可靠性，从而有效消除异质性[48-49]。

3.人工智能对学生学习效果的整体效应检验结果

将40项研究（共含72个效应量）的实验组和对照组或前测和后测的样本量、均值和标准差等数据导入到元分析软件CMA3.0中，人工智能对学习效果影响的整体效应检验如表2所示。整体效应值Hedges’g为0.845，且p＜0.001，说明人工智能技术能够显著提升学生的学习效果。

表2 人工智能对学习效果影响的整体效应检验

4. 人工智能技术对学生学习效果各维度的效果分析

本研究将学习效果分为认知层面和非认知层面。通过表3可知，人工智能技术对学习效果认知层面的效应值Hedges’g为0.915，达到统计显著水平（p＜0.001），效应值大于0.8，说明人工智能技术对认知层面的学习效果有显著影响。非认知层面的效应值Hedges’g为0.783，达到统计意义上的显著水平（p＜0.001），效应值大于0.5且小于0.8，说明人工智能技术对学生学习效果的影响在非认知层面上有中等偏上程度的影响。组间效应Q=0.739，没有达到统计意义上的显著水平（p＞0.05），说明人工智能技术对学生学习效果在认知层面和非认知层面不存在显著差异。研究结果表明人工智能技术对学生认知层面和非认知层面的学习效果均具有较高的提升效果。

表3 人工智能对认知与非认知层面学习效果影响的差异分析

人工智能技术对认知和非认知层面各个维度的影响如表4所示。在认知层面，学习收获效应值为1.049，认知能力效应值为0.992，且都具有统计显著性（p＜0.001），表明人工智能技术对学生认知能力和学习收获有积极正向的影响。问题解决能力的效应值为0.650（p＜0.05），说明人工智能技术对学生问题解决能力有中等程度的积极正向影响。人工智能技术对学生创造性思维和空间能力影响方面，不具有统计学的显著意义（p＞0.05）。在非认知层面，学习参与的效应值为1.148，学习态度的效应值为0.896，学习动机的效应值为0.814，学习意志的效应值为0.803，且都具有统计显著性（p＜0.05），说明人工智能对学生学习效果在这4个方面都具有积极正向的显著影响，其中在学习参与方面影响最大。学习兴趣的效应值为0.562，具有统计显著性（p＜0.001），说明人工智能技术对学习兴趣有中等程度的正向促进作用。

表4 人工智能对各维度学习效果影响的差异分析

5.不同调节变量对学生学习效果的影响

（1）不同类型的人工智能技术应用对学习效果影响的差异分析。本研究将人工智能技术的应用类型分为教育机器人、可穿戴技术、智能教育游戏和智能学习系统。从表5可以看出，教育机器人效应值为0.828，可穿戴技术效应值为0.739，智能教育游戏效应值为0.811，智能学习系统的效应值为0.991，且都具有统计显著性（p＜0.001），说明四种不同类型的人工智能应用对学生学习效果都具有积极正向的促进作用。组间效应Q=1.371，没有达到统计意义上的显著水平（p＞0.05），表明不同技术应用类型在促进学生学习效果上不存在显著差异。

表5 不同技术应用类型对学习效果影响的差异分析

（2）人工智能技术对不同学段学生学习效果影响的差异分析。将纳入研究的样本文献中的学段分为幼教、小学、中学和大学4个学段。由表6结果可得，在大学阶段的效应值为1.207，幼教阶段效应值为1.382，效应值均大于0.8，且达到统计学意义的显著水平（p＜0.05），说明在大学阶段和幼教阶段人工智能技术对学习效果的影响达到积极正向的显著效果；小学阶段效应值为0.652，中学阶段效应值为0.625，且都具有统计学的显著意义（p＜0.001），说明人工智能技术在小学和中学阶段有中等程度的正向影响。组间效应Q=11.83，达到统计学意义的显著水平（p＜0.05），说明人工智能技术对不同学段学生的学习效果存在显著差异。

表6 人工智能对不同学段学生学习效果影响的差异分析

（3）人工智能技术对不同学科学习效果影响的差异分析。本研究将人工智能所应用的学科领域划分为英语、数学、物理、计算机、科学和生物6个学科，探究人工智能对学习效果的影响在不同学科间的差异。结果见表7所示，组间效应Q=37.00，达到统计学意义的显著水平（p＜0.05），说明人工智能技术对不同学科的学习效果存在显著差异。对计算机这一学科的影响最大，效应值为1.334，其次生物学科效应值为1.230，英语学科效应值为0.919，这三个学科的效应值都达到0.8以上，且均具有统计显著性（p＜0.001），说明人工智能对计算机、生物和英语学科的学习效果具有积极正向的显著作用。数学学科效应值为0.500，科学学科效应值为0.501，数学和科学的效应值在0.5～0.8之间，且都具有统计学的显著意义（p＜0.001），表明人工智能对数学和科学学科的学习效果具有中等程度的正向影响。而人工智能对物理学科影响的效应值仅为0.119（p＞0.05），不具有统计显著性。

表7 人工智能对不同学科学习效果影响的差异分析

（4）不同样本规模下人工智能技术对学习效果影响的差异分析。不同样本规模是否会影响到人工智能对学生的学习效果，研究结果如表8所示，组间效应Q=15.866，达到了统计学意义的显著水平（p＜0.05），说明在不同样本量下人工智能技术对学习效果的影响存在显著差异。其中样本量在50～100时效应值为1.066，样本量小于50时，效应值为0.981，两者效应值都大于0.8，且都具有统计显著性（p＜0.001），说明人工智能在样本量小于50和位于50到100之间都能达到积极正向的显著作用。样本量大于100时，效应值为0.485，具有统计显著性（p＜0.001），表明人工智能在样本量大于100时有较低的作用。

表8 人工智能对不同样本规模学习效果影响的差异分析

三、研究结论与讨论

1.研究结论与建议

研究通过运用元分析方法对2010至2022年间国际上关于人工智能技术对学习效果影响的40篇文献（共含72个效应量）进行梳理分析。研究结果表明人工智能技术对学生学习效果影响的整体效应值达0.845，说明人工智能技术能够积极促进学生的学习效果，不仅体现在认知层面，也体现在非认知层面；不同技术应用类型之间不存在显著差异，均能够有效提升学生的学习效果。此外，从总体来看，人工智能技术在不同学段、学科和样本规模下对学生的学习效果均能产生不同程度的积极影响。基于此，从政策设计、教学改革和技术推广三个层面提出未来人工智能技术促进学生学习效果的行动路径与提升策略。

（1）政策设计：积极推动人工智能与教育的深度融合。由元分析结果可知，人工智能技术对学习效果影响的整体总效应（g=0.845，p＜0.001），说明人工智能技术对学生学习效果的影响有积极正向的显著作用。在认知层面（g=0.915）和非认知层面（g=0.783），结果显示在认知层面和非认知层面没有显著差异（p＞0.05），表明人工智能不仅能促进学生在认知层面的学习效果，也能促进非认知层面的学习效果。研究结果表明，人工智能与教育的深度融合有利于学生的学习效果提升，人工智能技术的发展对教育系统性改革起着内驱源动力的作用。如何塑造与技术互动中的未来教育新模态，进而推动学生自主学习向自适应学习的新范式转型，是人工智能技术赋能教育改革应关注的核心内容。聚焦人工智能技术驱动下教育变革的政策设计，应从教育教学模式创新、大规模个性化学习、重塑知识价值观念、未来教师培训与发展等维度推进系统性改革。

（2）教学改革：人机协同引领未来学习新方式。为研究人工智能不同技术应用类型对学习效果的影响，我们分析了4种不同类型的人工智能技术应用类型，分别为教育机器人（g=0.828）、可穿戴技术（g=0.739）、智能教育游戏（g=0.811）和智能学习系统（g=0.991），结果表明不同的应用类型之间没有显著差异（p＞0.05），都可以提升学生的学习效果。从本研究中可看出未来将会有更多更深层次的人工智能技术应用到教育领域，学校未来将会是更加智能化、个性化和系统化的生态图景，人机协同将成为学校教育的新常态。在人机协同的管控下有效开展教学活动，让人工智能技术更好辅助教育教学活动，代替教师更多机械的任务，从而让教师更多地投入到教学过程中的互动、参与等需要自主建构的教学活动中。

（3）技术推广：推进人工智能多学段、多学科和差异化应用。从学段来看，人工智能在各个学段都有正向的促进作用，但在不同学段的应用效果不同（p＜0.05）。由于幼教阶段样本量较少，主要比较小学、中学和大学阶段学生的应用效果。相比大学阶段（g=1.207），人工智能在小学（g=0.652）和中学（g=0.625）阶段的应用效果相对较低。相比大学生，中学生和小学生自我控制能力相对较弱，自我管理方面能力不足，不具备良好的主动学习能力，所以对他们来说维持学习动机和学习意志比较困难，因此在人工智能运用到不同学段时，应结合各学段学生的特征和差异来进行设计，引入提高学生学习动机、学习意志、学习注意力等方面的元素。

从学科来看，人工智能对统计中的各个学科学习效果都有正向的影响，但影响程度有明显区别（p＜0.05）。根据实验结果可看出，人工智能在英语（g=0.919）、计算机（g=1.334）和生物（g=1.230）这些科目上表现出更大的优越性，说明这些学科长期以来在教学过程中善于借助信息技术手段。然而对于数学（g=0.500）、物理（g=0.119）和科学（g=0.501）学科，今后则需要更多借助人工智能技术开展教育教学活动，这些学科在借助人工智能技术提升学习效果方面仍有很大的发展空间。

从样本量来看，不同样本量对学习效果的影响是显著的，样本量在小于50和位于50～100之间时（g＞0.8），人工智能技术对学习效果有积极的正向作用，而样本量在大于100时（g＜0.5），人工智能技术对学习效果的作用较小。斯滕贝格·胡与库珀在研究时发现了类似的样本量过大效应量降低的情况，他提出当样本量过大时，开展实验的过程中实验条件一般情况下很难得到保证，可能对实验结果造成一定的影响[50]。由于样本规模过大时学生之间个体差异较大，同时实验过程中也会有教师的参与辅助，可能会对实验结果造成一定程度的影响。

综合人工智能在不同学段、学科和样本量这几个调节因素上的结果来看，人工智能技术在各个方面都有提升的空间。未来人工智能应朝着多学段、多学科和差异化应用的方向迈进，推动人工智能技术在教育领域应用的供给侧结构性改革，依据不同学段、学科及规模的特征和差异，探究适合各层次学生的方案和设计，以满足不同层次学生的需要，从而促进人工智能在各学段、学科和规模的广泛应用。

2. 研究讨论

本研究基于2010至2022年国际权威数据库中关于人工智能对学习效果影响的实证研究文献，采用元分析方法探究人工智能技术对学生学习效果的影响，并基于样本规模、学科、学段和技术应用类型4类调节变量分析其影响差异。该研究突出当前人工智能技术应用于教育教学过程中出现的问题与挑战，从而为人工智能技术在教育场域的广泛应用奠定基础。总之，从研究结果来看，人工智能技术对学生学习效果的提升还有很大的发展空间，未来应在各阶段教育中增加人工智能学习技术的开发，在人工智能学习技术的开发过程中应更多考虑学生自主学习能力的培养，此外应对教师进行持续培训，以增强教师应用人工智能技术的信心和熟练程度。本研究在样本文献的收集和纳入时依照严格的标准选取，并对数据进行了量化分析，因此研究结果具有一定的可靠性和有效性。然而，这项研究还有一定局限性与进一步完善的空间。首先，本研究只有40篇文献符合元分析标准，因此在研究结果的推广方面应谨慎。未来的研究应扩大数据来源，以获得更多的研究，更好地了解人工智能对学习效果的影响。其次，目前的研究只分析了4个调节变量的影响，未来的研究应考虑加入其他可能对学生学习效果产生影响的调节变量。最后，本研究分析框架尚有待进一步完善，分类还需要更加细致，后续应结合人工智能技术对学生学习效果影响相关研究的不断增加，展开更深入的元分析量化研究，以得出更加全面、客观与细致的科学论断。

人工智能技术对学生学习效果的影响研究 ——基于2010至2022年40项实验与准实验的元分析

一、 研究设计