人工智能教育数据偏见成因机制及家校共治探讨

2023-12-21 11:21付睿云白庆春吕泰

中国信息技术教育 2023年24期

付睿云白庆春吕泰

1.上海开放大学浦东东校

2.上海开放大学上海开放远程教育工程技术研究中心

●引言

人工智能技术发展带来了诸多便利，但所引发的问题也受到广泛关注。谷歌人工智能负责人约翰·詹南德雷亚认为人工智能真正的安全问题是：“如果我们给系统有偏见的数据，它们就会有偏见。”[1]英国学者塔迪欧建立的三元数据伦理框架认为偏见来自数据、算法以及实践。[2]国内学者沈苑认为在人工智能教育应用研发过程中，偏见来自设计偏见、数据偏见以及算法偏见，其中数据偏见是社会结构性壁垒的复制与重现。[3]李昭熠从智能传播数据库层面分析，认为数据库的偏见来自数据库本身的隐形偏见。[4]在文献梳理过程中，笔者发现对偏见的研究主要是从人工智能整体角度或数据伦理角度进行研究，并且针对人工智能教育应用的数据偏见及其治理的研究，大多比较简略。另外，从人工智能教育应用的生命周期角度来看，偏见的源头是数据。同时，人工智能的反馈循环设计思想还可能会放大预先存在的偏见，走向一种复杂混沌的局面。这些显性或隐形的问题，导致人们必须重新考虑数据。因此，从数据层面研究此类偏见具有重要意义。

数据偏见的治理有具体的内容和特定的结构，需要自上而下、由表及里、系统全面地推进。而在教育界，基础教育和高等教育对数据偏见的思考和规划不尽相同。高等教育往上走，注重理论性、科学性、技术性的创新治理，而基础教育往下走，更贴近学生，需要可操作性强、适应性强的治理方案。因此，研究基础教育中如何有效进行数据偏见的治理成为本文研究的重要动因。

●教育数据偏见的概念及其外在表现

教育数据偏见可理解为人工智能教育应用所使用的数据包含“根深蒂固”的显性偏见，抑或“无意识”的隐性偏差，具有主观性、否定性、排斥性和消极性的特点，最终反映到输出模型存在偏见。随着越来越多的教育实践被数据化，数据偏见引发的问题也逐渐暴露和发酵。通过教育数据偏见的外在表现例子，可理解其带来的负面影响。一是数据偏见导致教育公平性受阻。2013年美国德克萨斯大学曾开发一套名为GRADE（GRaduate ADmissions Evaluator）的机器学习系统，用于简化招生流程及节省招生时间。通过对自然语言的处理，可基于推荐信上的内容建立识别模型，对候选人的简历打分，并按分数降序，审查申请人情况。[5]但在2020年，因为担心机器学习系统使用的教育数据集存有偏见，有可能带来不公平或错误的结论或决定，该系统被迫停用。二是数据偏见抑制学生全面发展。学生画像即通过算法捕捉学生的个人喜好和动态需求，建立多维度的画像标签。这些个性化算法技术的底层逻辑是基于使用者的本能喜好，提供学习支持服务，形式上属于精准式投喂信息。[6]但由于相同样本数据的积累和放大，忽略了多样性的数据，限制了学生的全面发展。三是数据偏见加剧教育质量鸿沟。人工智能教育应用缺少涵盖特殊群体的数据，有可能发生教育领域内的马太效应，即“富者愈富，穷者愈穷”现象。

●人工智能教育数据偏见的成因机制

对人工智能教育应用的数据处理，通常涵盖数据获取、数据分级、数据分析、应用和可视化等阶段，数据偏见可归纳为四种成因方式。需要说明的是，四种类型的偏见划分，只是一种原则性的划分，标识不同偏见的特点，并不具有精确的划分意义。同时，这些偏见不是彼此割裂、相互独立，而是相互联系，并常常交叉重叠。

1.数量型：局部的训练数据样本

数据是人工智能教育应用的基础。虽然更多的数据并不意味着更好的结果，但一般来说，数据越多，模型越可能取得良好和稳健的表现。例如，在机器学习和深度学习领域，样本数量不足的模型容易陷入过拟合以及对目标任务的欠拟合。但当前人工智能教育应用所需要的数据资源可获取的途径十分有限。因此，人工智能教育应用的提供者不得不在真实存在的学生身上开展实验，以不断调整优化应用。

2.浅表型：匮乏的数据采集手段

学生的学习过程是多模态的，需要多模态的人工智能技术感知不同的信息维度和信息来源，以满足复杂环境下的学习测量与评价。但目前国内大部分智能教育产品都处于弱AI的范畴[7]，主要用于作业测评与个性化推荐方向。以学习轨迹分析为例，传统的学习管理系统（Learning Management System）主要依靠学生到课率、资源点击率、作业完成率等表层数据进行分析，基于同理心、情绪、脑电、眼动等深层次的信息无法感知。即使在明确教学原则的情况下，人工智能无法多源感知数据和理解学生，容易专注于可用的数据，忽略有效数据或者关键数据，而不是从教育的基本原理出发，揭示教育发生的一般规律，有目的地收集数据，这种单一模态特征采集的数据容易产生偏见。

3.权重型：偏颇的数据特征样本

权重型偏见指的是有成见、刻板印象或错误社会假设的数据，导致某些元素相对其他元素具有更大的权重。虽然人工智能教育应用在设计时尽量避免嵌入偏见，但中立的数据是人们乌托邦的想象。例如，机器学习可对大量历史数据进行学习，进而利用生成的经验模型指导业务。在机器学习训练过程中需要进行必不可少的特征标注，旨在找出对教育模型有益的特征交叉关系，特征标注过程就反映着标注者的个人性格、所属的文化格局以及代表的社会结构。即使删除或忽略这些敏感特征也并不能阻止偏见模型的产生，因为其他相关特征（也称为冗余编码）可能被用作它们的代理。

4.标准型：差异的教育数据标准

在大数据时代，人工智能教育应用产生指数倍增长的数据，如果没有统一的教育数据标准，难以对数据进行有效和持续性的存储、分析和利用。数据标准是保障数据使用和交换过程一致性和准确性的规范性约束。[8]同时，标准需要基于教育理论与教育实践，但不同学科存在学习和教育过程的认识论差异和行为差异，教师在教育教学过程中所需的各类标准不一。另外，教师有着自身的知识盲区和认知局限性，在不具备充分的教学法、技术或学习评价等方面知识的情况下，即使相似类型的数据，也可能进行不一致的标记。如果在输入算法之前未考虑教育数据标准性，会不可避免地导致数据偏见。

●治理：家校共治视角的路径探索

数据偏见的治理已经成为人工智能和数据伦理领域的重要问题。杨庆峰教授认为，从解释学的“偏见—理解”框架看，作为在先的行动或者理解的前提，数据偏见是无法消除的。[9]但如果从数据歧视、数据虚假、数据缺失以及数据污染角度来看，数据偏见可以消除。

教育数据偏见治理是当下未来学校教育生态治理的重要标向，家校共治则是基础教育治理现代化的有效途径。一方面，从内涵要求上，共治是对传统教育治理方式的超越，共治强调教育主体（教师、家长、学生）的多元性，强调数据治理过程的民主性，体现基础教育数据治理的务实性，符合现代教育治理的内涵和要求。另一方面，从价值层面，人工智能的公平性和包容性是每个教育组织的核心价值。实现这样的价值目标，要建立健全家长参与学校数据治理的制度、体系、机制等。除传统层面加强学校自治以外，现代教育治理体系要将教育治理参与权与决策权下放给其他教育主体，实现分权共治，顺应人工智能的价值指向。家校共治路径探索如右图所示。

1.搭建学校数字基座，共享数据中心

《上海市教育数字化转型实施方案（2021-2023）》提出打造教育数字基座，开展数据教育治理与应用。搭建校级数字化基座不仅实现了各级数字基座联接和复用，而且通过实现大规模结构化、非结构化的数据采集、数据认证、数据授权以及数据的标准化等工作，使得数据民主化。所谓的“数据民主化”是指赋予人们，特别是弱势群体或处于不利境地的，接近数据的权利，以确保利益诉求得以实现。首先，打造校级数字基座，联通数据孤岛，搭建数据门户，创建可视化内容，开放访问路径，建立有效的信息交流机制。其次，注重基座内的数据透明度、可审计性和可问责性，如掌控数据决策过程、明确的文件记录数据采集过程等。最后，便于教育主体自行获取数据，自行分析和验证。在数据安全、数据合规、安全管理框架下，数据可流动、可获取、可应用，人、物、数据实现互通互联，使用者的数据边界被拓宽，教育主体的参与程度得以拓展。

2.提升教师数字素养，担当数据责任

在理想情况下，教师是人工智能教育应用间接的建设者和维护者，是教育数据直接的使用者和解读者，是数据工作者和学生之间的沟通者。虽然教师不需要具备良好的数据和算法程序的编写经验，不必成为数据科学专家，但需要掌握数据科学的基本知识，运用数据的基本伦理规范辨识数据在教育环境中的优劣势和真伪性，并能解释人工智能系统中所使用和提供的数据，在协同学习和工作中分享真实、科学、有效的数据。教师作为利益相关者应参与到人工智能教育应用中。一方面，教育工作者的基本责任首先是不造成伤害[10]，在没有得到支持或允许的情况下，限制教师自身行为，提高红线意识，防止灯下黑，确保学生不会受到意外伤害；另一方面，教师作为监督者，需要主动维护数据安全，了解数据隐私等行政和监管政策的必要性，防止人工智能教育应用的创建者加入偏见和伤害。

3.培养学生计算思维，传播数据技能

计算思维属于信息技术学科思维，包含算法思维、评估、分解、抽象、概括五大要素。[11]在传统中小学信息技术课程设置上，课程主要偏向于程序设计语言和技术工具应用，教学中很少涉及人工智能的伦理问题，特别是数据偏见问题。联合国教科文组织认为，中小学人工智能课程需涉及编码，而更重要的是要教会学生计算思维，这种思维能让学生知道对机器的决策何时该信任，何时该不信任。基于此，应适当增加基础教育阶段适龄学生的人工智能与社会、人工智能与人类智能的正式和非正式学习内容。正式学习以《人工智能保护海洋》（AI for Oceans）为例，此活动由美国公益组织Code.org开展，学生先区分海洋中的物体是不是鱼，确认是垃圾后再进行清除，然后不断地通过添加其他海洋生物来扩大数据集。通过这项活动，帮助学生理解在组织或系统中，不同利益相关者所扮演的角色和发挥的能动性，以及这些利益相关者如何在算法和伦理矩阵中融入自己的价值观和偏见。非正式学习形式则可安排学生观看Netflix的纪录片Coded Bias或HBO的纪录片Persona等，将计算思维融入到学生生活和学习中。

4.深化家长合作价值，提升数据意识

在现代教育治理的视域中，家庭、家长或者其他监护人也是治理主体，基础教育的学生无法维护个人的权益，需要家长及时介入。[12]很多家长无法从海量数据中搜索出需要的资源（技术层面），不了解大数据杀熟、过滤气泡、信息茧房、回声室效应等数据概念和技术内涵，未意识到数据对自身以及孩子带来的影响（认知层面）。因此，开展家长数据教育培训活动，提升家长数据意识，提高家长的网络素养水平，显得尤为重要。家长要承担起陪伴成长发展的第一责任，注意培养和提高孩子获取、选择、分析、应用信息的能力，让孩子逐步形成判断信息真伪和良莠的能力。