陈方兵 汤湘林
摘 要:技工院校学生普遍在学习自信心和执行力方面存在不足,很容易导致学习兴趣下降、成绩不理想。本文通过收集技工院校学生在校行为数据,通过人工智能算法对学生行为数据进行实时分析,建立了学生学习危机预警模型,一旦监测到学生有学习危机,系统会自动预警,引起辅导员和老师对学生的注意。这样一方面可及早发现与预警,另一方面后续通过辅导员和老师有针对性地对学生进行思想工作,最终可帮助学生扭转学习困难的局面。
关键词:人工智能 技工院校 学习困难 学习危机预警
当今社会要求技工院校学生不仅要有良好的思想道德素质、文化素质、专业素质和身体素质,还要具备良好的学习能力。
“十三五”以来,技工院校坚持就业导向,聚焦技工、技师急需紧缺问题,技能人才培养工作取得积极成效。截至2019年年底,全国共有技工院校2 392所,在校生360.3万人;2019年度全国技工院校共招生143.0万人,毕业生98.4万人,就业率为97.5%。很多技工院校从学生学习态度矫正到学习能力培养等各个环节都开展了很多工作,并取得了一定的成果。但大部分院校都是对所有学生无差别地开展工作,由于每位学生情况不一样,导致学校不能针对有问题的学生重点做好工作,基本上都是事后救火,不能防患于未然。
针对上述情况,笔者积极探索学生学习危机预警解决方案,加强在学生学习危机到来之前的预警工作,并提出引入人工智能等新兴预警方法。
一、人工智能学习危机预警模型的研究
从行为心理学理论出发,个体的行为变化可以反映其心理状态变化,反之,个体的心理状态变化也会表现在行为上。个体自身行为的变化,一定是由于个体某些情绪的变化或者外在刺激导致的,进而影响有机体的其他行为状态,也就是说有机体的众多行为之间存在关联关系。于是笔者试图寻找影响个体学习行为的相关因素,如果能找到个体学习行为与哪些其他行为相关,那么通过对外显行为的监测,最终内隐行为就变得可预测,这样学习危机预警就变得可以实现。
个体行为包括很多方面,例如饮食、作息、社交、运动、工作等。其中需要解决两个关键问题。首先,需要接入个体的行为数据,只有接入了个体行为数据才有可能对个体行为数据进行分析,找出关联、关系;其次,需要在行为大数据中找出与学习危机有关联的指标进行学习危机预警。寻找与学习相关联的指标非常重要,需要明确哪些指标与学习的关联性較强、哪些指标与学习的关联性较弱,而确定关联性指标的强弱是非常困难的,需要对大量的数据进行分析才能得到。
近年来技工院校信息化建设飞速发展,技工院校学生在学校里大部分行为都可能留下行为记录,这样一来就为解决第一个关键问题提供了可能。有大量行为数据作为基础,利用人工智能、大数据等技术手段,依靠行为学的理论基础,就有可能找出行为与学习危机之间的关系。目前已经能够发现的学生行为数据包括但不限于个人信息、消费记录、网络系统使用情况、打卡记录、成绩记录、选课记录、考勤记录、就业数据、奖惩助学贷记录等。
初步获得的学生行为数据是脏数据(指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑),很多数据并不能直接使用,需要对数据进行数据清洗、脱敏和指标化几个步骤,才能形成完整可用的数据集。数据清洗主要是对数据进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据脱敏主要是将数据中的敏感信息进行隐藏和加密,目的在于不暴露个人隐私,脱敏不仅是对某些关键字段脱敏,还需要对多个字段交叉验证,保证将各字段组合起来也不能显示个人真实信息。
人工智能学习危机预警模型的建立主要有两个方面的问题需要解决:第一,收集与问题相关的训练数据进行模型训练,收集训练数据组成训练集,利用训练集对模型进行训练,使模型对特定问题具有预测能力;第二,将新的行为数据输入模型,新的行为数据组成了测试集,用测试集数据来验证模型的预测能力,进行预测并检验,测试模型的预测准确度。
训练数据主要是指学校已经掌握的有学习危机的学生数据,有学习危机的学生的数据将作为训练样本进行模型训练,在征得学生本人的同意后,以这部分学生的行为数据作为训练样本,采用合适的算法,对量化模型进行训练。训练完成后,量化模型就会有一定的预测能力,模型这种预测能力主要体现在对有学习危机行为的识别和预警上。
预测数据是指随机抽取一部分学生的行为数据,在不知道这批学生是否有学习危机情况的前提下,征得学生本人同意后,将这批学生的行为数据输入量化模型。量化模型对新输入的学生数据进行预测,预测完成后会对预测结果进行准确度对比,将预测有学习危机的学生名单与实际情况进行比较,得出模型预测的准确度和识别错误率。
模型对新数据进行预测后,需要有输出结果,模型将输出结果进行打分,按照分值的高低进行排序,分数越高表示学生有学习危机的可能性越大,分数越低表示学生有学习危机的可能性越小,最后模型需要设置一个阈值,在阈值之上的学生建议重点关注。除此以外,模型还将学生的行为数据指标化,形成个人用户画像系统,用户画像全方位展示学生各个方面的表现,揭示各个指标是如何影响学生学习,进而造成学习危机的。
二、人工智能学习危机预警模型的应用
人工智能学习危机预警模型的应用需要注意如下三个问题。
(一)数据类型
数据类型即需要用到哪些类型的学生行为数据。不同类型的数据对结果影响很大,所以需要不断尝试不同类型数据的组合,找出影响因素较大的数据类型。
根据对影响学习因素的理论的深入研究,结合实际情况,笔者选取的数据类型主要有上网时间、上网时长、进宿舍时间、出宿舍时间、运动频率、运动时间、选课科目、摄像头视频数据、个人信息等。这些数据类型是比较普通的数据,在各个学校中应用比较普遍,具有较强的普适性。同时这些数据类型相对来说较容易获得,且数据质量较高,与研究标的的关联性较强。
(二)算法对比
算法对比即采用不同的算法进行建模训练,而后评估预测效果。不同的算法对模型预测准确度影响较大,选择合适的算法,可以大大提高模型的预测精度。
笔者选取了监督学习算法和非监督学习算法两类,原因是这样可以比较不同类型的算法在处理研究问题时的优劣,最后找到合适的算法来训练模型。
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求的性能,也称为监督训练或有教师学习。监督学习算法具体采用了时间序列分析、逻辑回归算法以及改进的支持向量机算法。
非监督学习是指缺乏足够的先验知识,因此难以人工标注类别或进行人工标注类别的成本太高。希望计算机能代人们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。非监督学习算法主要采用聚类算法。
通过比较监督学习和非监督学习两类算法的效果,可以达到两个目的:第一,对比哪一类算法对学习危机预警模型更有效果;第二,找出预测准确度较高的算法,应用于实际预测。
(三)指标有效性验证
指标有效性验证即选取不同的指标后,评估不同指标与预测结果关联度大小。
笔者共选取了8个指标,并对这些指标做了有效性验证。这8个指标分别是单亲家庭、运动情况、饮食情况、睡眠情况、同性社交、异性社交、网络社交、新生适应压力。
对这8個指标进行关联度分析可以得到不同指标的关联度大小,单亲家庭的关联度为0.08,运动情况的关联度为0.18,饮食情况的关联度为0.33,睡眠情况的关联度为0.28,同性社交的关联度为0.59,异性社交的关联度为0.67,网络社交的关联度为0.49,新生适应性压力关联度为0.56。
由此可见,选取的这8个指标中,社交情况与学习危机的关联度最大,新生适应性压力与学习危机的关联度也很大,相对来说,家庭情况和运动情况与学习危机的关联度较小。
三、意义
(一)学习危机预警,实现精准“扶贫”
系统根据学生数据进行自动化预警,学校能够有效帮助学习困难学生,及时让学习困难学生走出人生低谷,实现学习方面的精准“扶贫”。这样不仅可以及时帮助学生走出学习的困境,也能够让学生获得一个更好的未来。
(二)学生无感知,不会刻意隐藏
学校在用传统的方法识别学生是否有学习危机时,学生由于存在抗拒心理,总会在老师和辅导员面前刻意隐藏自己的某些行为,让老师产生错误的判断。人工智能学习危机预警模型可以在学生无感知的情况下,对学生学习情况进行分析和预警,相对来讲人工智能学习危机预警模型的结果更真实。
(三)不做事后救火工作,防患于未然
之前,学校在解决学生学习危机问题时,总是等到学生在学习方面已经出现了严重的问题时才能发现并采取措施,这实际上是一种事后救火,不利于及时发现和解决问题,甚至可能造成难以挽回的后果。学习危机预警模型可以在学生刚刚出现苗头时就能发现问题并及时预警,加上及时干预,可以有效缩短发现问题的时间,极大提高了解决问题的效率和速度。
参考文献:
[1]邹洁,朱国胜,曹扬晨.基于监督学习算法的网络流量应用类型分类研究[J].长江信息通信,2021(1).
[2]孔欣然.机器学习综述[J].电子制作,2019(24).
(作者单位:陈方兵,深圳阿塔基科技有限公司;
汤湘林,深圳技师学院)