张娜 刘晓丹
摘 要: “学生画像”技术起源于电商领域的用户画像技术,指通过记录学生各种在校活动的数据,对其进行分析并将信息抽象成标签的过程。文章详细说明了通过数据采集、数据预处理、数据分析、聚类建模来完成学生个体和集体画像的技术实现过程;描述了将学生画像结果应用于教学后,对教师快速识别后进学生,督促其养成良好的学习习惯,制定个性化的帮扶措施,改进教学设计等都有较大的帮助。
关键词: 学生画像; 数据分析; 聚类建模; 教学应用
中图分类号:TP391 文献标识码:A 文章编号:1006-8228(2021)09-70-04
Abstract: "Student portrait" technology originated from the user portrait technology in the field of e-commerce, which refers to the process of recording the data of students' activities in school, analyzing them and abstracting the information into labels. This paper describes in detail the realization process of individual and collective portrait of students through data acquisition, data preprocessing, data analysis and clustering modeling; and describes that the application of student portrait results in the teaching is helpful for teachers to quickly identify backward students, urge them to develop good learning habits, formulate personalized help measures, and improve teaching design.
Key words: student portrait; data analysis; clustering modeling; application in teaching
0 引言
“学生画像”起源于“用户画像”。用户画像技术来源于电商领域,利用用户大量的消费行为数据将具体信息抽象成标签,利用这些标签将用户形象具体化,从而为他们提供有针对性服务的过程即为“用户画像”。将“用户画像”技术引入到教育领域中,针对学生学习行为、日常生活数据所开展的数据分析研究及标签化的过程被称为“学生画像”。本文重点研究基于学生学习数据的学生个体画像和群体画像的技术实现过程,并分析探讨了学生画像技术在教学中的具体应用。
1 学生画像技术在教学中的研究实践
以某高职院校学生“Python数据分析”课程真实学习过程数据为基础,从数据分析、聚类建模中得出客观结论,勾画出学生个体及群体画像。研究实践过程如图1所示。
1.1 数据采集
数据采集又称为数据获取,是数据分析工作的基础,是指根据需求分析的要求提取、收集數据的过程[1]。
首先制定采集方案以保障采集的数据维度、规模、质量等,符合后续数据分析和聚类建模的需要。采集方案如表1。
1.2 数据预处理
数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于数据分析、建立模型的技术实现过程总称[1]。
⑴ 数据合并
将多个班级、多个平台、多位教师采集到的数据根据后续分析建模需要进行合并。
⑵ 特征构建
通过特征构建将分散在不同字段中的信息加以组合,从中提炼出有价值的、可用的信息以便后续分析建模的效果能更真实有效反映学生的实际情况。特征构建目标如表2所示。
各特征构建方法如下:
① 出勤率=学生个人出勤次数/总出勤次数;
② 作业提交率=学生个人提交次数/总布置次数;
③ 测验参与率=学生个人测验次数/总测验次数;
④ 视频资源学习率=学生个人观看视频时长(秒)/视频总时长(秒);
⑤ 非视频资源学习率=学生个人查阅资源数量/资源总数量;
⑥ 其他活动参与率=学生个人参与次数/总次数;
⑦ 作业平均成绩=所有作业成绩的平均值(百分制);
⑧ 作业平均提前时长=所有作业提前时长的平均值(将未提交作业的提前完成时长记为-100小时;每次作业提前时长=每次作业截止时间-每次作业提交时间。);
⑨ 测验平均成绩=所有测验成绩的平均值(百分制)。
经过特征构建环节,整理的数据结构为(95,14)。
⑶ 数据清洗
数据清洗主要是对缺失、重复、异常等数据进行处理,以避免这些脏数据对后续分析建模产生不利影响。经过数据清洗后的数据结构为(92,14)。
⑷ 数据标准化
实际采集的数据,不同特征之间往往具有不同量纲。而数据建模时主要是对空间距离的计算或是采用梯度下降法,量纲差距较大将影响分析建模结果的准确性。数据标准化就是消除不同特征数据之间的量纲差异的过程[1]。采用离差标准化方法,将各特征数据值映射到[0,1]之间进行后续分析建模。
1.3 学生画像
⑴ 数据分析实现学生个体画像
学生个体画像,主要从每个学生的总体表现、作业测验成绩趋势、学习经验值累积分布、完成作业时长对比等几个方面进行。以抽选三位同学的数据进行分析画像为例,其雷达图展示总体表现的对比情况如图2所示。
通过数据分析及可视化的过程,客观梳理出三位学生的特征标签,从而实现其个体画像:
l 赵某某,女,学习态度积极,自觉性高、自律性强,有一定的创新精神,成绩优异……
l 李某某,男,学习缺乏自觉自律性,自学能力不足,压力转化能力较弱,在督促下可按时完成学习任务……
l 康某某,男,学习态度不端正,自觉性、自律性较差,压力转化能力弱,缺乏学习韧性,外力督促效果不佳,挂科几率高……
⑵ 聚类建模实现学生群体画像
通过聚类建模划分学生群体并分析特征,实现学生群体画像。这一过程主要包括确定聚类数、聚类建模、群体画像三个阶段。
由于聚类属于无监督学习,原始数据中没有已知确定的类别标签,所以确定聚类数对聚类的结果影响很大[2]。结合拐肘[3]、轮廓系数评价[1]和Calinski-Harabasz指数[1]三种方法,判定当聚类数为2时聚类效果最佳[4]。
采用K-means方法实现聚类,为每一个学生进行类别标记,学生群体特征分布雷达图如图3,采用TSNE[5]对数据降维后绘制学生群体散点图如图4。
综合各指标对学生群体画像为:
学生群体1 后进学生群体,挂科几率较高,占学生总人数的25%,其中男生占比87%。他们存在学习焦虑,但学习态度不积极,自觉性、自律性较差,学习能力不足,学习效果欠佳……
学生群体2 合格及优秀学生群体,占学生总人数的75%。群体学生学习态度积极,能主动参与各项学习活动。他们有一定的学习能力,平时学习较为扎实……
2 学生画像技术在教学中的应用
完成对学生的个体和群体画像后,分析画像并将结论应用于教学,可以帮助教师因材施教,更好的开展个性化教学工作。
2.1 后进学生识别
传统教学中,课堂表现没有“特点”,不愿主动与教师交流的学生,很难得到教师的关注,而其中隐藏着后进生。通过学生群体画像,每一位学生都被类别标记,教师可以快速识别出后进学生,以开展针对性帮扶活动。
2.2 学习习惯养成
通过学生群体画像可以看出,出勤率低,不提交作业或作业提交延迟时间较长,很少参与各项学习活动的学生,挂科风险較高。而这些行为都属于学习习惯范畴,教师如能采取一定措施在课程学习中全程干涉他们的学习行为,改进学习习惯,将有助于逐步提高成绩,在多门课程中都降低挂科风险。
2.3 帮扶措施制定
依据画像结果,制定个性化的帮扶措施,真正达到帮扶提升学习的效果。例如对于学习态度端正但知技理解能力较弱的学生,可以安排成绩优异的同学进行“一帮一”、教师“开小灶”;对于知技学习较快但缺乏韧性的同学,可以强化督促机制,安排组成学习小组互相督促,教师也每次作业必关注,及时提醒等;对于学习习惯不好的学生,可以与其他授课教师交流并提请共同关注学生的学习行为,改进学习习惯;对于个别因为社会活动较多占用了时间而影响学习的学生,调整或减少社会活动的参与等。只有真正深入分析出每一个后进学生的后进原因,才能制定出有效帮扶措施。
2.4 教学设计改进
在学生画像过程中,发现会出现一些共性问题,这些往往是授课计划安排不合理、教学设计不够完善等原因造成的。比如学生测试反馈完成时间远远小于规定时间,说明题目难度较低或数量不足,可以改进。又比如一次作业的提交时间普遍较晚,成绩较低,说明大部分学生对所学内容没有掌握,需要再讲。再比如在两个基础相似的班级中采用不同的教学模式和方法得到的教学效果有较大差异,就可以基本确定应在以后的教学中采用较优模式进行授课等。
3 结束语
“学生画像”技术起源于用户画像技术,指通过在校各种活动的数据记录对学生进行数据分析并将信息抽象成标签的过程。学生画像技术应用于教学主要是通过画像技术提取的标签准确形象的认知学生,从而为学生提供更有针对性的学习服务[6]。
实践研究表明,按照数据采集、数据预处理、数据分析、聚类建模的流程可以较好完成学生个体和群体画像。利用学生画像技术对教师快速识别后进学生,督促其养成良好的学习习惯,制定个性化的帮扶措施,改进教学设计等方面都有较大的帮助。
学生画像技术属于教育大数据研究领域,学生的各种行为数据和分析建模的相关算法应用都对其有着较大影响。因此,采集更多维度、更大规模的数据,构建更符合建模需要的高质量特征以及深入研究并选择效果更佳的聚类算法是我们后续的工作重点。
参考文献(References):
[1] 黄红梅,张良均.Python数据分析与应用[M].人民邮电出版社,2018.
[2] 高扬,卫峥,尹会生.白话大数据与机器学习[M].机械工业出版社,2016.
[3] 阑星月.肘方法确定聚类数k_机器学习07——聚类算法,https://blog.csdn.net/weixin_30349485/article/details/112458894,CSDN,2021.1.
[4] 佘本国,孙玉林,Python在机器学习中国的应用[M].中国水利水电出版社,2019.
[5] 算法与数学之美,简述多种降维算法,https://www.sohu.com/a/255708416_701814,搜狐,2018.9.
[6] 葛晓滨.基于画像技术对学生实现精准分析和服务[J].安徽建筑大学学报,2019.6.