基于双平台学习数据的学生画像技术研究

2023-06-25 10:36方芳
无线互联科技 2023年7期
关键词:聚类算法用户画像

方芳

摘要:随着信息化技术的不断推广,各大学校纷纷依托在线平台开展线上教学活动,如何有效利用平台上的学习数据更好地精准教学成为目前重要的研究领域之一。文章提出了构建学生画像的流程,包括采集“双平台”——超星学习通平台和头歌教学实践平台上的学生学习数据,对数据进行预处理,构建学生个体画像以及基于K-means聚类算法将学习数据进行聚类生成学生群体画像。最终,将学生分为三类不同特征的群体,教师针对不同学生群体画像进行分析,制定更科學的分类教学策略,实现个性化教学。

关键词:用户画像;聚类算法;双平台

中图分类号:TP391文献标志码:A0引言教育部发布《教育信息化2.0行动计划》,正式提出了教育信息化2.0,标志着我国教育信息化建设进入新的发展时期,开启智能时代教育新征程。

在此背景下,各个高校都积极推进利用在线学习平台进行线上线下混合式教学,常用的平台有超星学习通平台、智慧职教平台等。如何有效利用平台上积累的学生学习过程数据,通过数据挖掘为教师提供精准的学情分析和教学诊断信息已成为新的研究热点。本文通过挖掘分析教学过程中学生使用“双平台”时产生的学习数据,有效构建学生用户画像,为个性化教育研究提供新的思路。

1用户画像研究现状用户画像是给用户标上特征标签,是一种基于用户真实数据的形式化表示。通过对知网的中国学术文献网络总库进行文献统计分析发现,2010—2015年研究用户画像的文献并不多,但2016年至今,研究文献逐步递增,已成为研究的热点之一。用户画像技术目前已被广泛运用到社交媒体、电子商务、图书馆学等领域。例如,万家山等[1]基于智慧学习平台上用户的偏好和行为动态特征实现KD树聚类算法,提出一种社交用户画像模型;王晓霞等[2]考虑了用户基本维度画像、行为画像、产品画像和触点画像四级架构,运用大数据技术精准构建运营商大数据用户画像模型;过仕明[3]对图书馆用户群体进行细分,在基于不同群体行为数据的基础上,结合场景五力理论重构了四类不同群体的用户画像。上述用户画像研究主要集中于社交媒体、电子商务和图书馆学等方面,在教育领域的应用研究偏少。

2基于双平台构建用户精准画像以本校IT类大数据技术专业学生的“数据分析与可视化”课程在超星学习通和头歌教学实践双平台上产生的与学习行为相关的数据为研究基础,通过数据采集、数据预处理、聚类建模构建学生用户个体及群体画像,并应用到实践教学中。用户画像构建应用流程,如图1所示。

2.1数据采集构建在线学生用户画像的前提是数据采集。数据采集是科学进行数据分析工作的基础,是根据项目的需求收集、获取有用数据的过程[4]。本文研究用户画像主要是针对IT类的学生。与其他专业的学生相比,IT类学生除了理论知识的学习,更加注重编码实践能力的培养。运用“双平台”的方式开展线上线下混合式教学,需确定在两个平台上采集的数据字段,以便于后续数据的采集。采集的数据主要分为两类:学生静态基本属性特征和学生动态学习行为属性特征。学生静态基本属性特征主要是针对用户的学号、姓名、班级等短时间内不变信息的记录。学生动态学习行为属性特征主要包括:出勤情况、视频观看情况、作业及测试完成情况等实训任务过程数据的动态变化信息。具体采集字段如表1所示。

2.2数据预处理数据预处理是指对数据提前进行一些必要的处理,提高数据的质量,避免模型构建结果不精准。其包括数据合并、数据清洗、数据标准化和数据变换等。

2.2.1数据合并双平台学生数据中有共同的字段属性,如学生、学号等。因此,按照主键合并方式将超星学习数据和头歌实践任务数据进行合并。

2.2.2特征构建特征构建通过研究原始的学习数据集,将数据集的各个字段通过加工运算构建出新的统计字段,从而找出有意义、有价值的数据特征,有利于后续的建模分析。特征构建字段如表2所示。

各特征构建字段计算公式:(1)出勤率=学生个人出勤次数/总出勤次数;(2)视频观看时长比=课程所有视频观看时长/课程视频实际总时长;(3)章节测试参与率=学生个人测验次数/总测验次数;(4)作业提交率=学生个人作业次数/总布置作业次数;(5)章节测试平均分=学生所有测试的平均值;(6)作业平均分=学生所有作业的平均值;(7)实训任务平均分=学生所有实训任务的平均值;(8)实训学习效率=log(实训中得分/实训总耗时);(9)实训能力值=实训获得经验值/实训测评次数。

2.2.3数据清洗数据清洗主要是检查数据是否有空值、重复值和异常值,保证数据的质量,避免脏数据影响后续的数据处理和建模。

2.2.4数据标准化由于数据来源的不同通常会导致数据的量纲、量级产生差异,为了让这些数据具备可比性,需要采用数据标准化方法。最典型数据标准化是数据归一化处理,即将所有的数据都统一映射到0~1之间。本文采用离差标准化方法。

2.3用户画像构建2.3.1数据分析学生个体用户画像基于学生个体在课程中整体学习表现情况进行构建,从班级中抽取2个同学的学习过程数据用于数据分析和可视化。学生个体画像雷达图如图2所示。

深入分析学生个体画像的雷达图,客观整理出两位学生的与学习相关的特征标签,个体画像描述如下:

徐某,女,出勤率100%,自主学习能力强,课前主动积极在学习通上按照正常倍速观看视频提前预习,章节测试和作业按时完成,正确率较高,通过观察实训能力值和效率证实该同学动手编码能力强。

刘某,男,基本按时出勤,学习上不主动,不能自觉地观看学习通上视频,作业和测试缺交现象比较严重,老师外力督促效果不佳,实训学习效率低下,编码能力弱,综合成绩差。

2.3.2聚类建模实现群体画像K-means聚类算法是聚类分析中较为常见的一种非监督学习算法,其原理非常简单,是一种典型的基于距离的聚类算法。它通过计算不同样本间的距离来判断它们是否相近,相近的就会放到同一个类别中去。它能发现K个簇,且每个簇的中心采用簇中所含值的均值计算而成。

聚類算法对算法影响最大的是聚类数,聚类数对聚类的影响很大。根据手肘法确定K-means最佳聚类是3个。经过K-means聚类算法后,得到3个类别的聚类中心,将聚类中心用雷达图显示,如图3所示。从图3可知学生群体画像一共分为3个群体。学生群体1:这类学生属于优等生,能积极主动地去学习,课堂参与率高,理论知识扎实,有较强的自学能力,实训任务效率高,编码动手能力强。学生群体2:这类学生属于中等生,有一定的理论知识,但编码动手能力不强。学生群体3:这类学生属于后进生,学习上比较懒惰,不能积极主动地完成学习任务,喜欢使用刷课软件观看平台上视频,导致观看时长比较短,基础知识薄弱,编码动手能力差,不及格率高。

2.4在教学中应用学生用户画像在日常的教学中,教师能够利用学生个体画像和群体画像进行分析,针对不同学生的学习能力,制定更科学的分类教学策略,实现个性化教学。

2.4.1精准识别不同群体的学生,制定学习措施在传统教学中,有些学生不太愿意和老师沟通交流,教师很难甄别不同类别的学生。通过学生用户画像,教师能够快速识别后进生,及时制定帮助策略。

2.4.2改进教学设计从构建用户画像过程中,能针对产生的问题改进教学设计。例如,在完成实训任务过程中,如果很多学生的实训耗时比较长或测评次数较多时,说明学生不能灵活掌握知识点,需要教师把此题进行重点讲解。

3结语本文采集IT类学生在“双平台”(超星学习通平台和头歌教学实践平台)上积累的学习过程数据,通过数据预处理,构建学生个体画像和学生群体画像,利用画像可以精准识别不同群体的学生,制定个性化学习措施。后续将使用不同聚类方法进行验证性分析对比,找出最优的聚类方法。

参考文献

[1]万家山,陈蕾,吴锦华.基于KD-Tree聚类的社交用户画像建模[J].计算机科学,2019(增刊1):442-445,467.

[2]王晓霞,刘静沙,许丹丹.运营商大数据用户画像实践[J].电信科学,2018(5):127-133.

[3]过仕明.数字图书馆用户画像及场景重构研究[J].情报科学,2019(12):11-18.

[4]黄红梅,张良均.Python数据分析与应用[M].北京:人民邮电出版社,2018.

(编辑 姚鑫)

Research on student portrait technology based on dual platform learning dataFang  Fang

(Hunan Vocational College of Science and Technology, Changsha 410000, China)Abstract:  With the continuous promotion of information technology, universities and colleges are increasingly relying on online platforms to launch online teaching. How to effectively use the learning data on the platform for better precision teaching has become one of the important research fields. This paper proposes the process of constructing student portrait, including collecting the student learning data on the “dual platform”-Superstar Learning Communication Platform and Touge Practice Teaching Platform, preprocessing the data, constructing student individual portrait and clustering the learning data based on K-means clustering algorithm to generate student group portrait. Finally, divides students into three groups with different characteristics. Teachers analyze the portraits of different student groups, develop more scientific classified teaching strategies, and achieve personalized teaching.

Key words: user portrait; clustering algorithm; dual platform

猜你喜欢
聚类算法用户画像
基于K?均值与AGNES聚类算法的校园网行为分析系统研究