李铮铮 贾金娜 刘蓓蕾 马静
收稿日期:2023-04-08
DOI:10.19850/j.cnki.2096-4706.2023.22.031
摘 要:學习者特征识别是在线教育决策的重要支撑。深入分析了学习者特征分析的内涵、阶段划分和主要作用,构建了由人口学特征、支持性特征、动力特征、信息能力特征和策略性特征构成的在线教育学习者特征五元模型,设计了基于PCA和k-均值聚类的学习者特征数据分析思路与方法,并进行了实例分析,能够为学习者特征及差异识别分析提供方法支撑。
关键词:主成分分析;k-均值聚类;特征数据;数据分析
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)22-0142-05
Research on Learner Characteristics Identification Based on PCA and K-means Clustering
LI Zhengzheng, JIA Jinna, LIU Beilei, MA Jing
(School of Information and Engineering, Xi'an Technology and Business College, Xi'an 710200, China)
Abstract: Learner characteristics identification is an important support for online education decision-making. It analyzes the connotation, stage division and main functions of learner characteristics analysis deeply, and constructs a five-element model of online education learner characteristics composed of demographic characteristics, supportive characteristics, dynamic characteristics, information ability characteristics and strategic characteristics. It designs the idea and method of learner characteristics data analysis based on PCA and k-means clustering, and conducts an example analysis. It can provide methodological support for learner characteristics and difference identification analysis.
Keywords: principal component analysis; k-means clustering; characteristics data; data analysis
0 引 言
随着在线教育规模的不断扩大,参与学习的学习者数量不断增多,学习者个体和群体之间的差异也不断凸显。学习者是在线教育学习活动的主体,学习者特征是其本质特点的真实有效反映。深入开展学习者特征识别分析,了解和掌握学习者的本质特点,能够为教师开展在线教学设计、在线教学过程引导与策略优化、信息资源开发与服务以及学习者学习状态评估提供重要的数据支撑。
1 学习者特征分析描述
1.1 学习者特征分析的内涵
特征是一个事物区别于其他事物的标志,是对事物所具有的特性进行归纳总结和抽象的结果。学习者特征识别是梳理、分析并确定学习者特征的过程。学习者特征有的是外在显性的,很容易被识别发现,有的是内在隐性的,需要进一步地分析研究才能被发现[1]。特征识别要求必须做到准确、及时、实用,才能为在线教学决策提供有效支撑[2]。
从整个过程来看,特征识别大致需要经历几个阶段:一是针对在线教育中学习者的特点,梳理分析学习者特征的主要方面;二是研究建立学习者特征模型,明确学习者特性分析的主要内容;三是全面准确采集学习者的相关属性信息,并进行集成整合;四是采用统计分析、数据挖掘方法进行学习者特征的提取发现,最终明确学习者特征。
1.2 学习者特征分析的作用
对在线教育中学习者特征进行系统深入的识别分析,能够为准确把握学习者真实情况,有针对性地设计在线教育课程,采取有效策略实施教学引导与信息服务,显著提升在线教育的效果和水平奠定重要基础[3-5]。其重要作用主要体现在以下几方面:
1)为在线教学设计提供依据。在深入了解和掌握学习者诸多特征的基础上,教师能够根据学习者的特点,有针对性地设计教学内容组成、难易程度、结构顺序、进度安排等,使学习者能够顺利开展在线学习,循序渐进地掌握知识要领,增强在线学习的兴趣和成就感。
2)为在线教学的过程引导和策略调整提供依据。适时发现学习者思想认识、能力水平、学习习惯、兴趣爱好等方面的特征和规律,能够针对学习者进行积极引导,根据学习者在线学习特征的变化持续进行教学策略的调整优化,更好地帮助学习者完成在线学习任务。
3)为学习资源准备与服务提供依据。在学习者起始基础、认知能力、兴趣爱好等方面特征识别的基础上,相关人员能够有针对性地进行教学资源开发、信息资源准备以及信息聚合服务,提高学习者在线学习的效果和效率。
4)为客观准确评估学习者学习状态提供依据。根据学习者开展在线学习时本身的认知能力、学习态度和行为规律等,再结合学习者最终学习成绩情况,能够对其进行客观公正的评价。
2 学习者特征模型设计
已有学习者特征模型主要集中在人口学、学习条件、学习动力、学习准备和学习策略等方面,结合学习者的职业特点,并考虑人工智能时代的信息加工处理能力,本文构建了在线教育学习者特征五元模型,主要包括:人口学特征(Demography)、支持性特征(Support)、动力特征(Motive)、信息能力特征(Information)和策略性特征(Strategy),概括为DSMIS模型[1,6-8]。如图1所示。
其中,人口学特征,更多的是学习者自身相对稳定的属性特征,主要包括学习者的生理特征、职业特征、受教育特征、社会特征等;支持性特征,主要是指学习者开展在线教育所具备的外部条件,主要包括学习条件特征、求助方式特征、学习时间特征、求助对象特征等;动力特征是驱动学习者开展在线教育的相关特征,主要包括学习任务特征、晋升考评特征、自我提升特征等;信息能力特征,是指学习者自身开展在线学习所具备的能力、所体现出的水平,主要包括学习经历特征、已有知识经验特征、信息素养特征、技术水平特征等;策略性特征,是指学习者为实现在线学习目标而制定的行动方针和作业方法,主要包括认知策略、元认知策略、学习管理策略、辅助手段策略等。
3 学习者特征数据分析方法
3.1 基本思路
学习者特征分析主要包括特征识别问题分析、特征数据采集与预处理、特征要素简化、特征数据聚类和结果分析5个环节,如图2所示。首先,运用空间建模理论方法,明确学习者特征分析的时间阶段、识别的特征要素以及以谁为主体进行识别等问题;其次,依据数据工程理论方法,进行学习者特征数据的准备,需要采取不同的手段进行学习者特征数据采集,并进行提取、转换等预处理;第三,采用主成分分析(Principal Component Analysis, PCA)方法进行要素约简,降低挖掘分析的难度,保证数据分析的可行性和可操作性;第四,基于k-均值聚類算法,进行学习者特征数据聚类分析;第五,针对特征数据聚类结果,结合领域知识和专家经验进行分析研究,识别出不同学习者的特征。
3.2 学习者特征分析空间建模
在此引入空间建模的方法,从分析主体、学习阶段、特征要素三个维度入手,建立学习者特征分析立体空间模型,如图3所示,以明确学习者特征分析的边界,找准特征识别的主题、内容、时间阶段等问题。在空间的三个维度中,分析主体维是指以谁为主体进行学习者特征分析,可以是学习者自身,也可以是教师、管理者或其他人员;学习阶段维是指开展学习者特征分析的时间阶段,包括在线学习的准备阶段、实施阶段、结束阶段;特征要素维是指学习者特征分析的内容,包括前面DSMIS模型中设计的19个要素。
3.3 基于PCA的学习者特征要素简化
采用PCA方法[9,10]进行学习者特征要素权重计算,按权重进行特征要素排序和特征要素选择,并根据学习者特征数据聚类分析,实现特征要素的简化。基于PCA的学习者特征要素权重计算方法描述如图4所示。
3.3.1 学习者特征数据PCA计算
设学习者特征数据为P维随机向量X = (X1,X2,…,XP)′,有n个样本Xi = (Xi1,Xi2,…,XiP)′,i = 1,2,…,n设经过数据标准化处理、相关系数矩阵计算、特征根与特征向量计算,t1,t2,…,tm分别表示前m个学习者特征指标主成分方差贡献率,且每个特征值均大于1。得到的m个主成分线性组合如下:
F1 = a11 X1 + a12 X2 + … + a1p Xp
F2 = a21 X1 + a22 X2 + … + a2p Xp
…
Fm = am1 X1 + am2 X2 + … + amp Xp
3.3.2 计算各学习者特征指标权重系数
设μ1,μ2,…,μp为各学习者特征指标权重系数,则:
得到综合得分模型为:
Y = μ1 X1 + μ2 X2 + … + μp Xp
3.3.3 学习者特征指标权重系数归一化处理
设 ,则 。由此得到综合得分模型Y′:
Y′ = X1 + X2 + … + Xp
通过上述计算,能够得到学习者各特征指标的权重系数列表,根据该列表即可进行学习者特征指标选择。
3.4 基于K-均值的学习者特征数据聚类
采用K-均值算法[11,12]进行学习者特征数据聚类,以发现学习者群体分布情况及其特征。在此将学习者特征数据聚类问题描述为:设学习者特征数据集R,包含有d维数据,n个学习者对象。要将n个对象划分为k个子类Mk,(k≤n),使得对于任意1≤i,j≤k,且i ≠ j,都有Mi ? R,Mj ? R,且Mi ∩ Mj = ?。误差平方和函数Jc定义为:
其中,p为Mi中的学习者对象,Ci是Mi中学习者对象的均值。
基于K-均值的学习者特征数据聚类的核心思想是将学习者看成空间中的一个点,将相近的点归为一类,并尽可能使不同类中的对象距离最远。具体如图5所示。
4 学习者特征数据分析实例
本文收集整理了由年龄、现从事专业与课程相关性、学位、婚姻情况、经济条件、学习地点、上网条件、学习任务、自我晋升考评需要、自我提升需要、有相关学习经历、信息素养、技术水平13个特征指标组成的94名学习者的特征数据,并应用IBM SPSS Statistics 21进行数据处理与分析。
4.1 计算过程
4.1.1 特征要素简化处理
首先,应用SPSS计算得到KMO和Bartlett的检验结果。其中,KMO结果为0.798,表明这些数据适合于主成分分析。采用特征根>1作为因子提取依据,提取了前4个因子(分别为5.375、1.684、1.326、1.022)作为主因子,并计算得到4个主成分的线性组合。由于学习者特征指标比较多,本文以表格的形式列出各指标的系数,如表1所示。
按照前述公式计算各学习者特征指标权重系数,得到综合得分模型为:
由于系数中存在负数,因此在统一加1处理后,进行权重系数归一化,并按权重系数大小由左至右排列,得到如表2所示的各指标权重系数。
从总体上看,13个学习者特征指标中,自我提升需要、学位、经济条件、信息素养、年龄、学习任务、技术水平等指标权重高于其他指标,均大于0.08,因此本文选择这7个指标为学习者特征数据聚类的基础。
4.1.2 特征数据聚类
將聚类k设置为5,以序号为标志依据,采用迭代与分类的方法进行聚类计算,初始聚类中心设置如表3所示。
根据聚类公式进行聚类计算,迭代4次后由于聚类中心没有改动或改动较小而达到收敛。聚类结果如表4、表5所示。
4.2 结果分析
针对上述梳理的学习者特征数据以及特征要素简化与聚类结果,可以看出以下内容。
从94名学习者的13个特征指标数据看,一是自我提升需要的权重最高,说明该动力特征是驱动学习者开展在线学习的首要因素;二是学位、经济条件、信息素养、年龄、学习任务、技术水平等指标的权重相对较高,是进行学习者特征分析、课程设计等过程中需要考虑的重要方面;三是学习地点、上网条件等客观因素,以及学习者以往学习经历、现从事专业对学习者特征分析的影响较弱,在实际数据采集与分析时可以不作为重点。
从基于94名学习者7个特征指标数据的聚类看,学习者的年龄、学位、信息素养和技术水平在聚类中起到了重要作用。以20岁左右的学习者为例,该类人员共有44人,占学习者总数的46.8%,学历主要是初中和高中,并且主要在机房进行在线学习;学习者的学习动力以自我提升需要为主,但也有类别中29.5%的学习者以其为学习任务;学习者的信息素养以理念接受为主,占比77.3%,信息素养最高不超过信息获取,且以理念接受为主的学习者的信息技术水平较差,具备信息获取能力的学习者则通常具备计算机基本软件应用能力。通过与25岁左右、29岁左右、32岁左右、36岁左右学习者对比分析,可以推测20岁左右的学习者可能主要是在校大学生或刚高中毕业不久的高中生,这些人的信息素养和技能方面相对较弱,针对此类人员,教师可以在进行课程设计时,尽量减少学习者的操作环节和操作步骤,多为学习者提供导航和帮助,推荐一些提升信息基础能力的资源和课程。
5 结 论
学习者特征数据分析是在线教育初始阶段需要开展的关键性工作,也是教育过程中需要持续关注的重要内容。通过开展学习者特征数据分析,能够识别出不同特征的学习者群体,对学习者的整体情况有更加深入的了解和掌握,为教师设计课程内容和资源提供依据,也为后续学习者行为分析和信息资源推荐服务奠定重要基础。
参考文献:
[1] 丁雪莉.新生代继续教育学习者特征及其教学活动设计 [D].西安:西安电子科技大学,2015.
[2] 游琪,陈红玲.基于在线学习者特征的个性化学习路径研究 [J].现代信息科技,2021,5(9):127-130.
[3] 康亚华.翻转课堂模式下学习者特征、学习行为和学业成就的关系研究 [J].教书育人:高教论坛,2022(30):4-8.
[4] 王改花,张李飞,傅钢善.学习者特征对混合学习效果影响研究 [J].开放教育研究,2021,27(1):71-83.
[5] 于胜玥,曲永娟,刘晓萌.“互动课堂”系统支持下学习者个性化特征分析 [J].大连教育学院学报,2022,38(4):60-62.
[6] 杨阳.在线开放课程背景下在校学习者特征调查分析 [J].高教学刊,2020(17):191-193.
[7] 孙海民.个性特征对网络学习行为影响研究的关键问题探究 [J].电化教育研究,2012,33(10):50-55+63.
[8] 邓志建.远程开放教育学习者特征分析——基于对大连296名开放教育学生的调查 [J].当代教育实践与教学研究,2020(7):5-6.
[9] 吴殿廷,吴迪.用主成分分析法作多指标综合评价应该注意的问题 [J].数学的实践与认识,2015,45(20):143-150.
[10] 刘永志.主成分分析和聚类在科学技术数据分析中的应用 [D].长春:吉林大学,2016.
[11] 葛道凯,张少刚,魏顺平.教育数据挖掘方法与应用 [M].北京:教育科学出版社,2012.
[12] 胡祖辉,施佺.高校学生上网行为分析与数据挖掘研究 [J].中国远程教育,2017(2):26-32.
作者简介:李铮铮(1981—),女,汉族,河北石家庄人,工程师,博士,研究方向:教育数据分析。