2018年中国科学院继续教育网科研人员在线学习数据集

2019-11-17 05:05赵以霞金昆郑晓欢孔丽华
关键词:教育网中国科学院职称

赵以霞,金昆,郑晓欢,孔丽华

1. 中国科学院文献情报中心,北京 100190

2. 中国科学院大学,北京 100190

3. 中国科学院计算机网络信息中心,北京 100190

4. 中国科学院,北京 100864

数据库(集)基本信息简介

引 言

2011年,新媒体联盟(New Media Consortium,NMC)发布《地平线报告(高教版)》,预测学习分析技术将在4-5年内应用起来,并将学习分析定义为大范围收集学生的学习数据并加以分析,从而评价学生的学习进度、预测其未来的学习表现,并查找潜在的问题[1]。2011-2019年,旨在促进个性化学习的学习分析技术与自适应学习一直是新媒体联盟地平线报告所预测的技术趋势。随着MOOC(Massive Open Online Courses,大规模开放在线课程)的发展,在线学习数据迅速积累起来,进一步推动了基于在线学习数据开展用户分析。2014年6月,哈佛大学和麻省理工学院联合发布了经过整理的2012-2013学年edX平台(麻省理工和哈佛大学于2012年4月联手创建的大规模开放在线课堂平台,网址www.edx.org/course)16门课程开放数据供全球研究者使用[2]。2014年,罗切斯特大学计算机科学副教授菲利普·郭,针对edX数学和科学课程的862个视频课程,基于12.8万人的690万条视频在线观看记录数据,开展分析,研究受欢迎的课程媒体形式[3]。为提升专业技术人员能力,我国人力资源和社会保障部发布2015年《专业技术人员继续教育规定》,对专业技术人员的学习时间提出要求,并明确参加远程教育是有效的继续教育学习方式之一。不同于其他专业技术人员,国家相关行业会提出明确的公需课和专业课学习要求,并组织实施,自然科学研究人员的学习具有更强的自主性。为此,中国科学院专门建设中国科学院继续教育网,为科研人员提供自主学习服务,促进知识更新。本数据集是基于2018年中国科学院科研人员的学习习惯建立的学习数据,通过分析不同专业技术职称、不同年龄、不同性别、不同工作年限科研人员的在线学习时间点倾向、学习内容倾向和学习时长倾向,可以为精准服务科研人员在线学习奠定基础。

1 数据采集和处理方法

为获得科研人员学习数据,本研究构建起科研人员专属的在线学习平台,汇聚各类课程资源,进而记录科研人员在线选学课程和学习时长。

1.1 学习平台开发设计

为面向中国科学院100多个科研机构的科研人员提供有针对性的学习服务,研发中国科学院继续教育网,支持各院属机构组织管理培训,发布资源,管理人员,进行统计分析。科研人员登陆中国科学院继续教育网可以自主选学课件,报名培训班,并围绕课件、培训班等资源进行交流互动[4]。

1.2 建设和汇聚在线学习资源

MOOC的发展,为用户带来了大规模学习资源的同时,也会带来信息过载问题。中国科学院继续教育网实现了自主研发资源和汇聚外部资源功能,主要由各科研院所自主上传和汇聚。截至2018年底,共积累3062个课件资源,包括三分屏课件、视频课件、微课件、单一文档(PPT、PDF、WORD等),以及外部优质资源链接。

1.3 在线学习数据记录收集与清洗

(1)数据收集:中科院继续教育网用户信息由各研究院所维护,本研究利用中科院继续教育网的职工在线学习统计功能,直接获得2018年1月1日至2018年12月31日科研人员在线学习数据。

(2)数据清洗:结合本研究目的,剔除管理人员、支撑人员、工人等人群的学习数据,最终得到科研人员在线学习数据集。由于部分院属单位对于人员的标识不完整,科研人员属性值缺失,本文仅保留具有明确的科研人员属性值且标识专业技术职称的学习数据。

(3)数据处理:由于涉及科研人员的个人信息,为保护隐私数据,本文采用编号标识科研人员唯一性,并将出生年月和入所工作时间进行计算,转换为年龄和工作年限予以标识。为进一步分析学习时间段特点,将数据集划分为12个时间段,即每2小时为1个时间段,从0-2时开始,至22-24时。

1.4 样本数据人口统计特征

本文最终得到219 472条学习数据,来自10 360名科研人员,其中选学并学习为206 756条,仅选学并未学习有12 716条。206 756条学习数据由10 245位科研人员产生,学时合计为212 382.74小时。针对重点分析学习行为,本文重点统计10 245人的基本信息,其人口统计特征如下(详见数据集性别、年龄、工作年限、职称)。10 245名科研人员中,有6846位男性科研工作者,占比66.82%,3399名女性科研工作者,占比33.18%。在线学习科研人员年龄方面,31~50岁的科研人员占比78.87%;从事工作年限方面,集中在三个区域“1~5年”“6~10年”“11~20年”,共占比89.71%;受访者专业技术职称方面,初级占比7.67%,中级占比41.03%,副高级占比35.93%;正高级占比15.36%(详细见表1)。

表1 样本人口统计基本特征描述

2 数据样本描述

本数据集的数据存储于Excel文件的3个数据表单中,“所有选学数据”表单存放10 360名科研人员2018年课件选学和学习相关数据,共有219 472条学习记录;“仅选学未学”表单存放具有选学行为、但未开始学习的12 716条数据记录;“选学且学习”表单存放选学且有学习行为的206 756条学习记录。这3个数据表单所包含的具体字段名称、类型及示例见表2。关于课程时长字段数值,取值范围在0.05~48之间,平均值为1.27小时。

表2 所有选学数据内容

3 数据质量控制和评估

3.1 质量控制

数据集质量主要通过系统限定实现,以人工干预为辅。在设计在线学习功能时,实现20分钟内需要答题继续记录学时,否则中断记录;在线学习统计功能,实现同一课件跨年度重新选学,课件学习时长小于课件时长记录,限制用户多个浏览器终端或浏览器同时学习,并实现课件继续学习功能,支持断点续学。

人工干预方面,主要是对最终收集的数据进行转换,剔除人员敏感信息,结合本文研究目的,分离仅选学未有学习行为和有学习行为的数据。虽然没有学习行为,但选学课程到个人学习空间,也代表用户的一种兴趣和需求,因此,本文将此类数据保留到了数据集中。

3.2 质量评估

本文提供的2018年科研人员在线学习数据集,通过研究院所维护保障人员信息的真实性,并通过设定系列学时计算规则控制数据质量,保障数据的可用性和真实性,可以基于此学习数据集开展系列学习分析工作。

(1)学习行为与选学行为比例分析

学习率在选学中达到94%,选学某个课件但从未点击开始学习的比例为6%,转化率较好,这为在线资源开发和推送提供依据(图1)。

图1 选学转化率

(2)不同职称男女学习比例分析

根据中国科学院统计年鉴,中科院科研人员专业技术岗位的男女比例约为2.2∶1。本数据集中,具有学习行为的男女科研人员比例为2∶1,说明女性在线学习积极度略高于男性科研人员。在副高级选学人数中,男女选学比例与实际人员数据男女统计比例基本一致;而在初级、中级和正高级的科研人员选学男女比例中,均显示女性科研人员在线选学比男性科研人员更积极一些(图2)。

图2 不同性别和职称学习数据对比

(3)不同职称不同性别人均年累计学习时长分析

对不同职称级别的男性和女性科研人员的年累计学习时长分别求平均值,可以看出男性科研人员的年累计学习时长均高于女性,在正高级科研人员中,尤为突出。而随着职称的提升,科研人员的人均年累计学习数据有较为明显的下降,女性科研人员人均年累计学时从23小时降低到16小时,而男性科研人员人均年累计学时从23小时降低到19小时(图3)。

图3 不同性别和职称人均学习时长对比

(4)学习时间段规律

初级、中级、副高级和正高级人员的学习时间段呈现较为一致的趋势,主要集中在上午 10-12时、14-18时,而18-24时也是不可忽视的学习时间段,这为后续精准推送学习资源的时间提供了参考,使得资源能够更有效地为科研人员学习(图4)。

图4 不同职称人员学习时间段对比

(5)不同年龄每次学习时长特点

利用学习时长数据除以学习记录数据,得到平均每次学习时长,该学习时长与课件时长有较强相关性。结合不同年龄和性别进行分析,可以看出每次学习时长数和年龄、性别无明显相关,基本都在1小时左右(图5)。对数据进行深入分析,可得到更多学习规律。

图5 不同年龄和性别每次学习时长对比

(6)已学习课程与未学习课程分析

共汇聚3062个课件资源,1915个课程被选学,选学率仅达到63%,还有1147个课件从未被选学。通过分析1915个课程的特点,为后续研发课件资源提供支持。

(7)最受欢迎课程分析

按照选学人次对课程进行排序,选课人数在1000人以上的课程,共有11个,集中在大数据、人工智能、信息技术等方面,如表3所示。

表3 选学最多的课程排名

4 数据使用方法和建议

2018年中国科学院继续教育网科研人员在线学习数据集以 EXCEL存储,使用者可以通过EXCEL工具或转换格式导入到数据库进行查看、检索、分析、数据挖掘等操作。可以通过关联规则挖掘课程之间的关系,构建推荐系统,在基于学习行为分析的个性推荐方面开展深入研究和应用,进一步提升中科院继续教育网的智能化水平。

致 谢

感谢在中国科学院继续教育网开发及资源研发中贡献智慧的专家和研发人员。

猜你喜欢
教育网中国科学院职称
“我是一个平凡的人”——中国科学院院士王方定的长寿经
中国科学院院士
——李振声
六部门:职称评聘向乡村教师倾斜
学术造假将被撤销职称并记入诚信档案
《职称评审管理暂行规定》让学术造假撤销职称有法可依
基于IPv6的行业云安全服务互助平台
萧山教育信息网网站管理与设计浅谈
职称
红色平台
基于校园网的网络透明缓存系统的构建与实现