◆黄志宏 巫莉莉
优质数字化教育资源共享是课程建设的根本出发点,加快数字化资源建设是高校教学质量和教学改革工程的重要举措之一,是促进课程建设、提高教学质量的关键环节。2018 年4 月13 日发布的《教育部关于印发〈教育信息化2.0行动计划〉的通知》(教技〔2018〕6 号)中明确提出:“国家将实施教育大资源共享计划,利用大数据技术采集、汇聚互联网上丰富的教学、科研、文化资源,为各级各类学校和全体学习者提供海量、适切的学习资源服务,打破教育资源开发利用的传统壁垒。”[1]
目前高校虽然都在陆续开展数字化教育资源的共享建设,但在建设过程中仍存在一些问题。
1)数字化教育资源数据海量且共享度低,价值密度较低的数据无法有效提纯。
2)数据资源维度少,师生的个性化标签太少,数字化教育资源无法与师生精准匹配,实现因材施教及个性化教学,从而导致数字化教育资源共享应用推广成效不佳。
为了解决上述问题,需要借助大数据分析技术对师生的教学过程数据进行分析,帮助教师对海量的数字化教育资源进行优化筛选,向学生推送适合自己的学习内容,实现个性化教学。
平台框架校园数字化教育资源共享应用平台以虚拟化平台为基础支撑,基于大数据实验平台和管理平台中的数据采集、清洗、存储、分析技术,对在线课程平台中的师生教学过程数据进行分析研究,对学生学习状态进行评估,构建学生个人行为画像,并向学生推荐个性化学习所需的图书馆优秀数字资源和互联网教育资源。平台框架如图1 所示。
关键技术
1)大数据技术[2-4]。数据采集是大数据生命周期的第一个环节,就是综合利用FTP、http、WebService、JDBC、syslog 等接口以及网络爬虫工具,获取信息系统业务数据、设备日志数据、互联网数据等结构化、半结构化、非结构化数据,它是大数据知识服务模型的根本。
数据清洗是过滤掉海量数据中没价值的、错误干扰数据,保留满足业务分析所需的有效数据。通过制定对应的ETL 数据清洗策略来保证数据质量,同时保障根据时间演进不断更新数据模式,确定数据实体及其之间的关系,最终将数据按照统一的格式进行存储,以便提供给上层进行数据分析。
数据存储是采用关系数据库、大数据分布式存储、数据仓库并行的模式将数据加载在大数据管理平台,依据相关规范,合理制定并完成数据存储及异构数据关联,将提供的数据细化到字段级别。数据仓库主要是对清洗后的数据进行加载、入库、存储的操作。
图1 数字化教育资源共享应用技术平台框架
图2 数字化教育资源共享应用技术平台功能图
数据建模是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。数据模型抽象表现的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。
2)非结构化数据处理。非结构化数据的处理主要包括对视频数据、音频数据、图片数据以及文档数据的处理。视频数据是非结构化类型数据中相对最为复杂的数据类型,具有编码格式繁多、数据规模庞大、描述信息维度多、机器识别解析难度高等特点。对于视频数据的处理,可通过转码工具,将各种不同的视频格式数据在不明显影响清晰度等数据质量的前提下转换为统一格式的视频数据,并按文件大小以及视频时长进行统一规格的切片。同时提取视频中的音频信息并转化为文字信息,以识别该视频数据的内容信息,并将此作为检索数据的重要依据标签之一。
音频数据处理任务可以分为两类,一是来自原始音频数据的分类处理任务,二是来自视频格式数据中提取的音频数据处理任务。这两类任务核心目标是通过技术手段获取音频数据中的语音信息,在将其转化为文本信息后,实现音频数据的分类和标签化处理,以供检索。
图片数据处理主要通过来自数据源的信息、源文件的描述信息和人工鉴别与分类的方式获取图片数据的分类和检索信息,同时借助OCR 等图片识别工具,对图片中的文字信息加以识别,从而提取更全面的图片数据所包含的特征信息,实现更精准的分类与检索。
文档数据处理主要通过OpenOffice 组件,针对Office(Word、Excel、PPT)文件以及PDF 等常用的文档数据进行分析处理,从而形成文档数据的分类与检索信息。
平台功能模块数字化教育资源共享应用技术平台包含数据采集、数据清洗、数据存储、数据建模、应用服务五大功能模块,如图2 所示。
1)数据采集模块。数据采集模块主要采集来自校内业务系统的数据和来自校外互联网的数据。业务数据采集主要是数据采集模块通过DB 接口、Socket 接口、WebService接口、FTP 文件接口工具、ETL 工具、网络爬虫等数据工具采集分布式数据,关系数据库中结构化、半结构以及非结构化的数据,来源于教务系统、图书管理系统的业务数据,以及在线教学平台的视频资料、音频资料、文本资料、访问日志和师生教学过程数据。数据采集模块通过设定不一样的采集频率策略,使用任务调度模块调用接口采集工具对接口的数据进行采集、清洗和入库处理。同时,在这过程中对数据质量进行监控。
外部数据采集主要是数据采集模块采用通用的网络爬虫工具对外部网站、论坛上的相关数据进行采集,使用网络爬虫或网站公开的API 等方式从关联网站获取数据,并使用分词等技术对爬取的数据进行处理。此外,数据采集模块可实现附件与正文的自动关联,可将图片、音频、视频等非结构化数据从网页中抽取出来,存储为统一的本地数据文件,并转换成结构化的方式存储[5]。
2)数据清洗模块[2]。数据清洗模块的任务是按照一定规则过滤不符合要求的残缺数据、不正确数据和冗余数据,然后把过滤后的数据按照业务需求进行存储。数据清洗首先根据业务定义和规则分析数据源数据是否存在不正常的数据结构;接着对结果集中的数据进行属性适配,并基于清洗规则进行数据匹配;最后将正常和非正常数据分别存入清洗结果集和异常结果集,并把结果集存入数据库,记录清洗结果。
为了保证清洗后的数据可以为数据建模、挖掘分析、应用开发提供数据服务,数据清洗模块在数据清洗过程中通过保证数据的精确性、完整性、一致性、有效性、唯一性、时间性和稳定性,实现数据的可靠性和可用性。
3)数据存储模块。数据存储模块采取关系数据库存储和大数据系统存储并行的策略:关系数据库存储,采用Oracle 数据库集群;大数据数据库存储,采用HBase 数据库;大数据文件系统,采用HDFS 存储。业务系统中结构化的关系型数据主要存储在Oracle RAC 中,海量高速增长的互联网数据则存储在大数据文件系统中。数据存储模块通过标准化数据接口,为上层应用服务。
4)数据建模模块。数据建模模块主要通过定义和描述业务指标和数据源之间的关系模型,定义业务指标的概念描述,确定业务指标的数据维度,设计各功能的数学模型,使大数据功能符合业务逻辑的要求。
5)应用服务模块[6]。应用服务模块基于学校目前的在线学习平台,对学生的学习行为及教师的教学行为进行综合分析,利用大数据技术分析出学生在网络上的学习行为,如学习效果、学习兴趣等,帮助学生去学习适合自己的学习内容;同时针对学校教师的教学情况进行大数据分析,帮助教师去优化其在线教育资源的授课模式。
①师生教学互动分析。教师及学生在学校的教学行为是高校关注的重点。平台通过采集在线教学平台中师生教学过程数据,能对学生的学习行为以及教师的教学行为进行分析,分析出教师的教学行为差异对学生学习效果的影响、学生每章节的学习质量、学生在线人数、学生访问活跃度,提供教师活跃度、教师工作明细、资源建设情况、网站访问情况、课程的互动明细等数据。
②数字化教育资源使用情况分析。通过对网络教育资源覆盖情况和网络教与资源的集中热度进行分析,可以了解学生对数字化教育资源的选取与利用情况,以便向学生推送更加适合自己的教育资源,推动学生的学习从以教师主讲的单向指导模式向建设性、发现性的学习模式转变,变被动学习为主动学习,变教师传播知识为学生自己重新构建知识,有效地培养了学生的信息素养和建构知识的能力。
③课程综合分析。统计学校每学期在线教育平台的课程,从各专业培养方案和教学计划中开设的课程等不同维度进行分析,为不同专业任课教师岗位人数设置提供依据,科学合理地配置师资力量。具体功能包括热门课程排名、课程师资评价分析及排名、统计所有任课教师人数、选修学生人数、平均授课学时、统计每个教师负责学生人数、每周授课学时等。
④教学数据分析。通过对各类教学数据的分析,汇总班级学生学习的整体进度,帮助教师掌握学生的在线时段;提供每位学生的章节学习情况、资料使用情况;对于学习进度落后于规定计划的学生,可以进行在线督促;提供学习明细、学生在线统计、学生访问活跃度、教师活跃度、教师工作明细、资源建设情况、课程互动明细、同类课程平均值等数据;通过对学生典型学习特征进行抽取,通过标签的方式对其进行画像描述,从整体上呈现其学习状态;通过挖掘学生学习过程数据发现其学习规律和特征,对不符合规律的异常行为进行判断并预警和干预;根据学生的学习数据,分析其学习特征及偏好,并基于此推荐个性化的学习内容和学习活动;支持查看用户情况,查看统计班级学生、团队人数、访问占比、访问时长等数据。
⑤教学能力评估。全面考虑教师的教学工作量和教学效果,建立教师的教学能力评估模型,作为教师评优和开课量的参考,也为评估教师的综合能力提供基础教学能力数据,同时可以向学生提供选课参考。具体功能为统计学生评教情况、学生成绩等数据,考核教师的教学质量,综合分析教学工作数量、课程开设数、选课人数、学生评教分数、学生成绩等指标。
数据整合,降低成本投入数字化教育资源是一种无形的数字资产,充分地挖掘与运用这座可无限开采的数据“金矿”,可实现数据“资产”价值的最大化。教育改革既要有胆魄,更要有科学依据,将教育活动中所产生的教育数据进行采集,依据大数据分析出的结果,给管理部门提供客观的决策依据,可以合理减少人力、物力投入[7]。
个性化学习,决策有依据教育政策的制定不再是简单的经验模仿,而是强调更精细化地捕捉各个层面的变化数据,以及由数据展现的复杂相关性和因果关系,推动学生个性化学习,将教育治理与政策决策带来的危机转化为机遇。同时,随着数字化教育资源的分析推广,高校管理者在教育决策过程中能够更加清晰地了解教育现状,及时掌握全面有价值的信息,在此基础上制定出更加符合教育现代化要求的教育策略,并最终保障其有效地落地实施[8-9]。
为了推动高校教育教学模式的不断创新和改革,优化教学管理方式,提高学生个性化自主学习的能力,将来需要构建更加先进的教学理论模型,对多源、多维度的数据资源和师生的教学行为进行挖掘分析。教师及学生个人行为的标签越丰富,优质数字化教育资源的匹配越精准。■