魏顺平,侯文婷,程 罡
(1.中央民族大学 教育学院, 北京 100081; 2.国家开放大学, 北京 100039)
从数据素养的内涵来看,“数据素养”也被称为“数据信息素养”,它由信息素养发展演变而来,是信息素养的一种拓展。大学生在校期间接触到的主要是科学研究相关数据,数据处理需求主要来自学习和科研工作,因此,大学生在校期间的主要任务是习得科学数据素养。
从相关文献看,已有研究多发生在2012—2018 年,距今已经5 年之久,这5 年来,国家基于大数据战略,出台多份文件,相关的具体要求已发生变化,高校学生数据素养也发生新的变化,我们有必要重新调查高校学生数据素养水平。另外,国家还出台多份关于数据安全的文件,对国家数据战略提出新要求,面对新要求,大学生有必要做出新改变,因此,本次调查数据应用与数据安全并重,相比以往调查,更多了解数据安全素养的现状。
本研究基于已有高校学生科学数据素养的研究,开发调查工具,选取分布在我国东、中、西部8 个省份的9 所高校学生,调查我国高校学生的科学数据素养水平以及培训需求。调查主要有三部分内容:高校学生的科学数据素养水平、影响高校学生科学数据素养的因素、学生科学数据素养教育需求。
本研究的问卷编制首先参考先前研究提出的科学数据素养构成框架,并根据研究内容增加了数据安全评价,把数据安全分为数据法律知识、数据伦理、数据规范三个子维度,基于此编制了调查问卷,然后抽取部分学生作为预调研的对象,并根据初步的结果及参加预调研学生的反馈,对问卷进行了反复的修改,最终确定了本研究调研所用的问卷,问卷内容包括:(1)基本信息:性别、学历、专业、家庭居住地、家庭经济情况、家庭文化程度;(2)数据素养:数据意识、数据知识、数据技能、数据安全;(3)教育需求:培训方式、培训具体软件、培训内容。
文章调查采取“问卷星”网络问卷的方式,面向北京市、天津市、湖北省、安徽省、云南省、四川省、贵州省、新疆维吾尔自治区等8 个省份的9所高校学生发放问卷,此次调查面向我国的东、西、中部地区的高校,调查范围较为全面,最终得到问卷480 份,有效问卷446 份,问卷有效回收率约为93%。学生样本基本情况描述见表1。
运用SPSS 软件进行问卷信效度的检验,Cronbach’s Alpha 系数为0.938 >0.8。KMO 值为0.926 >0.7,结果表明问卷信效度较好,可以进行因子分析。数据再进行Bartlett’s 球形检验,sig.=0.000 <0.05,结果再次表明各题目效度和相关性较好,可以进行因子分析。
总体来说,高校学生整体的科学数据素养水平较低。如表2 所示,高校学生四个维度得分的均值都在3 ~4 之间,认知大于行为,在这四个维度中,数据意识和数据安全维度得分相对较高(DC,3.96±0.67),均值较低的是数据知识(DK,3.32±0.68)和数据技能(DS,3.47±0.70),而数据技能中得分最低的是数据处理与分析(DS3,3.26±0.68),数据知识维度得分最低的是数据基本内涵与政策(DK1,2.98±0.74)。
表2 科学数据素养整体情况
进一步分析子维度发现,在数据意识维度中,高校学生对于数据有比较充分的认知,能够意识到数据在科研乃至社会生活中越来越重要,但是对于及时发现数据需求并主动应用的意识较低;在数据技能中,学生对于数据处理与分析、交流与应用的能力远低于其他维度得分,急需提升;在数据知识维度中,得分最低的是数据基本内涵与政策,在“了解大数据的内涵”一题中,均值只有2.92,学生对于数据内涵了解甚少;而在均值较高的数据安全维度中,面对数据安全法律知识,均值仅有3.30,说明学生数据安全法律知识十分欠缺,这点值得引起我们重视。
此问卷对于不同特征类型的科学数据素养进行分析,对于不同性别和教育背景的科学数据素养进行独立样本T 检验,发现不存在差异。将专业类型、家庭居住地、家庭经济情况、家庭文化情况作为自变量,将科学数据素养作为因变量进行ANOVA 分析,结果显示,科学数据素养在家庭居住地、家庭经济收入、家庭文化程度方面出现显著差异,而在专业类型方面并没有显著差异(如表3 所示)。
表3 科学数据素养的个人特征差异
研究首先基于科学数据素养四个子维度得分均值将样本聚类为三类,聚类结果良好,具体聚类中心及各类群体数量见表4。结果显示,类1 中的四个维度得分整体较高,人数占比17.49%。
表4 基于科学数据素养构成的聚类中心
分析三类群体的个人与家庭特征可以发现(如表5 所示),科学数据素养得分较高的类1 相比类2、类3,男生占比(34.62%)较高;研究生学历占比较高,且理工科类专业占比(29.49%)较高;来自农村,以高收入家庭为主,低收入家庭占比(19.23%)较少。科学数据素养得分较低的是类2,类2 和类3 构成相似,以女生为主,分别占比80.25%和82.04%,本科生占比60.49%和60.68%,专业相比于类1 多来自人文社科类专业,主要来自县镇,父母文化程度以初等教育程度为主,且低收入家庭占比较高,分别为30.86%和25.73%。
表5 各聚类的样本分布情况
为进一步探究大学生科学数据素养四个一级维度之间的关系,本文拟通过问卷调查结果,构建结构方程模型,以探索各维度之间的相关系数。
(1)结构方程模型构建。结合问卷设计的维度,确定了大学生科学数据素养结构方程模型的变量体系,如表6 所示。
表6 结构方程模型的变量体系
使用AMOS26.0 软件构建的模型如图1 所示。
图1 高校学生科学数据素养影响因素分析的理论结构模型
构建的结构方程理论模型首先要进行适用性检验,运行Standardized-estimates,运行结果如表7所示。4 个路径系数参照指标外的其余路径系数的显著水平都达到0.05,临界比值的绝对值>1.96,显著性概率值<0.001,说明路径系数均显著,所构建的结构方程理论模型没有问题。[1]
表7 结构方程模型的非标准化路径系数
(2)结构方程模型修正。常用拟合指数中,适配指标应满足卡方自由度比<3.00,GFI >0.90,RMSEA <0.08。由图1 可知,初始结构方程模型卡方自由度比=5.347 >3.00 和GFA =0.724<0.90,RMSEA =0.099 >0.08,未达到适配标准,参照修正指标,建立部分变量之间的相关关系以修正模型。[2]
修正之后模型的拟合指数数值如图2 所示,指标要求已满足,可以确定为最终模型。数据意识与数据知识、数据意识与数据技能、数据意识与数据伦理、数据知识与数据技能、数据知识与数据伦理、数据伦理与数据技能的相关关系系数依次为0.73、0.60、0.61、0.83、0.65、0.68,相互之间的相关系数均大于0.60,说明科学数据素养之间的相互关系甚是密切。其中,数据知识与其他三维度之间的关系系数均较高,说明在教学实践中应注重科学数据素养的全面提升,以使科学数据素养的各个维度起到相互促进的作用。
图2 标准化估计的高校学生科学数据素养培养结构方程模型
(1)数据培训需求。表8 是学生对科学数据素养课程内容需求统计结果。在数据培训上,多数指标响应人数超过50%,一方面说明学生对科学数据素养课程的需求比较大;另一方面,从维度来说,数据分析处理课程需求占比达77.8%,这也与问卷对于科学数据素养水平测量中数据分析处理能力较低相一致。
表8 科学数据素养课程内容需求
(2)数据分析软件课程需求。如表9 所示,软件学习需求最高的是Python,有62.6%的学生提出了这一学习需求; 其次是SPSS(54.0%)、Excel(35.0%),其他数据分析软件如CiteSpace、Amos、PowerBI、Nvivo 等需求较低。前文调查分析表明,学生在数据分析方面整体水平较低,从数据分析软件学习需求调查中也可以看出学生对数据分析软件多样性认识还不够,才会导致只有少数软件有超过1/3 的学生选择,而其他多数软件只有不到10%的学生选择。
表9 数据处理软件学习需求统计
(3)喜爱的培训方式。表10 是学生对喜爱的科学数据素养学习方式统计结果。可以看出,上机实验的形式最受学生欢迎,占比高达70.4%;其次是系统讲授,占比达到67.7%,这一结果符合数据素养这一技能型课程的学习特点。在课时安排上科学数据素养课程系统讲授和上机实验的占比要相当,上机实验的课时占比还应超过系统讲授。另外,45.1%的学生选择在线课堂,在线课堂有回放功能,学习时间比较自由,更加灵活。
依据上述结果,结合当前最新要求和他人成果,本文对提升高校学生科学数据素养提出以下建议。
习近平总书记强调,没有网络安全就没有国家安全,就没有经济社会稳定运行,广大人民群众利益也难以得到保障。[3]2022 年,怀进鹏在主持教育部党组理论学习中心组集体学习暨教育信息化首场辅导报告会时,提出筑牢数据安全底线,构建可持续的数据安全防护体系。[4]大学生是高校的主要人群,大学生数据安全意识和能力的提升将是高等教育领域数据安全的重要保障。加强高校网络安全教育事关国家网络安全防线,事关国家意识形态安全,事关高校立德树人根本任务,具有重要意义,然而当前高校网络安全教育所面临的困境具体表现为边缘化、形式化和碎片化。[5]调查表明,高校学生的数据安全意识状况堪忧。因此,高校必须统筹数据安全与数据应用,将数据安全教育贯彻在高校学生数据素养的全流程,提升学生的数据安全意识,科学规范使用和利用数据。高校需对标国家法律和政策文件对“数据安全”的要求,强化学生的数据安全教育,包括依托校园媒体普及数据安全知识,开展系列数据安全展出活动,开展数据安全教育主题班会,通过各级团学组织深入学生宿舍、教室等场所进行数据安全知识普及宣传,邀请公安系统、安全企业等单位专家现身说法,普及数据安全知识,结合近期热点数据安全案件对学生进行警示教育等。并且学校要特别注重对学生开展敏感个人信息保护教育,教育学生收集处理敏感个人信息时应对必要性、科学性、伦理性进行论证,实施时应取得个人信息主体的单独同意。具体到数据处理的安全教育方面,学校须教育学生在处理教育数据时遵守各项法律要求,并重点注意:(1)收集数据时遵循“最小够用”原则,不得超出职能范围收集数据;(2)存储数据时遵循“最短周期”原则,应根据业务周期确定数据存储期限,超过期限的数据应进行归档或销毁;(3)使用、分析数据时遵循“最小必要”原则,明确数据的录入、查看、修改、删除等权限;(4)开放共享数据时遵循“用而不存”原则,通过接口的方式共享数据。
(1)明确科学数据素养课程目标。明确的科学数据素养课程目标对于高校科学数据素养课程如何教、教什么、怎么教至关重要。在课程目标设计上,一方面要建立在充分了解学生的数据能力现状和需求上,另一方面要结合当前国家大数据战略的不断推进对大学生提出的新要求去设计课程目标,从而使高校学生紧随时代要求,努力做新时代要求的高科学数据素养人才。此外,在调查中发现,研究生相对于本科生来说,科学数据素养水平较高,因此科学数据素养要通过由浅入深的教育,注重教育目标的层次递进性。
(2)采用众筹与动态生成的课程建设模式。构建科学数据素养课程体系是提升学生科学数据素养教育的核心。世界范围内,各类数据持续生产、更新,各类数据处理技术手段不断迭代升级,各类数据应用层出不穷。因此,仅凭教师团队很难做到将更新、更好、更实用的数据素养教学内容呈现在学生眼前,必须借助大数据手段来实现课程内容的动态更新。一种是人力手段,每学期的选课学生既是学习者,又是下一轮教学内容贡献者,学生见到的数据、工具、应用案例以及他们的作品都将成为新的课程内容;另一种是技术手段,通过网络爬虫定期爬取政策、论文、书籍、会议、新闻,从中自动发现新政策要求、新数据平台、新处理方法、新应用场景,不断充实课程内容。
(3)构建成果产出和能力生成导向的课程教学模式。基于OBE 教育理念,构建成果产出和能力生成导向的课程教学模式。在科学数据素养课程中,学生自主学习活动是主要的学习活动。学生通过网络教学平台观看PPT 课件、视频课件以及课程资源库进行自主学习,掌握基本的知识与技能,形成初步的数据应用意识和安全意识。在线下课堂,教师对一些重点、难点、知识点以及复杂操作技能进行讲解、演示,教师带着学生完成一些应用案例并让每位学生形成学习成果,如一幅可视化图表、一份数据分析报告或一份汇报讲稿等。在大数据创新应用环节,教师组织学生组建小组,确定研究选题并开展数据分析研究,过程中教师汇总学生的知识技能盲区补充讲解知识、技能,协助学生完成分析报告。在课程模式中,注重在学生学习过程中产出看得见的成果,注重通过大数据创新应用实践促进学生形成利用大数据解决问题的能力,让学生置身于数据环境中,真正提高科学数据素养。
(4)建立数智融合驱动的教育评价模式。数智融合驱动的教育评价模式是将大数据理念及人工智能技术融入教育评价的各要素、各环节而形成的一种更加科学、专业、客观的教育评价方式,它具有评价主体多元、评价内容全纳、数据采集全面快速、价值分析科学高效、评价反馈智能精准等关键特征,能全面反映学生的科学数据素养水平。
党的二十大报告指出,必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,并进一步指出,要全面提高人才的自主培养质量,着力造就拔尖创新人才。2016 年,习近平总书记在中共中央政治局第三十六次集体学习时强调,网络信息技术是全球研发投入最集中、创新最活跃、应用最广泛、辐射带动作用最大的技术创新领域,是全球技术创新的竞争高地。[6]大数据是网络信息技术的重要组成部分,学校不但要教给学生数据安全、数据知识和技能,更为关键的是引导学生开展数据应用创新,提升创新能力。学校可通过以下形式实现创新应用:
(1)开展校内开放数据竞赛。高校信息化已开展近30 年,积累了丰富的教学、管理、科研数据,如何用好这些数据是摆在教师、管理者面前的一个难题。学校可将历史数据进行脱敏处理,提出当前教学、管理等方面的问题,邀请全校学生跨学院组队参与解决问题。一方面可锻炼学生的数据创新应用能力,另一方面可为学校教学、管理提供优化解决方案,可谓一举两得。
(2)与社会机构合作开展数据竞赛,或推荐学生参加社会知名数据竞赛。已有的大数据竞赛项目有教育部高等学校计算机类专业教学指导委员会等主办的大数据挑战赛、教育部等学校统计学类教育指导委员会指导的全国大学生大数据分析技术技能大赛、中国通信企业协会的全国大学生大数据技能竞赛等。通过竞赛,一方面可以推动校企合作,加强校企共建,提升我国大数据专业人才的实践能力;另一方面能够更好地激发学生的自主学习热情和创新潜力,提高学生团队合作意识和能力。大数据竞赛本身可以视作“理实一体化”“做学教一体化”教学模式的重要一环,它可以使学生搭建平台、数据获取、数据分析与处理等方面的相关能力在真实的大数据项目案例下得到训练与培养。这不仅可以提高学生的整体素质,缩小学生能力与行业需求之间的差距,也更符合当前社会对人才培养规格的要求。